데이터의 수식표현

binary classification problem이라는 것은
한국말로 이진 분류 문제 라는 것임
둘 중에 하나 분류하는 문제라는 것

개/고양이 이든지
사람/고양이 이든지
1/0 이든지 yes/no 이든지
좌빨/우빨 이든지
데이터를 집어넣고
이게 어느 편이냐 를 묻는 문제임

사진의 우측 상단의 수식을 보시면
x는 두껍게 그려놓고 y는 얇게 그려놨음
두꺼운거는 벡터 라는 뜻임

이게 뭐냐면
x = (특징1:값1, 특징2:값2, 특징3:값3, 특징4:값4, ...) 이렇게 표현되는 것임
예컨대 데이터가 표현하려는게 고양이 같으면
x=(털:있음, 다리:네개, 꼬리:있음, 소리:야옹, ...)

이런 정보를 x 라는 하나의 알파벳으로 나타내 놓은 것임
근데 y는 왜 안 두껍게 해놨냐면 벡터가 아니고 값 하나 이기 때문인데
그 값이 뭐냐면 '고양이' 임

그래서 (x, y)는 이렇게 읽을 수가 있음
((털:있음, 다리:네개, 꼬리:있음, 소리:야옹, ...), '고양이')
((털:없음, 다리:두개, 꼬리:없음, 소리:ㅆㅂ, ...), '사람')

근데 여기서 끝이 아닌데 x랑 y위에 붙어있는 소문자 L 표시는 뭐냐면
데이터가 몇 번째 데이터인지를 알려주는 표기임
예컨대 1번: ((털:있음, 다리:네개, 꼬리:있음, 소리:야옹, ...), '고양이')
2번: ((털:없음, 다리:두개, 꼬리:없음, 소리:ㅆㅂ, ...), '사람')
이렇게 번호 순서대로 저장되어 있다는 뜻임

수식에서 { } 이건 뭐냐면 집합 표시임
(x,y) 이렇게 생긴 데이터가 매우 여러개 들어있다는 것임
근데 집합이라는 건 순서에 상관이 없는 건데
예컨대 {사과, 배, 집} 이나
{집, 사과, 배} 이나
{사과, 집, 배} 이나
다 퉁쳐서 같은 표현으로 보는게 집합 표시임
그래서 데이터 끼리는 순서가 뒤섞여도 무관하다는 뜻임

예컨대
1번: ((털:있음, 다리:네개, 꼬리:있음, 소리:야옹, ...), '고양이')
2번: ((털:없음, 다리:두개, 꼬리:없음, 소리:ㅆㅂ, ...), '사람') 이나

2번: ((털:없음, 다리:두개, 꼬리:없음, 소리:ㅆㅂ, ...), '사람')
1번: ((털:있음, 다리:네개, 꼬리:있음, 소리:야옹, ...), '고양이') 이나
퉁쳐서 같은 표현으로 보겠다는 것임. 왜냐면 집합 표시니까.

근데 거기다가 소문자 L로 번호를 매겼는데
그래서 x랑 y는 소문자 L로 묶어서 항상 쌍으로 다니도록 조치를 한 것임

예컨대 1번: ((털:있음, 다리:네개, 꼬리:있음, 소리:야옹, ...), '사람')
2번: ((털:없음, 다리:두개, 꼬리:없음, 소리:ㅆㅂ, ...), '고양이')
이렇게 뒤섞이지 않도록 방지하는 역할을 저 소문자 L이 해줌.

근데 번호가 몇번까지 있냐면 1번부터 6번까지 있음.

근데 지금까지 이 줄줄이 긴 발언을, 그림 우측 상단의 수식처럼 압축해서
한 단어 수준의 길이로 표현을 해 놓은 것임

긴 말 주절주절 안하고 핵심만 전달할 때
수식이 유용하게 쓰임.
너무 핵심만이라
읽는 사람을 당황스럽게도 만들지만
그래도 매우 유용함

댓글