YZ ZONE

[자연어처리] 2.4 자연어처리를 위한 수학(평균과 분산) 본문

IT/자연어처리

[자연어처리] 2.4 자연어처리를 위한 수학(평균과 분산)

러블리YZ 2023. 2. 2. 17:35

데이터가 많은 샘플들을 가지고 있는데 이것을 대표하는 정보를 어떻게 사용할 것이냐.가장 널리 쓰이는 방법에 평균과 분산이 있음.

평균: u=각각의 데이터(xi)의 값들을 다 더한 다음 개수만큼 나눔.

분산: 각각의 값에서 평균을 뺀 다음 제곱을 해서 값을 모두 더함. 그 다음 개수만큼 나눔. 분산에 제곱을 씌워주는것을 표준편차라고함.

공분산행렬

: i, j라는 인덱스가 있었을때 두개의 다른 특징들의 면화 양상을 뜻함. 한쪽의 특징이 커질때 다른쪽도 커지면 양수 반대면 음수를 가짐.

2.2.5 유용한 확률분포

가우시안 분포

 

가운데가 확률이 높고 가장자리로 갈수록 확률이 적어지는 형태를 정규분포를 따른다고 이야기하고 가우시안 분포가 정규분포를 표현하는데 가장 널리 사용되어지는 방법중의 하나이다.

높이가 평균 퍼짐의 정도를 분산의 값으로 표현함.