부스트 캠프 ai tech 1주 3일차 Ai Math (5)
5. 통계학
- 다량의 데이터를 관찰하고 정리 분석하는 수학분야
5.0 용어정리
- 모집단 : 정보를 얻고자 하는 대상이 되는 집단의 전체
- 표본집단 : 모집단으로부터 추출한 데이터 집합
- 통계량 : 표본집단의 평균, 표준편차, 분산 등의 데이터를 말한다
- 표본분포 : 표본집단의 확률분포
- 표집분포 : 통계량의 확률분포
5.1 모수
- 모평균 모표준편차 모분산 등 모집단의 데이터를 말한다.
- 유한한 개수의 데이터를 관찰하는것으로 우리는 모집단의 분포를
정확하게 파악하는것은 불가능
하기 때문에 근사적으로 확률분포를 추정해야한다 - 모수적 방법론
- 데이터가 특정 확률분포를 따른다고 가정한 뒤 모수를 추정하는 방법
- 보통 충분히 많은 데이터가 확보 되었을때 사용한다
- 비모수적 방법론
- 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌는경우
- 모수의 특성을 이용하지 않는다
5.2 확률분포를 가정하는 방법
- 데이터가 2개의 값 (0 또는 1)만 가지는 경우 $\rightarrow$ 베르누이 분포
- 데이터가 n개의 이산적인 값을 가지는 경우 $\rightarrow$ 카테고리 분포
- 데이터가 $[0,1]$ 사이에서 값을 가지는 경우 $\rightarrow$ 베타분포
- 데이터가 0 이상의 값을 가지는 경우 $\rightarrow$ 감마분포, 로그정규분포 등
- 데이터가 $\mathbb{R}$ 전체에서 값을 가지는 경우 $\rightarrow$ 정규분포, 라플라스분포 등
정규분포의 모수 평균과 분산
- 표본집단의 데이터를 $X$ 라고할때 표본평균 $\bar{X}$ 와 표본분산 $S^2$은 다음과 같다
$$
\bar{X} = \frac{1}{N}\sum_{i=1}^{N}X_{i}\qquad S^2 = \frac{1}{N-1}\sum_{i=1}^{N}(X_{i}-\bar{X})^2
$$- 이때 모집단의 모수인 평균 $\mu$ , 분산 $\sigma^2$ 표본평균과 표본분산의 기댓값으로 추정 할 수 있다
$$
{\displaystyle \operatorname {E}[\bar{X}]=\mu\quad\operatorname{E}[S^2] = \sigma^2}
$$- 통계량의 확률분포를 표집분포라고 부르며 표본평균의 표집분포는 $N$이 커질수록 정규분포를 따른다
5.3 최대 가능도 추정법 maximum likelihood estimation
- 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나
- 어떤 상태 $\mathbf{x}$ 를 관측할 가능성이 제일 높은 모수를 추정하는 방법
$$
\hat{\theta}_{MLE} = \underset{\theta}{argmax}L(\theta; \mathbf{x}) = \underset{\theta}{argmax} P(\mathbf{x}|\theta)
$$
5.4 KL divergence 쿨백-라이블러 발산
- 두 확률분포가 얼마나 떨어져 있는지를 나타낸다
- 거리로써 사용은 불가능하다
- 역이 성립을 하지 않은다
- 솔직하게 여기에 정리하기에는 많이 중요한 내용이고 양도 많다
- 많이 중요하다 따로할 예정이다 그때 링크를 추가할 예정
부스트 캠프 ai tech 1주 3일차 Ai Math (5)
https://kyubumshin.github.io/2022/01/19/boostcamp/week/week1/AIMath-5/