데이터 사이언스(DS)와 통계
-
빅데이터 분석기사 5) F 분포와 F 검정(F-test) 그리고 등분산성 검정데이터 사이언스(DS)와 통계 2024. 7. 28. 01:15
F 분포는 '두 카이제곱분포에 대한 비율'로써 정의된다.두 분산을 비교하기 위해, 인위적으로 만든 분포라고 볼 수 있다. F 통계량은 아래와 같이 정의된다. U1,U2은 두 집단의 카이제곱 통계량을 의미 s1, s2 : 두 표본 집단의 표준 편차 σ1, σ2 : 두 모집단의 표준 편차위 F 통계량의 모습에서 유추할 수 있듯이F 통계량은 두 집단의 분산이 같은지 비교하는데 쓰일 수 있다. (등분산 검정) 이러한 F 통계량을 활용한 분산 비교 검정은 회귀분석, Anova 분석 등에서 응용되어 쓰이므로, 그 쓰임새가 많다. 그럼 어떻게 두 분산을 비교하는지 예제를 통해 확인해보자. 예제)수출용 PCB는 탄탄한 내구성을 위해, PCB 기판을 더 두껍게 만들고 있다.PCB 기계의 세팅 값에 변화를 주어, ..
-
빅데이터 분석기사 4) 카이제곱 분포와 검정(chi-squared test)데이터 사이언스(DS)와 통계 2024. 7. 27. 22:25
카이 제곱 분포(χ2 분포)는 k개의 서로 독립적인 확률 변수 x에 대해 제곱하여 더한 것이다.이를 식으로 표현하면, 변수 𝑋1, 𝑋2, ⋯,𝑋𝑘에 대해서 카이제곱 분포는 (𝑋1)^2 + (𝑋2)^2 ⋯, (𝑋𝑘)^2가 된다. 그리고 카이 제곱(χ2) 통계량은 아래와 같다.- s : 표본의 표준편차 - σ : 모집단의 표준편차 - 자유도는 n-1 (자유도에 대한 설명 : 빅데이터 분석기사 2) 중심 극한 정리와 t 검정 (t-test) ) 카이 제곱 통계량의 모습을 보고 유추할 수 있겠지만,카이제곱 통계량과 분포는 '표본의 분산'을 통해 '모집단의 분산'을 '추정'할 때 활용될 수 있다. (이 밖에도 카이제곱은 비율(portion)을 검정하기 위한, 적합도/독립성 검정에도 활용될 수..
-
빅데이터 분석기사 3) t 검정(t-test)과 수행 예시데이터 사이언스(DS)와 통계 2024. 7. 27. 21:28
t 분포와 t 검정에 대한 전반적인 설명은 지난 글에서 설명하였으므로, 지난 글 링크로 갈음하고바로 1표본 t 검정, 2표본 t검정, 동일표본 t검정에 대한 수행 예시로 넘어가겠다.(빅데이터 분석기사 2) 중심 극한 정리와 t 분포) 내가 샘플링한 단일 표본으로 '모평균'을 추정하는 것이다.예제) 공장에서 생산한 10000개의 PCB 기판중 임의로 15개를 샘플링하여, 측정한 기판의 두께(mm)는 다음과 같다.[117, 110, 109, 119, 117, 109, 103, 95, 123, 111, 125, 106, 92, 93, 105]공장에서 생산하는 기판 두께의 평균이 110보다 작은지 검정하라.### 아래 자료를 통해 평균이 110보다 작다고 볼수 있는가?### - 귀무가설 : 평균은 110보..
-
빅데이터 분석기사 2) 중심 극한 정리와 t 검정 (t-test)데이터 사이언스(DS)와 통계 2024. 7. 27. 21:12
모집단의 평균을 모르는 상황에서, 샘플링한 표본만으로 모집단의 평균을 추정해야할때t 분포 (또는 z 분포)를 활용할 수 있다. 그렇다면, t 분포는 무엇이고 어떤 식으로 활용할 수 있을까? 예를 들어, 아래와 같은 '평균 추정' 업무를 수행한다고 가정해보자.예제) 공장에서 생산한 10000개의 PCB 기판중 임의로 15개를 샘플링하여, 측정한 기판의 두께(mm)는 다음과 같다.[117, 110, 109, 119, 117, 109, 103, 95, 123, 111, 125, 106, 92, 93, 105]공장에서 생산하는 기판 두께의 평균이 110이라고 볼수 있는가? 모평균에 대한 추정은 중심극한 정리를 통해 t 분포 (또는 z분포)를 활용할 수 있다. 여기서 중심극한 정리란, 모집단의 분포가 정규분포를 ..
-
빅데이터 분석기사 1) 정규성 검정(Normality Test)과 p-value데이터 사이언스(DS)와 통계 2024. 7. 26. 01:01
"데이터하는 사람인데... 그래도 국가 자격증은 하나쯤 있어야하지 않을까?" 라는 생각에빅데이터 분석기사 자격증 취득했다. 개인적인 정리와 공유 차원에서 혼동하기 쉬운, 통계 쪽 파트만이라도 글을 작성하고자 한다.그 중에 첫번째는 정규성 검정이다. 정규성이란, 영어로 Normality.즉, '자연스러운', '정상성을 갖춘'이라는 의미를 내포한다. 정규 분포는 아래 그림과 같이 종 모양의 좌/우 대칭한 모습을 보이는데,자연에 존재하는 대부분의 것들은 '정규 분포'를 따른다.그리고 많은 통계 검정이 '정규 분포'를 가정하여 이뤄진다.(적어도 빅데이터 분석기사 수준에서의 분포는 그러하다) 따라서, 통계 검정을 진행하기 전에 보유하고 있는 데이터가 '정규한지 아닌지'에 대한 검정(test)이 필요하다. 이를 ..