MATH/통계 기초

통계 기초(P-value, t-test)

mjmjpp 2023. 11. 11. 14:13

P(probability value)=확률값= 어떤 사건이 우연히 발생할 확률

P값이 0.05보다 작다

-> 어떤 사건이 우연히 발생할 가능 성이 없다

-> 뭔가 이유가 있다

-> 유의하다/ 뭔가 의미가 있다/ 인과관계가 있다

P값이 0.05보다 크다

->  이사건은 우연히 발생한 것이다.

-> 인과 관계가 없다

상관관계

->한변수와 다른 변수가 공변하는 함수 관계

-> 양의 상관관계 음의 상관관계-> 방향성을 나타냄

상관계수

->  1-1사이의 범위

-> -1이면 음의 상관관계, +1이면 양의 상관관계, 0이면 아무런 관계 없음

-> 상관계수의 +/-는 방향을 의미

-> 상관계수의 크기는 힘을 의미

->   상관계수가 절댓갑 1에 가까울수록 힘이 세다

->   힘이 세다는 것은 데이터들이 가깝게 모여 있다는 것

->   데이터들이 퍼져 있으면 상관계수가 0에 가까움

->  각도에 상관없이 상관계수는 변하지 않음, 상관계수는 퍼진정도!

->   상관관계와 상관계수로 표현할 수 없는 이차함수

->   상관관게는 방향과 힘을 나타냄

 

#상관관계는 인과관계가 아니다!

 

#t-test

-모집단의 표준 편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플의 평균값에 대한 가설 검정 방법

-t-test의 목적: 두개의 집단이 같은지 다른지를 비교하기 위해 사용

-이를 위해 두집단의 평균을 비교-> 차이가 우연히 발생했을 확률을 구함

-두 집단의 평균값의 차이가 표준 편차보다 현저히 작으면 우리는 이 차이가 우연히 발생했다라고 결론을 내림

-두 집단의 평균값의 차이가 표준편차보다 현저히 크면 우리는 이 차이가 우연히 발생하지 않았다고 결론을 내림

-t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 작은지를 보고 결정하는 통계적 과정

 

=>분산(표준편차)의 마법!!

 

 

#정규분포

z-test : z-score(z)을 가지고 하는 테스트, z값과 표준 정규분포표를 이용하여 할 수 있음

-z-score(z)으로 변환하는 것을 z-transformation 이라고 하기도 하고 표준화라고 하기도함

-z값은 단위로부터 자유롭다

 

#양측 검정 / 단측 검정

양측 검정과 단측 검정의 차이는 대립가설의 차이에서 발생

-양측은 0보다 크거나 작은 두가지를 모두 포함하므로 분포 곡선의 양쪽 꼬리의 면적의 합이 5%에 들어갈 만큼 크거나 작아야함

-단측은 0보다 크다(우측 검정)0보다 작다(좌측 검정)의 두가지로 나누어 볼 수 있고 어느 하쪽 꼬리의 면적이 5%에 들어갈 만큼 크거나 작아야함

-0을 기준으로 양측이든 단측이든 95%안에 들어오면 두 평균값의 차이인 D.a-b는 우연히 발생한 것이므로 두 집단의 평균값은 통계적으로는 같은 것임

 

#t-test를 위한 t값 & t분포
T값의 의미
-t-test의 목적은 두집단의 평균값이 같은지 다른지 알고 싶음
-통계적 가설에 의거하여 두집단의 평균값의 차이가 0과 같은지 다른지 궁금함
-t-value: (a의평균- b의 평균)/(s/√n)
-우리가 궁금해하는 차이는 분자에 있음-> 분자가 얼마나 커야 큰가?
-두 평균값의 차이를 표준 편차와 비교
-> 표준 편차란 우리의 데이터가 평균값을 기준으로 평균적으로 퍼진 정도
-> 표준 편차 자체는 의미 없는 편차
-> 두 집단의 평균 값의 편차가 의미 없는 편차인 표준 편차 만도 못하다면, 당연히 이 차이는 우연히 발생해야한다고 보아야함
-n의역할 : 표본의 크기(n)이 커질수록 t-값은 커지고 t분포는 표준 정규분포에 근사, t-est에서 자유도는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고 자유도가 커지면 t-분포에 묶여 있다가 자유롭게 표준 정규 분포를 사용할 수 있음을 의미->자유도(사이즈가 커질수록 자유롭게 정규분포를 쓸 수 있다고 하기에 자유도 라고 불림)

 

 

 

->1.9961.84보다 크기 때문에 1.4센치의 차이가 우연히 발생할 확률은 95%가 아니라 5%에 들어옴- 발생할 확률이 5%보다 작은 것임

-> 우리의 t값이 c.v보다 크므로 두 평균의 차이인 1.4cm가 우연히 발생했을 확률은 5% 보다 작으므로 이차이는 통계적으로 유의하다고 봄

->두 대학의 학생의 키는 통계적으로 유의하게 다르다 두 대학 학생의 평균키 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으며 이는 우연이 발생했다고 보기 어려워 두 대학의 학생의 키가 다른 뭔가 원인이 있다고 볼 수 있음

 

#t- test의 종류

1.     two sample test-두대학의 평균키가 다르냐 같으냐

2. one- sample test-한 대학의 평균키를 180으로 볼 수 있냐

3. paired t-test-before와 after의 비교 결과

 

출처: https://youtu.be/NG1ZNH1kOl0?si=dMAbLcpxn56t5SE6