P값 (probability value)=확률값= 어떤 사건이 우연히 발생할 확률
P값이 0.05보다 작다
-> 어떤 사건이 우연히 발생할 가능 성이 없다
-> 뭔가 이유가 있다
-> 유의하다/ 뭔가 의미가 있다/ 인과관계가 있다
P값이 0.05보다 크다
-> 이사건은 우연히 발생한 것이다.
-> 인과 관계가 없다
상관관계
->한변수와 다른 변수가 공변하는 함수 관계
-> 양의 상관관계 음의 상관관계-> 방향성을 나타냄
상관계수
-> 1-과 1사이의 범위
-> -1이면 음의 상관관계, +1이면 양의 상관관계, 0이면 아무런 관계 없음
-> 상관계수의 +/-는 방향을 의미
-> 상관계수의 크기는 힘을 의미
-> 상관계수가 절댓갑 1에 가까울수록 힘이 세다
-> 힘이 세다는 것은 데이터들이 가깝게 모여 있다는 것
-> 데이터들이 퍼져 있으면 상관계수가 0에 가까움
-> 각도에 상관없이 상관계수는 변하지 않음, 상관계수는 퍼진정도!
-> 상관관계와 상관계수로 표현할 수 없는 이차함수…
-> 상관관게는 방향과 힘을 나타냄
#상관관계는 인과관계가 아니다!
#t-test
-모집단의 표준 편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플의 평균값에 대한 가설 검정 방법
-t-test의 목적: 두개의 집단이 같은지 다른지를 비교하기 위해 사용
-이를 위해 두집단의 평균을 비교-> 차이가 우연히 발생했을 확률을 구함
-두 집단의 평균값의 차이가 표준 편차보다 현저히 작으면 우리는 이 차이가 우연히 발생했다라고 결론을 내림
-두 집단의 평균값의 차이가 표준편차보다 현저히 크면 우리는 이 차이가 우연히 발생하지 않았다고 결론을 내림
-t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 작은지를 보고 결정하는 통계적 과정
=>분산(표준편차)의 마법!!
#정규분포
z-test : z-score(z값)을 가지고 하는 테스트, z값과 표준 정규분포표를 이용하여 할 수 있음
-z-score(z값)으로 변환하는 것을 z-transformation 이라고 하기도 하고 표준화라고 하기도함
-z값은 단위로부터 자유롭다
#양측 검정 / 단측 검정
양측 검정과 단측 검정의 차이는 대립가설의 차이에서 발생
-양측은 0보다 크거나 작은 두가지를 모두 포함하므로 분포 곡선의 양쪽 꼬리의 면적의 합이 5%에 들어갈 만큼 크거나 작아야함
-단측은 0보다 크다(우측 검정)와 0보다 작다(좌측 검정)의 두가지로 나누어 볼 수 있고 어느 하쪽 꼬리의 면적이 5%에 들어갈 만큼 크거나 작아야함
-0을 기준으로 양측이든 단측이든 95%안에 들어오면 두 평균값의 차이인 D.a-b는 우연히 발생한 것이므로 두 집단의 평균값은 통계적으로는 같은 것임
#t-test를 위한 t값 & t분포
T값의 의미
-t-test의 목적은 두집단의 평균값이 같은지 다른지 알고 싶음
-통계적 가설에 의거하여 두집단의 평균값의 차이가 0과 같은지 다른지 궁금함
-t-value: (a의평균- b의 평균)/(s/√n)
-우리가 궁금해하는 차이는 분자에 있음-> 분자가 얼마나 커야 큰가?
-두 평균값의 차이를 표준 편차와 비교
-> 표준 편차란 우리의 데이터가 평균값을 기준으로 평균적으로 퍼진 정도
-> 표준 편차 자체는 의미 없는 편차
-> 두 집단의 평균 값의 편차가 의미 없는 편차인 표준 편차 만도 못하다면, 당연히 이 차이는 우연히 발생해야한다고 보아야함
-n의역할 : 표본의 크기(n)이 커질수록 t-값은 커지고 t분포는 표준 정규분포에 근사, t-est에서 자유도는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고 자유도가 커지면 t-분포에 묶여 있다가 자유롭게 표준 정규 분포를 사용할 수 있음을 의미->자유도(사이즈가 커질수록 자유롭게 정규분포를 쓸 수 있다고 하기에 자유도 라고 불림)
->1.996이 1.84보다 크기 때문에 1.4센치의 차이가 우연히 발생할 확률은 95%가 아니라 5%에 들어옴- 발생할 확률이 5%보다 작은 것임
-> 우리의 t값이 c.v보다 크므로 두 평균의 차이인 1.4cm가 우연히 발생했을 확률은 5% 보다 작으므로 이차이는 통계적으로 유의하다고 봄
->두 대학의 학생의 키는 통계적으로 유의하게 다르다 두 대학 학생의 평균키 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으며 이는 우연이 발생했다고 보기 어려워 두 대학의 학생의 키가 다른 뭔가 원인이 있다고 볼 수 있음
#t- test의 종류
1. two sample test-두대학의 평균키가 다르냐 같으냐
2. one- sample test-한 대학의 평균키를 180으로 볼 수 있냐
3. paired t-test-before와 after의 비교 결과