p-value(유의 확률)의 역설
- Posted at 2020/03/25 16:11
- Filed under 지식관리
전 세계 30만 명이 넘는 확진자와 증가세를 보이는
코비드-19(COVID-19, Corona virus disease 2019)!
세계보건기구 WHO가 최고 경보단계 '팬데믹(pandemic)'을
선언한 지금 어느 때보다 바이오 연구가 높은 관심과 집중을 받고 있습니다.
선언한 지금 어느 때보다 바이오 연구가 높은 관심과 집중을 받고 있습니다.
오늘은 이와 관련한 p-value에 대해 알아보도록 하겠습니다!
먼저 p-value란 무엇일까요? 불과 서너 달 사이 코비드-19와 관련하여 출판된 논문만 1만여 편에 달하는데요. (국제 코비드-19 연관 연구 현황) 확산세 경감과 치료제, 백신 개발 등 다양한 생명연구에서 사용되는 통계지표 p-value! 그 정의부터 연구사례까지 차근차근 보겠습니다!
p-value 정의
코비드-19 연구 단측검정 사례 : 지난 3월 19일에 한국방사선학회지(Korean J Radiol)에 게재된 논문입니다.(Korean J Radiol, 2020) 이 연구의 가설은 '코비드-19 감염 천식 증상을 보이는 환자 중 폐섬유화(fibrosis)가 나타난 경우는 나이가 많을수록 높다.'는 것입니다. 귀무가설은 '환자 중 섬유화가 일어난 사람과 일어나지 않은 사람의 평균 연령은 같다.' 입니다 . 여기서 세워진 가설은 '섬유화가 같이 일어난 환자의 평균 나이가 일어나지 않은 환자보다 많다.' 라고 할 수 있습니다. 이렇게 대립가설에서 '높다.' 혹은 '낮다.' 라는 방향성이 있는 경우 우리는 단측검정을 사용합니다.
p-value 정의
p-value(유의 확률, significance probability)
p-value는 '귀무가설(Null hypothesis)이 맞는다고 가정할 때 얻은 결과보다 극단적인 결과(관측 결과)가 나타날 확률'로 정의됩니다. 일반적으로 p-value < 0.05 혹은 0.01을 기준으로 합니다. 계산된 p-value가 기준값보다 작은 경우 귀무가설을 기각하는 것으로 즉, 극단적으로 귀무가설이 일어날 확률이 매우 낮은 상태를 의미합니다.
단측검정(위 : left-tail p-value, 아래 : right-tail p-value)
코비드-19 연구 단측검정 사례 : 지난 3월 19일에 한국방사선학회지(Korean J Radiol)에 게재된 논문입니다.(Korean J Radiol, 2020) 이 연구의 가설은 '코비드-19 감염 천식 증상을 보이는 환자 중 폐섬유화(fibrosis)가 나타난 경우는 나이가 많을수록 높다.'는 것입니다. 귀무가설은 '환자 중 섬유화가 일어난 사람과 일어나지 않은 사람의 평균 연령은 같다.' 입니다 . 여기서 세워진 가설은 '섬유화가 같이 일어난 환자의 평균 나이가 일어나지 않은 환자보다 많다.' 라고 할 수 있습니다. 이렇게 대립가설에서 '높다.' 혹은 '낮다.' 라는 방향성이 있는 경우 우리는 단측검정을 사용합니다.
양측검정
[출처] 유의 확률
코비드-19 연구 양측검정 사례 : 지난 2월 Cell Discovery에 게재된 논문입니다. ACE2 라는 SARS-coronavirus 수용체 단백질의 서열이 인종 별로 차이가 있는지를 확인한 연구입니다.(Cell Discov, 2020) 귀무가설은 인종 간 단백질 서열의 '차이가 없다.'이고 대립가설은 '차이가 있다.' 입니다. 이렇게 우리가 주장하는 가설의 방향성이 정해지지 않았을 때 우리는 양측검정을 사용할 수 있습니다.
미국통계학회(ASA, American Statistical Association) 2016 성명서
우리는 연구 과정에서 수립한 가설을 증명하기 위한 척도로 p-value를 사용합니다. 즉, 가설이 참인지 거짓인지를 가려내는 갈림길에 서게 되는 것이죠. 앞서 '극단적인 결과가 실제로 관측될 확률' 부분을 잘 읽어보세요! p-value=0.05라는 것은 귀무가설을 참이라고 가정할 때 대립가설에 따른 결과가 우연히 일어날 확률이 5%라는 것을 의미할 뿐, p-value 그 자체로는 어떤 가설의 참/거짓 여부를 판단하는 지표가 될 수 없다는 것이죠.
참고문헌
2016년 3월 미국통계학회는 이러한 과학자들의 p-value에 대한 의존성에 일침을 가합니다.
논지는 'p-value 자체는 내가 세운 가설이 참인지 거짓인지를 판단하는 근거의 하나일 뿐이다.' 입니다. 즉, 이 값이 나의 연구 결과의 중요성이나 효과의 크기를 설명하는 데 있어서 어떤 근거를 제시하지 않는다는 것입니다. 여기서 오해하시면 안 됩니다. 미국통계학회는 p-value가 갖는 의미를 곡해하지 말고 본 의미에 맞게 사용하고 해석하자는 것이 핵심입니다. 통계 도구를 사용하는 많은 사람이 쉽게 빠지게 되는 오류중의 하나인 '확실성'에 대한 추종은 그동안 p-value를 일종의 절대적 지표로써 사용되게 하였습니다.
p-value의 오용
그렇다면 우리가 겪을 수 있는 p-value에 의존한 결론 도출이 가져오는 오류는 어떤 것들이 있을까요? 아래 두 가지 오류를 살펴보도록 하겠습니다.
1. 2종 오류(Type II error)로 인한 실제 의미 있는 결과의 배제
2. 기준점 5%를 맞추기 위한 지나친 표본 수의 증가
첫 번째 오류는 이렇습니다. 질병 A 환자군과 정상인 군에서 유전자 B 발현 값 평균을 검정한 결과 p-value=0.06가 나왔다면 우리는 유전자 B와 질병 연관성이 없다고 결론을 내려왔습니다. p-value의 정의로 해석해보면 다음과 같습니다. '질병 A 환자군과 정상인의 유전자 B 발현 값 평균이 같을 확률은 6%이다. = 100번의 테스트 중 6번의 결과가 A, B에서 동일하게 확인되었다.' 뭔가 이상하지 않나요? 전자는 p-value 0.05 이하의 경우 유(有) 의미(반대로 p-value 0.05 초과는 무(無)의미)하다는 확정성에 근거하여 질병 A와 유전자 B 연관성을 부정하였습니다. 하지만 실제로 4%, 5%, 6%가 유/무의미를 결정지을 만큼의 절대적 기준이 될 수 있을까요?
두 번째 오류는 먼저 p-value 계산에 사용되는 통계치인 Z 통계치(Z statistic) 산정식입니다.
뭔가 이상한 점을 찾으셨나요? 바로 'n' 표본 수입니다. 동일한 표본 평균과 분산을 가질 때 이 n이 커지게 되면 p-value는 낮아지지는 경향이 있습니다.
마무리
이번 글에서는 통계학에서의 p-value의 의미와 해석 방법 그리고 오용했을 때 발생할 수 있는 오류에 대해 살펴보았습니다. 어떠신가요? 그동안 여러분들을 옭아매던 p-value < 0.05의 굴레에서 벗어나셨나요? 생물학에는 정말이지 셀 수조차 없는 변수들이 존재합니다. 그중에서 질서를 찾기 위해 하나의 지표로써 p-value는 분명히 의미를 갖습니다. 통계 도구의 올바른 적용과 해석으로 가치 있는, 즐거운 연구 되시기를 바랄게요~!
성명의 6가지 원칙 원문:미국통계학회, 2017 1. P-values can indicate how incompatible the data are with a specified statistical model. - P-value는 주어진 데이터가 얼마만큼 통계모델을 따르지 않는지를 나타낼 수 있다. 2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone. - P-value는 대립가설이 참일 확률, 또는, 우연히 발생할 확률을 측정하는 값이 아니다. 3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. - 어떤 과학적, 정책적인 결론의 근거로 p-value만을 그 지표로써 사용해서는 안 된다. 4. Proper inference requires full reporting and transparency. - 합당한 추론을 위해 완전한 보고와 투명성이 보장되어야 한다. 5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result. - p-value는 연구 결과에 중요성이나 효과의 크기를 측정한 값이 아니다. 6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis. - p-value 자체만으로는 모형 또는 가설에 대한 좋은 증거가 되지 못한다.
논지는 'p-value 자체는 내가 세운 가설이 참인지 거짓인지를 판단하는 근거의 하나일 뿐이다.' 입니다. 즉, 이 값이 나의 연구 결과의 중요성이나 효과의 크기를 설명하는 데 있어서 어떤 근거를 제시하지 않는다는 것입니다. 여기서 오해하시면 안 됩니다. 미국통계학회는 p-value가 갖는 의미를 곡해하지 말고 본 의미에 맞게 사용하고 해석하자는 것이 핵심입니다. 통계 도구를 사용하는 많은 사람이 쉽게 빠지게 되는 오류중의 하나인 '확실성'에 대한 추종은 그동안 p-value를 일종의 절대적 지표로써 사용되게 하였습니다.
p-value의 오용
그렇다면 우리가 겪을 수 있는 p-value에 의존한 결론 도출이 가져오는 오류는 어떤 것들이 있을까요? 아래 두 가지 오류를 살펴보도록 하겠습니다.
1. 2종 오류(Type II error)로 인한 실제 의미 있는 결과의 배제
2. 기준점 5%를 맞추기 위한 지나친 표본 수의 증가
첫 번째 오류는 이렇습니다. 질병 A 환자군과 정상인 군에서 유전자 B 발현 값 평균을 검정한 결과 p-value=0.06가 나왔다면 우리는 유전자 B와 질병 연관성이 없다고 결론을 내려왔습니다. p-value의 정의로 해석해보면 다음과 같습니다. '질병 A 환자군과 정상인의 유전자 B 발현 값 평균이 같을 확률은 6%이다. = 100번의 테스트 중 6번의 결과가 A, B에서 동일하게 확인되었다.' 뭔가 이상하지 않나요? 전자는 p-value 0.05 이하의 경우 유(有) 의미(반대로 p-value 0.05 초과는 무(無)의미)하다는 확정성에 근거하여 질병 A와 유전자 B 연관성을 부정하였습니다. 하지만 실제로 4%, 5%, 6%가 유/무의미를 결정지을 만큼의 절대적 기준이 될 수 있을까요?
두 번째 오류는 먼저 p-value 계산에 사용되는 통계치인 Z 통계치(Z statistic) 산정식입니다.
뭔가 이상한 점을 찾으셨나요? 바로 'n' 표본 수입니다. 동일한 표본 평균과 분산을 가질 때 이 n이 커지게 되면 p-value는 낮아지지는 경향이 있습니다.
마무리
이번 글에서는 통계학에서의 p-value의 의미와 해석 방법 그리고 오용했을 때 발생할 수 있는 오류에 대해 살펴보았습니다. 어떠신가요? 그동안 여러분들을 옭아매던 p-value < 0.05의 굴레에서 벗어나셨나요? 생물학에는 정말이지 셀 수조차 없는 변수들이 존재합니다. 그중에서 질서를 찾기 위해 하나의 지표로써 p-value는 분명히 의미를 갖습니다. 통계 도구의 올바른 적용과 해석으로 가치 있는, 즐거운 연구 되시기를 바랄게요~!
참고문헌
- https://www.who.int/emergencies/diseases/novel-coronavirus-2019
- https://www.amstat.org/asa/files/pdfs/P-ValueStatement.pdf
- https://insilicogen.com/wiki/Chest%20Radiographic%20and%20CT%20Findings%20of%20the%202019%20Novel%20Coronavirus%20Disease%20%28COVID-19%29%3A%20Analysis%20of%20Nine%20Patients%20Treated%20in%20Korea.%20Korean%20J%20Radiol.%202020%20Apr%3B21
- https://insilicogen.com/wiki/Comparative%20genetic%20analysis%20of%20the%20novel%20coronavirus%20%282019-nCoV/SARS-CoV-2%29%20receptor%20ACE2%20in%20different%20populations.%20Korean%20J%20Radiol.%202020%20Apr%3B21
- https://adnoctum.tistory.com/332
- http://www.haghish.com/resources/materials/Statistical_Methods_for_Research_Workers.pdf
- https://en.wikisource.org/w/index.php?oldid=3592335
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2816758/
- https://www.ibric.org/myboard/read.php?Board=news&id=270293
작성자 : RDC 경동수 주임
Posted by 人Co
- Response
- No Trackback , No Comment
- RSS :
- https://post-blog.insilicogen.com/blog/rss/response/341
Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다