728x90
반응형

통계학 전문가가 아니라 논문 읽는법 공부하려고 정리한거라 근본없을 수 있습니다. 


항암제 임상데이터 등을 보면 아래와 같은 차트를 볼 수 있다. 이러한 차트 형태를 Kaplan-Meier Curve 라고 하는데, 어떤 식으로  차트를 해석하는지를 정리했다... 

사실 아래 페이지 내용을 대부분 가져온건데, 정리가 정말 잘되어있어서 기억 잘나게 일부 부분만 스크랩을 하면... 

 

Kaplan Meier curves

An introduction

towardsdatascience.com


예를 든다면 매 시점 별로 몇 명의 표본이 생존해있는지 측정하고, 이를 비율로 나타내  아래와 같이 그린 것이다. Number at Risk는 아직 생존해 있는 사람을 보통 지칭한다. Time 3~4 사이에는 10명 중 7명이 생존해 있는 셈이고, 한 명이 추가로 사망하는 경우 계단식으로 차트가 떨어진다. 

그런데 모든 참가자가 동일하게 끝까지 실험에 참가하는 것이 아니라, 일부는 실험 중간에 측정이 중단될 수도 있다. 이를 Censored Data 라고 부른다. Censored Data는 데이터 측정이 가능한 지점 까지는 비율 계산에 포함하지만 그 이후로는 비율 계산에 포함시키지 않는다. 그리고 측정이 중단 된 시점을 기준으로 X, O, / 등 표시를 해서 나타낸다. (이 표시의 의미를 찾는데 한참 걸렸다.)

그 다음부터는 환자가 사망하는 경우, 남아있는 비율대로 생존확률을 낮추게 된다. 위 예시의 경우 총 10명으로 실험을 시작하였으나 Time 5 이전에 환자가 2명 사망하고 2명이 중단하였기에, 이후 한명 사망할 때 마다 비율은 1/6씩 감소한다. 

이를 바탕으로 Hazard Ratio를 구할 수 있다. 집단간에 얼마나 Event가 빈번하게 일어났는지 비율을 비교하는 것이다. 

이를 아래와 같이 신뢰구간을 구하여 그래프로 그릴수도 있다. 1을 기준으로 비율을 통해 어느 쪽이 더 위험도가 높은지를 판단하고 신뢰구간을 구할 수 있다. X축이 로그로 표기되어있는 것을 유의 (비율이 중요한 지표니까...) 

728x90
반응형

+ Recent posts