01_11.jpg

 

"Semiparametric Accelerated Failure Time Modeling for Clustered Failure Times From Stratified Sampling" - JASA, 110, 621-629

 

[전문가 인터뷰 13] 강상욱 교수_추가자료.pdf

 

 

1. 먼저 본인의 간략한 소개를 부탁드립니다.

안녕하세요. 연세대학교 응용통계학과 조교수로 재직중인 강상욱입니다. 서울대 계산통계학과 94학번이고 University of North Carolina at Chapel Hill에서 2007년에 Biostatistics로 박사학위를 받았습니다. 그 후 University of Georgia의 Department of Epidemiology and Biostatistics와 University of Connecticut의 Department of Statistics에서 조교수로 2013년까지 있었습니다. 주 연구분야는 생존 자료 분석 (Survival Analysis) 이고 특히 case-cohort 설계같은 코호트 표집 (cohort sampling) 설계를 통해 얻어진 생존 자료의 분석방법 개발을 주로 연구해왔습니다. 근래는 준모수 고장 시간 (semiparametric accelerated failure time; AFT) 모형의 효율적인 적합에 관심을 가지고 연구를 진행했습니다.

 

 

 

2. 상기 논문의 아이디어를 어떻게 얻었는지, 진행과정에서 어떤 어려움이 있었는지, 그리고 어떻게 극복했는지에 대해 말씀해 주시겠습니다?

제 박사논문 주제중 하나는 생존 자료가 case-cohort 설계에서 발생했을 때 Cox 비례 위험 (proportional hazard) 모형을 적합하는 방법을 일변량 (univariate) 환경에서 다변량 환경으로 확장시키는 것이였습니다. 제가 2010년에 University of Connecticut으로 옮겨서 만나게 된 동료 통계학자인 Jun Yan교수는 준모수 AFT 모형의 효율적인 적합법에 관심을 가지고 연구하고 있었습니다. 함께 induced smoothing 방법을 사용해서 AFT 모형의 효율적인 적합법을 연구했는데 특히 회귀계수 추정량의 분산을 기존의 방법에 비해 좀 더 손쉽고 효율적으로 추정하는 방법들을 고안하였습니다. 이를 당시 박사과정생이던 Chiou 교수를 함께 지도하며 그의 박사논문 주제로 AFT 모형을 일반적인 일변량 자료에 적용하고 case-cohort 환경으로 확장하는 논문을 출간하게 되었습니다 (Chiou, Kang and Yan, 2014a, Statistics and Computing). 자연스럽게 제 박사논문에서 고려했던 case-cohort 설계에서 군집화 된 (clustered) 생존 자료가 발생한 환경으로 확장시키는 후속 논문을 생각하게 되었습니다. 또한 이 논문은 방법론을 제안하고 모의 연구를 통해 제안한 방법이 잘 작동하고 기존의 방법에 비해 계산의 효율성이 좋다는 것을 보이는데 중점을 두었습니다. 제안된 추정량의 일치성이나 점근 분포등 이론적인 성질을 후속 논문을 통해 규명할 필요가 있었습니다. 이렇게 상기논문을 진행하게 되었습니다.

진행과정에서 이 연구와 관련해 특별히 어려운 일은 없었던 것으로 기억합니다. 제가 상기논문에 관련해서 맡은 일은 case-cohort 자료를 적합하는데 필요한 방법론 부분과 제안된 추정량들의 이론적인 성질을 규명하는 부분이였습니다. Yan교수와 Chiou교수가 저에게 증명 부분을 전적으로 맡겨놓아서 중간에 막힐 때마다 혼자 고민을 많이 했던 부분이 그나마 상기논문관련 저에게 가장 어려웠다고 할 수 있습니다. 다행히 제가 박사논문때 사용했던 증명들과 기존 AFT 모형 적합관련한 논문들에 있는 증명들을 이용해 해결할 수 있었습니다.

 

 

 

3. 논문의 내용에 대한 설명을 부탁드립니다.

위에서도 간략하게 말씀드렸지만 기본적으로 코호트내 층화 추출 (stratified sampling)에 의한 표본 설계에서 생성된 군집화 된 생존 시간 자료를 AFT 모형으로 적합하는 방법을 제안한 논문입니다. 논문 내용을 소개하려면 관련된 부분에 대한 이야기가 좀 필요합니다. 크게 두 가지입니다. 첫째, 생존 자료를 얻는 표본 설계에 대한 이야기입니다. 일반적으로 생존 시간 자료는 코호트 연구를 통해 얻어지는데 코호트 연구는 종종 오랜 시간 동안 많은 수의 개체를 추적해야 하므로 많은 비용과 노력을 필요로 합니다. 특정 인자가 생존 시간에 미치는 영향은 주로 연구에서 관심이 되는 사건을 경험한 개체, 즉 사례군 (cases)으로부터 대부분의 정보를 얻어냅니다. 연구 종료시점까지 이러한 사건을 경험하지 않는 개체, 즉 대조군 (controls) 이 제공하는 정보는 상대적으로 미미합니다. 만약 이러한 사건이 드물게 발생하는 경우는 연구 코호트내의 사례군의 크기가 대조군의 크기에 비해 훨씬 작을 것입니다. 따라서 우리가 원하는 수준의 효과를 검출하기 위해서는 코호트의 크기를 늘려야 하는데 이는 상대적으로 덜 중요한 (정보제공량의 의미에서) 대조군이 코호트의 대부분을 차지한다는 것을 생각해보면 낭비일 수 있습니다. 이러한 문제는 관심 위험 인자의 측정이 많은 비용과 노력을 필요로 할 때 더욱 커집니다. 따라서 이러한 문제를 해결하기 위해 코호트 내에서 표본 추출을 하고 그렇게 추출된 표본들에 대해서만 관심 위험인자를 측정하는 방법이 제안되었습니다. 주로 많이 이용되는 코호트 내 표본 추출방법인 case-cohort 연구에서는 subcohort라고 불리는 임의의 표본을 코호트로부터 추출하고 여기에 추출되지 않은 사례군을 더해줍니다. 이렇게 추출된 표본은 사례군 전부와 일부의 대조군만을 포함하는 형태를 가지고 있습니다. Subcohort를 층화 추출법에 의해 추출하면 stratified case-cohort 연구가 되고 이는 결국 일반적인 층화 추출의 특별한 경우임을 알 수 있습니다. 상기 논문에서는 코호트 내에서 일반적인 층화 추출에 의한 표본을 가정했습니다. 나아가 생존 시간이 군집화 되어 있는 경우를 고려했습니다. 이는 저희가 분석하고자 한 치과 연구 자료가 사건의 발생 여부에 따른 층화 추출로 표본을 얻었고 군집화 된 생존 시간을 가진데 기인합니다.

 

둘째, 생존 시간에 대한 기저 모형인 준모수 AFT 모형의 효율적인 적합 방법입니다. 생존 자료의 회귀분석에서는 단연 Cox 비례 위험 모형을 많이 가정합니다. 여러 가지 이유가 있겠지만 무엇보다도 모형 적합이 간단하고 효율적이며 우리가 흔히 사용하는 SAS, R, SPSS등의 대부분의 통계 소프트웨어에 구현이 되어 있기 때문입니다. 따라서 실제 자료를 분석하는 연구자들이 쉽게 접근하고 사용할 수 있습니다. 반면 AFT 모형은 일반적으로 연속형 반응변수에 대한 선형회귀모형과 동일한 형태를 지니고 있습니다. 또한 회귀계수의 해석이 생존시간에 대해 가능하기 때문에 위험 함수를 모형화하는 Cox 모형에 비해 해석이 직관적입니다. 준모수적 AFT 모형은 오차항에 특정한 분포를 가정하지 않기 때문에 Cox 모형이 가지는 유연함이라는 장점을 공유합니다. 이런 장점에도 불구하고 준모수적 AFT 모형은 실제 자료 분석에는 잘 사용되지 않았는데 그 주 원인은 회귀 계수의 추정에 주로 사용되는 가중 순위 기반 (rank based) 추정 방정식이 모수에 대한 불연속 함수라는 점에 있습니다. 이로 인해 방정식의 해로 정의되는 추정치를 실제 구하는 계산이 일반적으로 비효율적이고 불안정합니다. 더욱이 추정치의 분산의 추정치를 계산하는 것은 비모수적 추정을 필요로 하므로 종종 복잡하고 불안정한 결과를 가져옵니다. 따라서 통계소프트웨어에 잘 구현되지 않았고 실제 자료 분석에는 잘 이용되지 않았습니다. 이를 해결하기 위한 많은 시도가 있었고 저희가 이용한 induced smoothing 기법도 그 중 하나입니다. Induced smoothing기법은 Brown과 Wang에 의해 2005년에 제안되었습니다 (Brown and Wang, 2005). 요지는 불연속 추정 방정식 대신 적당히 변환된 연속 추정 방정식을 고려하는데 그 해가 원래 추정 방정식의 해와 점근적으로 동일한 성질을 지닌다는데 있습니다. Brown과 Wang이 이를 2007년에 Gehan 형태의 가중치를 고려한 가중 순위 기반 추정법을 이용한 AFT 모형으로 induced smoothing방법을 확장 적용시켰습니다 (Brown and Wang, 2007). 저희는 이 방법론을 군집화된 생존자료가 코호트내 층화추출에 의해 생성된 경우로 확장시키는 것을 고려했습니다.

따라서 상기 논문에서는 군집화 된 생존 시간 자료가 층화 추출에 의한 표본 설계에 의해 발생된 경우를 가정했고 생존 시간의 주변 분포 (marginal distribution)를 준모수 AFT 모형을 가정해 적합하는 방법을 제안했습니다. 준모수 모형의 회귀 계수 추정을 위해 Gehan 형태의 가중치를 가정한 가중 순위 기반 추정법에 induced smoothing을 적용한 방법을 사용했습니다. 군집화 된 생존 시간을 다루기 위한 방법으로 주변 모형 접근법 (marginal model approach)을 사용했습니다. 즉, 생존 시간의 주변 분포만 모형화하고 상관행렬은 identity 행렬, 즉 서로 독립이라 가정하고 모형의 적합을 진행합니다. 이렇게 해서 얻어지는 회귀계수의 추정치는 여전히 일치성을 가진다는 장점이 있습니다. 회귀 계수의 추정에 주 관심이 있고 군집화로 인한 생존 시간사이의 연관성 자체에는 관심이 있지 않을 때 유용하게 사용할 수 있는 방법입니다. 후에 간단히 소개할 치과 예제가 이런 경우에 해당됩니다. 여기에 자료가 얻어진 표본 설계를 반영하기 위해서 추정 방정식에 개체 포함 확률의 역수를 또 다른 가중치로 추정 방정식에 포함시킵니다. 이러한 방정식의 해를 회귀 계수의 추정치로 정의합니다. 회귀 계수의 추정치의 분산은 induced smoothing 방법을 사용할때는 주로 multiplier resampling 방법을 이용하는데 많은 수의 추정방정식을 풀어야 하기 때문에 시간이 오래 걸릴 수 있다는 문제점이 있습니다. 따라서 Chiou, Kang, Jun (2014a)이 제안한 좀 더 효율적인 방법을 확장시켜 적용할 것을 제안했습니다. 기본적인 아이디어는 점근 공분산을 로버스트한 샌드위치 추정치를 이용하여 구하되 두 개의 항 (샌드위치의 빵과 고기)을 직접 추정하거나 좀 더 효율적인 resampling 기법을 사용하는 것입니다. 기존의 multiplier resampling 방법과 비슷한 결과를 보이지만 훨씬 더 효율성이 높다는 결과를 얻을 수 있었습니다.

 

위에 제안한 추정치의 점근적 성질, 즉, 적당한 조건하에서 일치성을 지니고 점근적으로 정규 분포를 따름을 유도했습니다. 또한 유한 표본에서의 성능을 다양한 setting하에서 점검하여 표본수가 어느정도 이상이면 잘 작동한다는 것을 보일 수 있었습니다. 마지막으로, 실제 치과 예제에 적용하여 분석을 시도했습니다. 이 논문에서 사용한 실제 자료는 Kang과 Cai (2009)가 Cox 모형을 사용하여 분석한 적이 있습니다. 이 연구에서 관심사는 치수 감염 (pulpal involvement)이 치아의 생존에 미치는 영향에 있습니다. 특히 신경치료 (root canal therapy)가 감염되지 않은 일반 치아에 대해 생존 시간에 어떤 영향을 받는지 여부에 관심이 있습니다. 이를 위해 신경치료를 받은 치아가 있는 환자들중 연구 종료 시점에서 해당 치아의 생존 여부로 집단을 구분하여 서로 다른 확률로 표본 추출을 했습니다. 즉, 해당 치아가 발치된 경우에는 대부분의 환자들을 표본으로 추출 (약, 82%) 하고 아직 생존해 있는 경우는 상대적으로 적은 비율 (11%)로 표본으로 추출하였습니다. 그런 후에 각 환자내에서 해당 치아의 반대편에 있는 동일한 종류의 신경치료를 받지 않은 치아를 골라 생존 시간을 기록했습니다. 따라서 최종 표본은 한 환자내에 두 개의 치아에 대한 생존 시간을 고려하기 때문에 군집화에 의한 상관성이 존재하고 표본은 환자의 신경치료를 받은 치아의 생존 여부를 이용한 층화 추출에 의해 표집된 특징을 가지고 있습니다. 저희가 제안한 방법에 의해 내린 결론은 어금니의 경우 신경치료를 받은 치아가 그렇지 않은 치아에 비해 생존시간이 약 7배정도 짧다입니다. 이는 2009년 Kang과 Cai의 논문에서 Cox 모형을 이용했을때와 비슷한 결론입니다.

 

 

 

4. 이 논문의 시사점은 무엇이며 후속 연구를 어떤 방향으로 진행되고 계신지요?

생존 자료의 경우 코호트 연구에서 군집화 된 자료를 다루는 경우는 많습니다. case-cohort 설계는 일변량 자료에 흔히 사용됩니다. 하지만 이 두 가지 요소를 동시에 가지고 있는 자료에 대한 통계적 분석 방법은 많이 개발되지 않았습니다. 본 논문은 생존 시간에 대해 기저 모형으로 준모수 AFT 모형을 가정하고 이를 위에 말한 특징을 지닌 자료에 적합하는 방법을 제시하였습니다. 저희가 제안한 추정치의 점근적 성질을 이론적으로 확립하였는데 이는 기존에 일변량 case-cohort 자료에 대해 제시된 방법 (Chiou, Kang, Yan 2014a)의 이론적 근거 또한 제공합니다. 또한 여기 제안된 방법은 효율적인 AFT 모형의 적합이 가능하고 실제 자료 분석에 용이하도록 aftgee라는 R 패키지에 구현되어 있습니다 (Chiou, Kang, Yan 2014b). 따라서 준모수 AFT 모형이 생존자료의 회귀분석에 더 다양하게 사용될 수 있는 이론적인 배경과 실제적인 도구를 제공합니다. 이는 현 Cox 모형으로 대표되는 생존자료의 회귀분석의 패러다임에 한 대안점을 제공하는 발판이 되리라 생각됩니다.

후속연구로 고려할 점들이 몇 가지가 있습니다. 본 논문에서 제안한 추정 방정식은 두 종류의 가중치를 고려합니다. 우선 순위 기반 추정법에 관련된 가중치의 경우 여러 가지 다양한 형태를 고려할 수 있지만 일단 Gehan의 형태로 제한을 두고 있습니다. 이건 induced smoothing방법이 Gehan 형태의 가중치에 대해서만 개발되어 있었기 때문입니다. 최근에 Chiou, Kang, Yan (2015a)이 Statistics in Medicine에 게재한 논문에 일변량 자료에 대해 일반적인 형태의 가중치를 사용할 수 있는 방법을 제시했습니다. 이 방법론을 일변량 그리고 군집화된 case-cohort 자료로 확장하는 방향으로 연구하고 있습니다. 그리고 다른 형태의 가중치는 표본 설계를 고려하기 위해 포함되었습니다. 현재 고려한 가중치는 개체 포함 확률의 역수의 형태인데 이 가중치는 추정치의 불편성을 보장하지만 효율성이 떨어지는 것으로 알려져 있습니다. 이를 개선하기 위해 포함확률의 추정등 여러 가지 방법이 제안되어 있습니다. 이러한 방법을 적용하여 추정치의 효율성을 높이는 방향을 연구하고 있습니다.

 

 

 

5. 본인의 연구분야에 대해 통계마당 회원들에게 소개하고 싶으신 점이 있다면?

Case-cohort를 포함한 코호트내 표집 설계는 일반적인 코호트 연구에 비해 효율적인 연구를 가능하게 합니다. 또한 코호트 연구를 통해 얻어진 자료를 이용해 이차분석 (secondary analysis)의 용도로 사용할 수 있습니다. 이런 장점으로 인해 생존 자료의 분석에 근래 많이 이용되고 있습니다. 많은 관련 방법론의 발전이 있었지만 여전히 연구할 꺼리가 많이 남아있다고 생각합니다. 생존 자료 분석이나 연구 설계쪽에 관심이 있으신 분들은 한번 관심을 가지고 연구해봐도 좋을 분야라고 생각합니다.

 

준모수 AFT 모형은 그 장점에 비해 실제 자료분석에는 많이 사용되지 않았습니다. Cox 모형이 워낙 오랫동안 많이 사용되어 왔고 관련 연구자들에게는 개념이나 관련 방법론등이 익숙합니다. 따라서 굳이 다른 대안을 찾을 필요가 없을 수도 있습니다. 하지만 Cox 모형의 적합을 위한 가정이 위배될 경우, 굳이 위험도함수에 대한 모형화를 할 필요가 없는 경우등에 충분히 대안을 생각해볼 수 있습니다. 준모수 AFT 모형은 Cox 모형처럼 오차항에 특정한 분포를 가정하지 않음으로 인한 유연함, 일반적인 선형 모형과의 유사성, 생존 시간의 평균을 모형화함에 따른 직관적 해석이 가능함등의 장점이 있습니다. 따라서 Cox 모형의 훌륭한 대안이 될 수 있습니다. 하지만 위에도 언급했듯이 효율적인 계산을 가능하게 하는 방법론이 부족했고 이에 따른 관련 연구자들이 쉽게 접근하고 사용할 수 있는 통계소프트웨어의 부재로 인해 널리 사용되지 않았습니다. 최근 관련 방법론의 발전과 컴퓨팅 파워의 발전으로 인해 이런 문제점은 많이 해소되었다고 생각합니다. 예를 들어 aftgee R 패키지 (Chiou, Kang, Yan 2014b) 같은 경우 준모수 AFT 모형을 다양한 형태의 자료에 대해 여러 가지 방법에 의한 손쉬운 적합을 가능케 합니다. 이렇듯 준모수 AFT 모형의 실용적 사용을 위한 많은 노력이 있었고 많은 발전이 있어왔으니, 실제 생존 자료의 회귀분석이 필요한 연구자들은 Cox 모형의 대안으로 한번 고려해 볼 만한 가치가 있다고 생각합니다. 관련 방법론은 여전히 더 발전될 여지가 많이 남아있으므로 관련 전공자들은 연구분야로 관심을 가져볼 만한 가치 또한 있다고 생각됩니다.

 

 

 

6. 기타 하고 싶으신 말씀이 있다면?

‘통계마당’같은 웹사이트를 시작하고 운영하는 분들께 감사의 말씀을 드리고 싶습니다. 통계(학)에 대한 관심이 그 어느때보다 높아진 시대에 꼭 필요한 곳이고 많은 역할을 할 수 있을 것이라 생각합니다. 더 활성화되어 통계(학)에 관심있는 많은 분들께 도움이 되는 장소가 되면 좋겠습니다.

 

 

 

참고문헌

Brown, B. M. and Wang, Y.-G. (2005). Standard errors and covariance matrices for smoothed rank estimators. Biometrika 92, 149-158.

Brown, B. M. and Wang, Y.-G. (2007). Induced smoothing for rank regression with censored survival times. Statistics in Medicine 26, 828-836.

Chiou, S. H., Kang, S., and Yan, J. (2014a). Fast accelerated failure time modeling for case-cohort data. Statistics and Computing 24, 559-568.

Chiou, S. H., Kang, S., and Yan, J. (2014b). Fitting accelerated failure time model in routine survival analysis with R package aftgee. Journal of Statistical Software 61(11).

Chiou, S. H., Kang, S., and Yan, J. (2015a). Rank-based estimating equations with general weight for accelerated failure time models: an induced smoothing approach, Statistics in Medicine 34(9), 1495-1510.

Chiou, S. H., Kang, S., and Yan, J. (2015b). Semiparametric accelerate failure time modeling for clustered failure times from stratified sampling, Journal of the American Statistical Association 110(510), 621-629.

Kang, S. and J. Cai (2009). Marginal Hazards Regression for Retrospective Studies within Cohort with Possibly Correlated Failure Time Data. Biometrics 65, 405–414.









제목 날짜
태그 목록