seonjin-kim-headshot.jpg

 

 

 

 

 

"Unified inference for sparse and dense longitudinal models" (2013) - Biometrika, 100, 203–212.

 

1. 먼저 본인의 간략한 소개를 부탁드립니다.

안녕하세요. 저는 2013년에 Penn State University에서 통계학 박사를 취득 후 지금은 Miami University, Ohio에서 조교수를 부임하여 일을 하고 있는 김선진이라고 합니다. 저의 주 연구분야는 dependent data (Time series 또는 Longitudinal data)를 nonparametric regression 또는 Quantile regression이용한 estimation과 inference입니다.

 

 


2. 상기 논문의 아이디어를 어떻게 얻었는지, 진행과정에서 어떤 어려움이 있었는지, 그리고 어떻게 극복했는지에 대해 말씀해 주시겠습니다?

상기 논문이 Biometrika에 먼저 기재가 되었지만, 최근에 Journal of Multivariate Analysis(JMA)에 기재된 "Nonparametric functional central limit theorem for time series with application to self-normalized confidence interval"을 longitudinal data로 확장을 목표로 시작된 프로젝트입니다. Longitudinal data는 독립인 여러 subject들로부터 같은 response와 predictors를 반복적으로 측정한 data입니다. 이 두 논문의 기본 methodology는 최근에 developed된 self-normalization에 기초를 하고 있습니다. 어떤 estimate의 asymptotic confidence interval (CI)를 구할 때 limiting variance의 estimate은 일반적으로 필수적입니다. 하지만 dependent data인 경우 limiting variance의 estimation과정이 보통 복잡합니다. self-normalization 가장 큰 장점은 limiting variance를 직접적으로 estimate하지않고 regression estimate에 내제되어 있는 limiting variance에 대한 정보를 recursive하게 뽑아내어 CI를 construct할 수는 것 입니다. 그러므로 복잡한 limiting variance estimation과정을 생략할 수 있습니다. 하지만 self-normalization은 time series처럼 natural order가 존재하는 data에만 적용할 수는 있는 제약을 가지고 있습니다. Longitudinal data에서 subject들이 independent하기 때문에 natural order를 가지고 있지 않아 저희가 이전 페이퍼(JMA)에서 썼던 방법을 directly하게 쓸 수가 없었습니다. Ad hoc한 방법을 찾아냈지만 이 방법만으로 Biometrika에 publish하기엔 부족함을 느껴 지도교수님과 여러 달 고민 끝에 새로운 방법을 찾아낼수 있었습니다. 자세한 내용은 아래에 답하겠습니다.

 

 


3. 논문의 내용에 대한 설명을 부탁드립니다.

Longitudinal data는 각각의 subject에서 얼마나 자주 반복적으로 data를 측정하냐에 따라서 sparse 또는 dense longitudinal data로 분류가 됩니다. Sparse 경우는 각 subject으로부터 측정량(m)이 finite합니다. 그와 반대로 dense 경우에는 m이 subject들의 수(n)에 따라서 증가하여 결국에는 infitely 많은 measurement를 가지게 됩니다. 이 두 경우에 따라서 nonparametric regression estimator에 대한 asymptotic distribution이 달라지게 됩니다. Limiting variance은 물론이고 convergence rate 역시 달라집니다. 그렇기 때문에 연구자가 asymptotic CI를 구하기 전에 longitudinal data가 sparse인지 dense인지를 결정해야만 합니다. 그래도 theory상으로는 이 둘의 차이를 명확하게 분류를 할 수 있지만 practice에서는 data가 sparse인지 dense한지 결정하기 힘든 경우가 종종 있습니다. 예를 들어 지금은 각 subject에서 약 20개정도밖에 measurement가 없지만 시간이 지나면 결국에는 infinitely many 측정할 수 있는 data를 dense로 봐야할지 아니면 지금 현재 m이 작으니 sparse로 분류해야할지 애매합니다. 또 다른 예로는 각 subject에서 200개정도의 충분한 데이타를 가지고 있지만 data의 특성상 더이상 측정 할 수 없는 경우 역시 분류가 불명확합니다. 그래서 이 논문에서 저희는 dense냐 sparse냐에 상관없이 unified asymptotic CI를 구할수 있는 방법을 제안하였습니다. 앞에서 말씀드렸듯이 전 페이퍼(JMA)에서 썼던 self-normalization방법으로도 unified asymptotic CI를 찾을 수는 있으나 좀 더 rigorous한 방법이 필요하였습니다. 이전의 대부분의 논문들이 sparse냐 dense냐에 따라서 CLT를 따로 다룬 것과 달리 저희 논문에서는 두 경우에 모든 적용될수 있는 unified self-normalized CLT를 새로 찾았습니다. 여기서 나온 "self-normalized" 앞의 self-normalization과 약간은 다른 개념으로 self-normalized statistic에 기초를 둔 방법입니다. 이 새로운 CLT는 sparse냐 dense냐에 상관없이 automatical하게 각각의 convergence rate과 limiting distribution에 수렴하게 develop되어 있고 저희가 self-normalizer라 불리는 term (일반적으론 limiting variance 해당하는)은 기존의 limiting variance들보다 더 쉽게 estimate할 수 있다는 추가적인 장점도 가지고 있습니다.

 

 

 

4. 이 논문의 시사점은 무엇이며 후속 연구를 어떤 방향으로 진행되고 계신지요?

이 연구의 결과를 이용한다면 longitudinal data의 nonparametric regression에 대한 asymptotic CI를 construct할 경우 data의 종류에 상관없이 unified CI를 찾을 수 있습니다. Dr. Shao가 develop한 original self-normalization방법은 앞에서 언급했듯이 data가 time series처럼 natural order를 가지고 있는 경우에만 사용을 할 수 있습니다. 그래서 일반적인 regression data에서는 적용할 수가 없습니다. 그래서 Dr. Zhao (지도교수님), Dr. Shao와 저는 일반적인 경우에도 적용 시킬수 있는 self-normalization 방법에 대해서 연구 중에 있습니다.

 

 


5. 본인의 연구분야에 대해 통계마당 회원들에게 소개하고 싶으신 점이 있다면?

앞서 설명 드린 논문에서는 사용하지 않았지만 제 주 연구 분야중 다른 분야는 Quantile regression입니다. 널리 쓰이는 least squares estimate은 conditional mean의 behavior만 설명 할 수 것과 달리 quantile regression estimate은 conditional distribution 전반의 변화에 대해서 연구를 할 수 있습니다. 그래서 좀 더 많은 distributional information을 data로부터 얻어 낼 수 있습니다. 그리고 연구가 많이 되어 있는 least square estimate보다 아직 연구하고 적용할 분야들이 훨씬 다양한 것 같습니다. 그리고 최근들어 locally stationary time series data의 estimation과 inference 그리고 Hypothesis test for homoscedasticity in nonparametric regression models에도 관심을 가지고 연구 중에 있습니다.

 

 

 

6. 기타 하고 싶으신 말씀이 있다면?

Collaboration할 분을 찾고 있으니 제 연구분야에 관심이 있으시거나 질문있으시면 편히 연락주시기 바랍니다. kims20@miamioh.edu









제목 날짜
태그 목록