11659484_852242511497766_3212012651920587998_n.jpg

 

[전문가 인터뷰 18] 장원 박사.pdf

 

Calibrating an Ice Sheet Model Using High-Dimensional Binary Spatial Data (2016, JASA)

 

[전문가 인터뷰 18] 장원 박사.pdf

 

1. 본인의 간략한 소개를 부탁드립니다.
저는 2014년에 펜실베니아 주립대 (Pennsylvania State University)에서 박사 학위를 받고 현재 시카고 대학교(University of Chicago)에서 박사 후 과정을 하고 있습니다. 올해 (2016년) 8월부터 신시내티 대학교(University of Cincinnati) 수리과학과(Department of Mathematical Sciences)에서 조교수로 일하게 되었습니다. 현재 제 관심 분야는 비정규 공간데이터 분석(non-Gaussian spatial data analysis)과 컴퓨터 모형의 통계적 에뮬레이션 및 보정(computer model emulation and calibration) 입니다. 특히 현실에서 얻은 관측 데이터와 물리기반 컴퓨터 시뮬레이터를 결합하여 미래의 기후를 예측하는 문제에 관심이 많습니다.

 

 

2. 상기 논문의 아이디어를 어떻게 얻었는지, 진행과정에서 어떤 어려움이 있었는지, 그리고 어떻게 극복했는지에 대해 말씀해 주시겠습니다?
이 연구는 저명한 빙하학자인 데이비드 폴라드 (David Pollard) 박사님과의 협동 연구에서 시작되었습니다. 이분이 개발하신 남극 빙상모형(Antarctic Ice Sheet Model)은 현재 존재하는 물리 모형들 중에 가장 우수한 모형 중 하나로 평가받고 있습니다. 하지만 이 모형을 이용해서 올바른 예측을 하기 위해서는 이 모형에 사용되는 물리적 파리미터 값들의 보정(calibration) 및 파리미터 값의 불확실성에 대한 계량화(parametric uncertainty quantification)가 필요합니다. (이는 모든 분야의, 대부분의 물리학 기반 시뮬레이션 모형에 해당되는 문제입니다.) 이 문제를 다루는 통계학의 분야가 컴퓨터 모형 보정(computer model calibration)입니다. 기존의 모형 보정 방법들은 관측 데이터와 모형의 결과값이 정규 확률과정(Gaussian process)으로 적절하게 모형화될 수 있는 경우만 다루고 있습니다. 그러나 본 연구에서 사용된 남극 빙상에 대한 관측 데이터와 모형의 결과값은 모두 이항반응 분포를 따르기 때문에 기존의 방법론을 적용할 수 없습니다. 또한 관측 데이터와 모형의 결과값들이 고차원 공간데이터(high-dimensional spatial data)의 형태를 가지므로 여러가지 계산과 추론상의 어려움을 야기합니다. 본 연구에서는 기존의 보정 방법론을 비정규분포에 적용 가능하도록 일반화 선형모형을 이용해 확장하고, 로지스틱 주성분 분석 (logistic principal component analysis)을 이용한 차원축약을 통해 빠른 계산이 가능하도록 하여 위 문제들을 해결하였습니다.

 

 

3. 논문의 내용에 대한 설명을 부탁드립니다.
컴퓨터 모형 보정은 두 단계로 이루어집니다. 첫번째 단계는 컴퓨터 모형 에뮬레이션 (computer model emulation)입니다. 어떤 파리미터 값 θ를 입력했을때 얻을 수 있는 컴퓨터 모형의 결과값을 Y(θ)라고 하면, 이 단계의 목표는 모든 θ값에 대해 Y(θ)를 잘 근사하는 통계 모형 η(θ)를 구축하는 것입니다. 본 연구에서 Y(θ)는 어떤 지역이 어떻게 얼음으로 덮여 있는지 보여주는 지도로서 다변량 이항 변수로 볼 수 있습니다. 컴퓨터 모형에 변수 값을 입력하고 결과값을 얻는 것은 긴 계산 시간이 소요되기 때문에 일반적으로 Y(θ)는 사전에 정해진 제한적인 파라미터 값들에 대해서만 얻을 수 있습니다. 이 제한적인 정보를 이용해서 Y(θ)를 잘 모방할 수 있는 에뮬레이터 η(θ)를 구축하는 것이 컴퓨터 모형 에뮬레이션의 핵심입니다. 기존연구에서는 정규확률 과정 모형을 이용해 Y(θ)를 직접적으로 근사하는 에뮬레이터를 구축하지만, 본 연구에서는 Y(θ)가 매우 고차원(high-dimensional)이고 이항반응 변수이므로 계산과 추정에서 기존 방법론들이 해결할 수 없는 많은 문제를 야기합니다. 본 연구에서는 이를 로지스틱 주성분 분석을 통한 차원 축약으로 극복하였습니다. 기존 방법론과 달리 η(θ)는 Y(θ)을 직접적으로 근사하지 않고 Y(θ)의 로지스틱 주성분을 근사합니다.
두번째 단계는 관측 데이터 Z와 에뮬레이터 η(θ)를 이용한 모형 보정입니다. 관측데이터 Z는 현실에서 관측된 얼음 분포 지도로서 Y(θ)와 같은 형태를 가집니다. 이 단계의 목표는 Z와 η(θ)에서 얻은 정보를 이용해θ를 통계적으로 추론하는 것입니다.간단하게 말하면 Z에 잘 부합하는 η(θ)를 만드는 파라미터값 θ를 찾는 것입니다. 그런데 Z에 잘 부합하는 η(θ)를 만드는 θ의 값은 하나가 아닐 수 있고 단순히 Z와 가장 잘 부합하는 η(θ)를 찾는 것보다는 부합 정도를 θ의 모든 가능한 값에 대해 확률적으로 표현하는 것이 θ에 대한 불확실성을 표현하는데 더 유용합니다. 따라서 본 연구에서는 베이지안 추론을 통해 Z가 주어졌을 때 θ의 사후 확률 분포, θ|Z를 찾는 것을 목표로 합니다. 기존의 방법은 Z가 비정규 분포일때의 경우를 다루지 못하므로 본 연구에서는 기존의 모형을 일반화 선형모형 형태로 확장하였습니다.

 


4. 이 논문의 시사점은 무엇이며 후속 연구를 어떤 방향으로 진행되고 계신지요?
컴퓨터 모형 보정 방법론을 최초로 비정규분포 데이터로 확장했다는데 이 연구의 의의가 있습니다. 또한 이 연구는 빙하학의 오랜 과제중 하나인 빙상 모형 보정문제 해결에 많은 도움을 줄 것으로 생각 됩니다. 이 분야에서 기존의 통계적 방법을 적용하기 어려웠던 이유가 데이터의 비정규성에 있는 만큼 본 연구에서 제시한 방법론이 많은 도움이 될 것이라고 생각합니다.
현재 후속 연구로 서로 다른 데이터 유형을 갖는 복수의 관측 데이터와 모형 결과값들이 존재할 때 (예를 들어 정규 분포 데이터와 이항 분포 데이터가 동시에 존재할 때) 이를 동시에 활용해서 컴퓨터 모형을 보정하는 방법론을 개발하고 있습니다. 기후과학에서 사용되는 모형들은 흔히 여러가지 데이터 유형의 결과값을 동시에 제공하고, 이에 대응되는 관측 데이터도 여러개가 존재하기 때문에 이러한 방법론은 기후 모형 보정에 특히 유용할 것으로 생각됩니다.

 

 

5. 본인의 연구분야에 대해 통계마당 회원들에게 소개하고 싶으신 점이 있다면?
a. 한국에서 컴퓨터 모형의 에뮬레이션 및 보정은 아직은 많이 생소한 주제인 듯합니다. 이 분야에서 개발된 방법론들은 물리학, 화학, 공학 등의 여러 분야의 연구에서 중요한 역할을 하고 있습니다. 아직 해결되어야 할 이론적 혹은 방법론적인 문제도 많기 때문에 방법론 연구와 응용 연구 양면에서 연구 기회가 많은 주제입니다. 한국에서도 관심을 갖는 연구자들이 늘어났으면 하는 바램입니다.
b. 공간 데이터 분석에 대한 연구는 오랫동안 이루어져 왔습니다만 비정규 공간 데이터에 대한 분석은 아직도 미개척 분야라고 생각합니다. 당분간 이 분야에 대한 연구에 매진할 계획입니다.

 

 

6. 기타 하고 싶으신 말씀이 있다면?
흔히 다른 분야와의 협동 연구를 단순히 기존의 방법론을 적용하는 것으로만 생각하는 경우가 있는데, 이는 다소 편협한 시각이라고 생각합니다. 협동연구를 하면서 새로운 방법론 개발에 대한 아이디어를 얻고, 새로운 방법론 개발이 다른 분야의 발전에 기여를 하는 경우도 많다고 강조하고 싶습니다.

 

 









제목 날짜
태그 목록