1800302_10153862073020438_1945908699_n.jpg

 

 

1. 자기소개

저는 2012년에 위스콘신대학교 (University of Wisconsin-Madison) 에서 통계학 박사 학위를 받고, 예일대 (Yale University) 생물통계학과에서 박사 후 과정을 마치고, 2014년부터 Charleston, SC 에 있는 Medical University of South Carolina 에서 생물통계학 조교수로 있는 정동준이라고 합니다. 제 주 전공분야는 statistical genomics & genetics (bioinformatics) 입니다.

 

 

2. bioinformatics

(1) 전반적 소개

Bioinformatics 는 분자생물학, 의학, 통계학, 전산학이 통합된 interdisciplinary 한 분야라는 게 가장 큰 특징이라고 할 수 있습니다. 이 때문에 이들 분야 각각에 대해 어느 정도 이상의 지식과 이해를 갖추는 게 필요합니다. 구체적으로는 분자생물학이나 의학쪽 분야 저널에 실린 관련분야 최신연구를 따라가고 이해할 수 있고, 전산학적으로는 R 등의 통계패키지 외에 C++ 이나 Perl 과 같은 프로그래밍 언어들을 어느 정도 능숙하게 쓸 수 있고 CPU 시간이나 메모리 사용 등에 대한 이해도 어느 정도 필요합니다. 또 다른 분야에 비해서는 분야의 속도가 빠른 편이고 (새로운 실험방법이 개발되면 보통 2~3년 내에 이를 분석하는 통계모델을 10개 이상 개발되기도 합니다), 원자료가 수 GB ~ 수십 GB 가 되고 dimension 이나 관측치 수가 수만 ~ 수백만이 되는 등 high dimensional large data 를 특징으로 말할 수 있을 것 같습니다. 이 때문에 한 개인이 이들 분야 모두의 최신연구를 따라가고 전문성을 갖추어 경쟁력을 가지기에는 한계가 있기에 공동연구팀을 구성하는 방법으로 접근하는 분들이 많습니다. 저 역시도 저를 포함한 통계학자, 전산학자, 생물학자, 의사로 이루어진 공동연구팀을 구성하고 있는 중이고 또 함께 연구를 진행하고 있는 중입니다. Interdisciplinary 적인 특징 때문에 이 분야 연구자들은 각 논문마다 내용에 따라 JASA 와 같은 통계저널, PLoS Genetics, PLoS Computational Biology, Bioinformatics 등의 bioinformatics 저널, 그리고 일반 생물/의학저널 등에 골고루 투고를 하는 편입니다.

 

(2) bioinformatics 와 통계

지난 10년간 NIH 에서 주관하는 여럿 genomics/genetics consortium (수십 개 연구팀이 참가하는 공동프로젝트로 총 연구원이 수백 명이 되는 경우도 흔합니다) 에서 실험과 분석의 표준을 정립하고 방대한 양의 실험 자료들을 공개하여 관심 있는 일반 누구나 이를 이용하여 연구할 수 있는 여건을 만들어 왔습니다. Genomics 연구 (유전자 활동에 대한 연구) 를 위한 ENCODE 와 Roadmap Epigenomics, genetics 연구 (유전자 변이에 대한 연구) 를 위한 HapMap 과 1000 genomes, 암연구를 위한 The Cancer Genomics Atlas 등이 대표적인 예입니다. 또한 일부의 경우를 제외한 대부분의 분자생물학 논문들은 원자료를 public repository 에 업로드하는 것을 논문출간의 전제조건으로 저널과 NIH 에서 요구해서 genomics 의 GEO 나 genetics 의 dbGaP 등의 public repository 에는 누구나 분석할 수 있는 수천~수만 개의 공개자료들이 있습니다. 그래서 요즘에는 각 실험을 어떻게 할 것인가 만큼이나, 공개되어 있는 다양한 데이터를 어떻게 활용하고, 이들 자료의 정보들을 어떻게 통합할 것인가가 중요한 관심사가 되고 있습니다. 통계적인 관점에서 보면 joint modeling 의 문제로 볼 수 있는데, 통계학이 다양한 층위의 정보들을 예를 들면 hierarchical model 로 모델링하고, 특히 이런 통합적인 접근에서 중요한 이슈인 자료들간의 heterogeneity 와 inference 와 예측의 uncertainty 에 대한 연구에서 어느 분야보다 긴 역사를 가지고 있다는 점에서, 통계학자들이 기여할 수 있는 부분이 많다고 생각됩니다. 또한 NIH 등에서도 양적접근법에 대해 중요하게 생각하고 이에 대해 가치를 부여하고 있다는 점도 통계학자에게 좋은 여건을 제공하고 있습니다. 예를 들면 NIH 의 genomics 핵심 consortium 중 하나인 ENCODE 의 경우 실험생물학자 연구팀과 통계학자/전산학자의 연구팀을 거의 반반으로 구성하고 있습니다 (ENCODE에서 활동하는 통계학자로는 UC Berkeley 의 Peter Bickel 등이 있습니다).

 

(3) 연구 소개

박사 때부터는 현재 분자생물학 연구의 표준실험이 되어가고 있는 next generation sequencing, 그 중에 특히 단백질의 DNA 수준에서의 유전자 활동 조절을 연구하는 ChIP-seq 데이터를 분석하기 위한 여러 통계모델을 개발해왔습니다. 최근에는 ENCODE consortium 의 일부로 일하게 되고, 제가 개발한 여럿 ChIP-seq 자료 분석 모델 및 소프트웨어가 consortium 에서 사용되게 되어 ENCODE 데이터베이스에서 제공하는 genomics 정보 중 일부는 제 방법을 이용하여 제공하게 되었습니다. 이런 식으로 분자생물학 연구에 직접적으로 기여할 수 있다는 것도 bioinformatics 의 매력 중 하나가 아닐까 생각됩니다.

포닥 때부터는 특히 joint modeling 에 관심을 가지고 연구를 하기 시작했고, 그 중에서도 얼마 전 정윤서 교수님 인터뷰에서도 소개되었던 GWAS 에 초점을 맞춰서 연구하고 있습니다. GWAS 자료의 경우 보통 수십 ~ 수백만 개의 SNP (유전적 변이) 의 질병과의 연관성을 보기 때문에, 샘플수가 수천 ~ 수만으로 보통자료에 비해 큰 편임에도 불구하고 n << p 의 문제가 있습니다. 또한 Nature Genetics 등의 저널에서 유전적 구조가 간단한 일부질병을 제외하고는 sparse strong signal 이라기보다는 상대적으로 dense weak signal 이라는 증거가 제시되고 있어서 (polygenicity), GWAS 자료에서 이런 weak signal 을 찾는 게 주요이슈 중 하나가 되고 있습니다. 제가 PLoS Genetics 에 발표한 논문에서는 이 문제를 해결하기 위해 한 framework 안에서 유전적 변이와 연관되는 다양한 genomic/genetic 자료를 질병에 대해 연관성의 prior knowledge 로 이용하고, pleiotropy (여러 가지 질병과 공통적으로 연관되는 유전적 변이) 라는 현상에 근거하여 서로 연관된 질병에 대한 여러개의 GWAS 자료간에 information sharing 을 이용하는 joint modeling 방법을 개발했습니다. 이 논문에서는 실제 GWAS 자료들을 이용하여, 제안된 접근법을 이용할 경우 (1) 각 질병과 관련된 SNP 을 찾는 통계적 power 를 높일 수 있고, (2) 질병간의 유전적 연관성 구조를 살펴볼 수 있고, (3) 어떤 SNP 이 어떤 질병 조합과 유전적 연관성을 가지는가를 살펴볼 수 있고, (4) 분석하는 GWAS 자료와 좀 더 관련된 genomic/genetic 자료를 찾아냄으로써 질병의 유전적 기반에 대한 해석력을 높일 수 있음을 보였습니다. genomic/genetic 자료의 활용과 pleiotropy 각각은 몇 년 전부터 본격적으로 연구되기 시작했지만, 이들을 한 framework 안에 통합하고 이를 prediction 의 향상을 위해 이용한 점이 저희 논문의 중요한 기여입니다.

 

(4) 연구 계획

현재는 위 연구들의 연장선상에서 (1) next generation sequencing data 분석 모델에 대한 연구와 (2) 여러 genomic, genetic 자료의 joint modeling 에 특히 초점을 맞추어 연구를 지속하고 있습니다. 통계의 베이지안이 다양한 문제를 해결하는 데 쓰일 수 있는 것처럼 next generation sequencing 은 다양한 분자생물학 연구에 적용이 가능한 실험방법입니다. 제가 기존에 연구하던 단백질의 DNA 수준에서의 유전자 활동 조절을 연구하는 ChIP-seq 외에, 좀 더 최근에 개발된 miRNA 및 단백질의 RNA 수준에서의 유전자 활동 조절을 연구하는 CLIP-seq 과 DNA 의 3차원 꼬임 구조를 연구하는 Hi-C 및 ChIA-PET 실험을 분석하는 모델 개발과 이들 실험을 통합적으로 연구하는 joint modeling 에 특히 관심을 가지고 있습니다. GWAS 맥락에서는 high dimensional data 의 효율적 분석, 좀 더 다양한 correlation structure 의 모델링, 그리고 결과의 해석력을 향상시키기 위한 방향에 관심을 가지고 연구를 진행하고 있습니다.

 

 

3. 기타 통계마당 회원분들에게 하고 싶으신 말씀이 있다면?

공동연구에 관심 있으시거나 bioinformatics 연구에 관심 있는 분들은 연락주시기 바랍니다. (chungd@musc.edu)









제목 날짜
태그 목록