본문 바로가기

생물정보학(바이오인포매틱스)

[20일차] KOBIC 교육강의 공부 02 :: 유전체 빅데이터

 

 

이번 글에서는 전 강의에 이어 들은 '생명정보학 시작하기'의 두번째 강의인 '유전체 빅데이터' 강의 내용을 정리해보겠습니다. 이번 강의도 개괄적인 소개를 하는 강의라 가볍고 재밌게 들을 수 있었습니다.

 

 

 

[19일차] 멘델의 정원 & KOBIC 교육강의 01 :: 생명정보학 시작하기 1탄

이번 글에서는 우연히 알게 된 유익한 생물정보학 교육 플랫폼을 알게되어 이에 대해 소개해보고자 합니다. 오늘 어쩌다가 생물정보학 관련 유튜브 영상들을 찾아보다가 고려대 안준용 교수

tkmstudy.tistory.com

 

 

우선 '유전체 빅데이터'란 무엇인지 챗GPT에게 물어봤습니다.

 

출처 : 챗GPT

 

 

요약하자면, 유전체 데이터는 "생물체의 '생물학적 특성'과 '질병 관련 정보'가 담긴 DNA의 총합인 '유전체(genome)' 정보를 대규모로 수집, 저장, 분석한 데이터 세트"라고 정의할 수 있겠습니다.

 

본 강의에서 강연자께서는 유전체 빅데이터에서 가장 중요하게 생각해야 할 단어 '유전적 조성'이라고 강조하셨는데요,  어떤 한 사람의 '유전적 조성'을 파악하면 생체의 다양한 지표를 예측하고 질환을 보다 정밀하게 파악하는 연구를 할 수 있기 때문입니다.

 

즉, 같은 질환의 환자 사이에서 유전체 데이터 속 이질적이면서 특이적인 패턴이 있는지 파악하고, 유사한 패턴을 보이는 환자들을 군집별로 세분화하면(아래 이미지 참조), 그들에게 맞춤화된 약을 제공할 수 있는 '맞춤형 정밀의료 시대'가 찾아왔다는 것입니다.

 

출처 : INCOEDU, KOBIC 교육센터 영상

 

 

예로, 위 캡쳐에서도 보듯 코로나19 중으로 가는 사람과 그렇지 않은 사람의 유전적 조성을 GWAS*으로 연구한 결과, 유전체에서 6가지 정도의 면역 시스템 구성 유전자(SLC6A20, LZTFL1, FYCO1, CXCR6, XCR1, CCR9)에 돌연변이(mutation)이 발생하면 코로나 중증으로 이어지게 된다는 연구결과가 도출되었다고 합니다.

 

* GWAS (genome-wide association study) : 질병 유무에 따른 전체 유전체 DNA 표지자의 차이를 비교하는 연구 1)

 

 

이렇듯 질병을 예측하고 질병 위험도를 낮출 수 있는 '대규모 유전체 데이터'를 파악하는 것이 중요해지면서 각기 다른 국가들에서 대규모 유전체 데이터 및 코호트를 확보하기 시작했는데요, 대표적인 예로 The cancer genome atlas, UK BIOBANK, SWEGEN 등이 있죠.

 

출처 : https://www.genome.gov/Funded-Programs-Projects/Cancer-Genome-Atlas,

 

 

 

제가 졸업논문 연구에 활용한 장내 미생물 SNP 데이터는 Mibiogen에서 사용할 수 있도록 공유해주셨는데, 이처럼 세계인들이 유전체 데이터를 확보하고 공유함으로써 과학은 더욱 발전하고 있는 중입니다.

 

강의에서는 우성 유전이 된다고 알려졌지만 연구비 줄리가 없어서 공식적으로 밝혀지진 않은 '혀말기', '쌍커풀'에 대한 유전 내용*부터 지능 형질에 관한 유전 내용까지 재밌는 유전 관련 상식들을 소개해주셨습니다.

 

* 물론, 귓볼 모양에 관한 유전은 '23andME'라는 유전자분석 기업에서 엔터테인먼트 차원에서 총 49개 유전자가 관여함을 밝혀냈다고 강연에서 말씀하셨습니다.

 

 

흥미로운 것은 '키'라는 유전되는 형질은 우성과 열성에 따라 binary하게 결정되지 않는다는 것입니다. 쉽게 말해, 사람들의 키는 크다 작다 이분법으로 구부하기 어려울 정도로 다양하다는 것입니다.

 

이 부분에서 'binary'하게 우성 열성에 따라 유전 형질이 나타난다고 주장하는 '멘델 학파'와 형질이 연속적으로 나타난다고 주장하는 '생물계측학파'의 논쟁이 시작되었습니다.

 

 

출처 : INCOEDU, KOBIC 교육센터 영상

 

 

결론적으로는 '키'는 하나의 유전자가 결정하기보다 수많은 inherited variants(ex. SNP)와 환경적 요인이 모두 기여한다고 볼 수 있습니다.

 

여기서 inherited variants인 SNP(single nucleotide polymorphism)는 '개체 간 단일염기변이'로 30억 개의 염기 서열 중 개인 편차를 나타내는 한 개 또는 수십 개의 염기 변이 2)를 말합니다.

 

즉, "키에 관여하는 여러 개의 SNP들 중 SNP1은 '+ 0.001cm', SNP2는 '+0.0009cm', SNP3 (-0.0005cm) ~~~ + 환경적 요인" 이렇게 키가 결정된다는 것이고, 이를 양적유전 모델(polygenic model)이라고 부릅니다.

 

출처 : INCOEDU, KOBIC 교육센터 영상

 

 

본 강의 PART2는 '원인 유전자 탐색'에 대한 내용이었는데요, 원인 유전자 탐색 기술의 발전은 탐색할 수 있는 유전 변이의 종류를 달라지게 했고, 그러면서 질병 예측과 치료의 정밀성을 높일 수 있었습니다.

강연에서 설명하길, 1980년대 염색체 이상을 파악하는 '염색체 분석(Karyotyping)' 기술에서부터 common variants 파악, 그리고 현재인 2020년대에는 대규모 전장 유전체 데이터가 축적되며, Rare inherited variants를 파악할 수 있게 되었다고 합니다.

 

이렇게 기술이 발전하면서 원인 유전자 탐색 양상이 변화해온 이유는 '원인 유전자'를 탐색하는 것이 간단하지 않고 설명하기 어렵기 때문이죠. 즉, 우리 몸의 유전체 중 극소수만 단백질 발현에 관여하고, 그중에서도 일부만 기능적으로 중요하며, 단백질을 만들지 않는 DNA 정보도 체내에서 주요 역할을 할 수 있기에(ex. lncRNA) 이게 여간 까다로운 게 아닌가 봅니다.

 

출처 : Pixabay, thanks to   GDJ

 

아무튼 간에 최근의 유전체 빅데이터의 큰 흐름은 '국제 협력 연구'로서 거대한 샘플 사이즈를 확보하기 위해 코호트 간 협력하는 방향으로 이어지고 있다고 하는데요(대형 연구 컨소시엄의 등장), 

따라서 현재의 과학에서 중요한 것은 혼자 잘하는 것보다는 "어떻게 공동 연구를 잘 할 수 있는가"이며,  통계적으로 엄격하고 높은 신뢰도의 gene, locus discovery를 정확하고 연구할 수 있는게 중요한 개념이 되었다고 설명하셨습니다.

 

출처 : Pixabay, thanks to  deeznutz1

 

 

정리하자면, '키'와 같이 인간의 거의 모든 형질은 양적형질 모델을 따르게 되며, 다양한 요인들이 복합적으로 작용하는 유전적 조성을 지니고, 

그렇기에 최근 유전체 및 생물정보학 연구는 NGS 기술 등 최신 기술을 활용해 '하나의 질환에 대한 다양한 유전적 조성을 밝히는 것'을 목표로 진행되고 있으며, 이를 위해 유전체 빅데이터 확보를 위한 국제 협력 연구는 필수라고 볼 수 있다고 합니다.

 

자세하고 정확한 설명 내용은 아래 INCOEDU의 KOBIC 교육센터 '생명정보학 시작하기' 영상 2강을 시청하시면 되겠습니다. '다음에 또 논문 정리 혹은 강의 정리로 찾아오도록 하겠습니다. 감사합니다!

 

 

 

차세대 생명정보 온라인 교육 | KOBIC 교육센터

KOBIC 차세대 생명정보 교육은 바이오 데이터 분석 및 활용을 위한 IT 기술(프로그래밍 언어, 리눅스)과 바이오 데이터 분석 전문기술을 제공합니다.

edu.insilicogen.com

 

 

 

 

참고자료

 

1) NAVER 지식백과, 전체유전체 상관분석연구, URL : https://terms.naver.com/entry.naver?cid=66149&docId=5880677&categoryId =66149

 

2) AI-Helper, "SNP 유전자 진단 믿을 수 있나?", SCIENCE ON, 2019년 7월 22일 기사, URL : https://scienceon.kisti.re.kr/srch/ selectPOR SrchTrend.do?cn=SCTM00193993

 

3) INCOEDU, KOBIC 교육센터, https://edu.insilicogen.com/kobic/