이번 글에서는 전 강의에 이어 들은 '생명정보학 시작하기'의 두번째 강의인 '유전체 빅데이터' 강의 내용을 정리해보겠습니다. 이번 강의도 개괄적인 소개를 하는 강의라 가볍고 재밌게 들을 수 있었습니다.
우선 '유전체 빅데이터'란 무엇인지 챗GPT에게 물어봤습니다.
요약하자면, 유전체 데이터는 "생물체의 '생물학적 특성'과 '질병 관련 정보'가 담긴 DNA의 총합인 '유전체(genome)' 정보를 대규모로 수집, 저장, 분석한 데이터 세트"라고 정의할 수 있겠습니다.
본 강의에서 강연자께서는 유전체 빅데이터에서 가장 중요하게 생각해야 할 단어 '유전적 조성'이라고 강조하셨는데요, 어떤 한 사람의 '유전적 조성'을 파악하면 생체의 다양한 지표를 예측하고 질환을 보다 정밀하게 파악하는 연구를 할 수 있기 때문입니다.
즉, 같은 질환의 환자 사이에서 유전체 데이터 속 이질적이면서 특이적인 패턴이 있는지 파악하고, 유사한 패턴을 보이는 환자들을 군집별로 세분화하면(아래 이미지 참조), 그들에게 맞춤화된 약을 제공할 수 있는 '맞춤형 정밀의료 시대'가 찾아왔다는 것입니다.
예로, 위 캡쳐에서도 보듯 코로나19 중으로 가는 사람과 그렇지 않은 사람의 유전적 조성을 GWAS*으로 연구한 결과, 유전체에서 6가지 정도의 면역 시스템 구성 유전자(SLC6A20, LZTFL1, FYCO1, CXCR6, XCR1, CCR9)에 돌연변이(mutation)이 발생하면 코로나 중증으로 이어지게 된다는 연구결과가 도출되었다고 합니다.
* GWAS (genome-wide association study) : 질병 유무에 따른 전체 유전체 DNA 표지자의 차이를 비교하는 연구 1)
이렇듯 질병을 예측하고 질병 위험도를 낮출 수 있는 '대규모 유전체 데이터'를 파악하는 것이 중요해지면서 각기 다른 국가들에서 대규모 유전체 데이터 및 코호트를 확보하기 시작했는데요, 대표적인 예로 The cancer genome atlas, UK BIOBANK, SWEGEN 등이 있죠.
제가 졸업논문 연구에 활용한 장내 미생물 SNP 데이터는 Mibiogen에서 사용할 수 있도록 공유해주셨는데, 이처럼 세계인들이 유전체 데이터를 확보하고 공유함으로써 과학은 더욱 발전하고 있는 중입니다.
강의에서는 우성 유전이 된다고 알려졌지만 연구비 줄리가 없어서 공식적으로 밝혀지진 않은 '혀말기', '쌍커풀'에 대한 유전 내용*부터 지능 형질에 관한 유전 내용까지 재밌는 유전 관련 상식들을 소개해주셨습니다.
* 물론, 귓볼 모양에 관한 유전은 '23andME'라는 유전자분석 기업에서 엔터테인먼트 차원에서 총 49개 유전자가 관여함을 밝혀냈다고 강연에서 말씀하셨습니다.
흥미로운 것은 '키'라는 유전되는 형질은 우성과 열성에 따라 binary하게 결정되지 않는다는 것입니다. 쉽게 말해, 사람들의 키는 크다 작다 이분법으로 구부하기 어려울 정도로 다양하다는 것입니다.
이 부분에서 'binary'하게 우성 열성에 따라 유전 형질이 나타난다고 주장하는 '멘델 학파'와 형질이 연속적으로 나타난다고 주장하는 '생물계측학파'의 논쟁이 시작되었습니다.
결론적으로는 '키'는 하나의 유전자가 결정하기보다 수많은 inherited variants(ex. SNP)와 환경적 요인이 모두 기여한다고 볼 수 있습니다.
여기서 inherited variants인 SNP(single nucleotide polymorphism)는 '개체 간 단일염기변이'로 30억 개의 염기 서열 중 개인 편차를 나타내는 한 개 또는 수십 개의 염기 변이 2)를 말합니다.
즉, "키에 관여하는 여러 개의 SNP들 중 SNP1은 '+ 0.001cm', SNP2는 '+0.0009cm', SNP3 (-0.0005cm) ~~~ + 환경적 요인" 이렇게 키가 결정된다는 것이고, 이를 양적유전 모델(polygenic model)이라고 부릅니다.
본 강의 PART2는 '원인 유전자 탐색'에 대한 내용이었는데요, 원인 유전자 탐색 기술의 발전은 탐색할 수 있는 유전 변이의 종류를 달라지게 했고, 그러면서 질병 예측과 치료의 정밀성을 높일 수 있었습니다.
강연에서 설명하길, 1980년대 염색체 이상을 파악하는 '염색체 분석(Karyotyping)' 기술에서부터 common variants 파악, 그리고 현재인 2020년대에는 대규모 전장 유전체 데이터가 축적되며, Rare inherited variants를 파악할 수 있게 되었다고 합니다.
이렇게 기술이 발전하면서 원인 유전자 탐색 양상이 변화해온 이유는 '원인 유전자'를 탐색하는 것이 간단하지 않고 설명하기 어렵기 때문이죠. 즉, 우리 몸의 유전체 중 극소수만 단백질 발현에 관여하고, 그중에서도 일부만 기능적으로 중요하며, 단백질을 만들지 않는 DNA 정보도 체내에서 주요 역할을 할 수 있기에(ex. lncRNA) 이게 여간 까다로운 게 아닌가 봅니다.
아무튼 간에 최근의 유전체 빅데이터의 큰 흐름은 '국제 협력 연구'로서 거대한 샘플 사이즈를 확보하기 위해 코호트 간 협력하는 방향으로 이어지고 있다고 하는데요(대형 연구 컨소시엄의 등장),
따라서 현재의 과학에서 중요한 것은 혼자 잘하는 것보다는 "어떻게 공동 연구를 잘 할 수 있는가"이며, 통계적으로 엄격하고 높은 신뢰도의 gene, locus discovery를 정확하고 연구할 수 있는게 중요한 개념이 되었다고 설명하셨습니다.
정리하자면, '키'와 같이 인간의 거의 모든 형질은 양적형질 모델을 따르게 되며, 다양한 요인들이 복합적으로 작용하는 유전적 조성을 지니고,
그렇기에 최근 유전체 및 생물정보학 연구는 NGS 기술 등 최신 기술을 활용해 '하나의 질환에 대한 다양한 유전적 조성을 밝히는 것'을 목표로 진행되고 있으며, 이를 위해 유전체 빅데이터 확보를 위한 국제 협력 연구는 필수라고 볼 수 있다고 합니다.
자세하고 정확한 설명 내용은 아래 INCOEDU의 KOBIC 교육센터 '생명정보학 시작하기' 영상 2강을 시청하시면 되겠습니다. '다음에 또 논문 정리 혹은 강의 정리로 찾아오도록 하겠습니다. 감사합니다!
참고자료
1) NAVER 지식백과, 전체유전체 상관분석연구, URL : https://terms.naver.com/entry.naver?cid=66149&docId=5880677&categoryId =66149
2) AI-Helper, "SNP 유전자 진단 믿을 수 있나?", SCIENCE ON, 2019년 7월 22일 기사, URL : https://scienceon.kisti.re.kr/srch/ selectPOR SrchTrend.do?cn=SCTM00193993
3) INCOEDU, KOBIC 교육센터, https://edu.insilicogen.com/kobic/
'생물정보학(바이오인포매틱스)' 카테고리의 다른 글
[21일차] KOBIC 교육강의 공부 04 :: 생물정보학의 미래 기술 (24) | 2024.11.17 |
---|---|
[20일차] KOBIC 교육강의 공부 03 :: 미래 생물정보학자를 위한 기초 지식 (21) | 2024.11.16 |
[19일차] 멘델의 정원 & KOBIC 교육강의 01 :: 생명정보학 시작하기 1탄 (19) | 2024.11.15 |
[19일차] 논문 배경 지식 :: 백색 지방세포, 갈색 지방세포, 베이지색 지방세포 (15) | 2024.11.15 |
[18일차] 브릭 웨비나 정리2 : '단일세포 전사체 데이터를 활용한 면역세포와 암세포 상호작용 연구' (4) | 2024.11.03 |