안녕하세요, 이번 글에서는 '생물정보학 입문' 책의 두번째 챕터에 이어 세번째 챕터를 정리해보고자 합니다. 세번째 챕터는 이전 챕터보다 굉장히 길더군요.
[43일차] 생물정보학 입문 책 정리 ch.02 :: 유전학에서 게놈까지
안녕하세요, 이번 글에선 저번 챕터 1에 이어 '생물정보학 입문' 책 챕터 2를 정리해보고자 합니다. [41일차] 생물정보학 입문 책 정리 Ch. 01 :: 서론안녕하세요 이번 글에선 최근에 공부하고 있
tkmstudy.tistory.com
우리 몸은 다양한 기능을 하는 세포들의 상호작용으로 어쩌다 보니 '생존'이 가능하게 된 복잡한 시스템입니다. 그러한 몸 안에서 각 세포들은 'DNA'라는 유전 정보로부터 다양한 단백질들을 만들어내고, 그렇게 만들어진 단백질들의 활동은 조화를 이루어 우리 몸의 구조와 기능을 결정합니다. 이때 DNA로부터 단백질을 만들어내는 중간 과정에 핵심 역할을 하는 물질이 바로 'RNA'이죠. 물론, RNA에는 단백질을 암호화하는 RNA만 존재하는 것이 아닙니다. 단백질을 암호화하는 RNA는 그 중에서도 messenger RNA(mRNA)입니다.
전 글에서 살펴보았듯 우리는 기술의 발전으로 우리의 DNA 서열을 읽어낼 수 있게 되었습니다. DNA의 서열을 읽을 수 있으면 RNA의 서열도 읽을 수 있습니다. RNA에 역전사(reverse transcription)를 유도해 cDNA를 합성한 뒤 그 cDNA의 서열을 읽어내면 되기 때문이죠. 이러한 원리로 RNA 서열을 읽어내는 기술을 RNA 시퀀싱(sequencing) 기술이라고 합니다. RNA는 최근에 우리 몸에서 어떤 유전자가 발현되었는지 알려주는, 마치 살인 현장에 남아 있는 혈흔과 같은 사건의 증거로써 역할을 할 수 있습니다. 반면, 세포의 핵 안에 소중히 보관되어 있는 DNA는 어떤 유전자가 있는지 우리 몸에 존재하는지 알려줄 뿐 어떤 유전자가 최근에 사용되고 있었는지는 알려주지 못합니다. DNA는 그저 우리 몸의 설계도이자 교과서인 아주 '정적인 정보'이기 때문이죠. RNA는 세포에서 특정 구조물이 필요할 때 특정 구조물을 만들기 위해 우리 몸의 설계도인 DNA의 일부를 복사(전사)하는 과정을 통해 만들어지는 물질입니다. 이러한 복사본은 하나의 세포에서 수 만개가 끊임없이 만들어지고, 동일한 DNA 부위에서도 해당 서열이 암호화하는 구조물(단백질)이 많이 필요할 땐 수 많은 복사본(RNA)이 만들어집니다. 따라서 우리는 세포 속 RNA를 확인하면 해당 세포에서 어떤 구조물이 활발하게 만들어지고 있었는지 추정할 수 있습니다.
쉬운 예시로 방대한 양의 책이 있는 A 도서관에서 최근(한달 정도) 어떤 책을 사람들이 주로 찾아 읽어 왔는지,그리고 어떤 책을 찾아 읽고 있을지 알고 싶다고 해봅시다. 이때 A 도서관에 구비된 책의 전체 목록들을 전부 본다고 해서 사람들이 최근에 어떤 책을 주로 읽었는지 정확히 알 수 없습니다. 당연히 현재 어떤 책을 읽고 있을지 예측할 수도 없습니다. 물론, 그 도서관에선 도서관이 설립된 시점부터 지금까지 긴 시간 동안 방문객들이 읽고자 하는 책들을 구비해두었을 겁니다. 그리고 도서관 방문객들은 그 책 중 몇 개를 골라 읽었겠죠. 그러나 우리는 도서관에 있는 전체의 책 중에서 최근에 도서관 방문객들이 주로 어떤 책을 찾아 읽었는지, 그리고 어떤 책을 찾아 읽고 있을지 파악하고 싶습니다. 그렇다면 A 도서관에서 사람들이 지난 한 달 동안 어떤 책을 주로 찾아 읽었고, 현재는 어떤 책을 읽고 있을지 어떻게 예측할 수 있을까요?
첫번째 방법은 해당 도서관의 대출 이력이 담긴 영수증들을 쓰레기 통에서 훔쳐오는 것입니다. 그 영수증을 보면 최근에 어떤 책들을 주로 찾았는지 알 수 있죠. 사실 RNA는 '대출 이력이 담긴 영수증'을 넘어 '대출된 책을 읽을 수 있기 전 단계의 무언가'입니다. 보다 정확히 말하자면, 대출은 했지만 아직 읽을 수는 없는, 그렇지만 사람들이 읽을 가능성이 높은 '무언가'입니다. 다시 말해, 그 '무언가'는 나중에 사람들이 읽을 수 있는 책을 만들어 낼 수 있습니다. 즉, RNA는 DNA의 정보를 복사해 담고 있으며, 몸에서 기능할 수 있는 '단백질'로 번역되는데 꼭 필요합니다.
아주 단순하게 생각해보면 그런 생각이 듭니다. 우리 몸에서 기능하는 단백질이 될 수 있는 'RNA'를 우리 몸의 기능을 확인하기 위해 훔쳐왔다면, 단백질에 RNA가 꼭 필요하다고 했는데 그렇다면 그 세포는 더 이상 단백질이 만들어지지 않는거 아닌가 말이죠. 결론부터 말하자면 우리는 거대한 하나의 세포가 아닙니다. 우리 몸에는 비슷한 기능을 하는 굉장히 많은 수의 세포들이 증식 및 분화를 통해 만들어집니다. 몸에는 약 37조 개의 세포가 있다고 알려져 있죠. 우리는 그 중 일부의 세포를 샘플로 얻어 그 세포의 RNA의 서열을 확인합니다. 이때 샘플 속에 들어있는 세포는 이제 몸에서 기능을 할 수 없는 몸 밖으로 나온 세포입니다. 결국 몇 개의 세포를 샘플로 수집한다고 해도 나머지 수십조개의 우리 몸의 세포들은 우리 몸에서 기능을 하고 있습니다. 마치 도서관에서 쓰레기통을 훔쳐오기 위해 도서관 안의 몇 개의 자료 열람실들을 파괴해도 도서관은 돌아가는 그런 느낌입니다. 물론 그 도서관엔 서로 비슷하면서도 조금씩 다른 혹은 아주 다른 자료 열람실들이 셀 수 없이 많이 있다는 가정 하에 말이죠. 우리는 그렇게 도서관의 일부 열람식들을 파괴하고 거기에서 쓰레기통을 훔쳐온 뒤 그 쓰레기통에서 대출 이력이 담긴 영수증을 솎아 내어 분석을 진행합니다. 즉, 조직 시료를 몸에서 빼낸 뒤 세포를 분리하고, 그 세포를 용해(lysis)시킨 뒤, 거기서 얻은 추출물 중 mRNA만 선별하여 서열 분석을 진행하는 것입니다. 세포 안의 총 RNA 수는 비교적 많은 편입니다. 보통 개별 세포에 대한 RNA-seq을 할 경우 수 천개 정도 되는 세포를 분석을 위해 얻어내며, 세포마다 수 만개(ex. 2~5만개) 정도 되는 RNA를 추출합니다. 표본이 커지면 진실에 가까워집니다. 세포와 RNA도 몸 안에서 추출한 수가 많다면 특정 조직에서의 우리 몸의 기능을 추론하는 핵심 단서가 될 수 있습니다. 그렇게 우리는 통계적 방법으로 우리 몸의 세포들이 몸에서 어떤 기능을 하고 있는지 RNA 정보를 확인하여 추론을 합니다. 그것이 바로 RNA 시퀀싱 데이터 분석의 원리입니다.
그렇지만 중요한 것은 우리는 몸 안에서 기능하고 있는 단백질들을 확인하는 것이 아니라, 단백질로 발현될 수 있는 mRNA의 서열을 몸 밖으로 추출해서 그 서열을 확인하여 그 mRNA가 어떤 유전자에 대응하는지 보고, 그로부터 몸 안에 존재하는 단백질의 기능들을 확률적으로 추정한다는 것입니다. 이부분이 굉장히 중요한 듯 합니다. RNA-seq 데이터 분석을 하다보면, 해당 RNA에 대응하는 유전자가 단백질로 발현된다는 전제 하에 분석을 돌리고 그 결과를 해석할 수 있기 때문이죠.
도서관의 예시를 들자면, 사람들이 대출을 했지만 그 책을 읽지 않을 수 있습니다. 다시 말해 RNA가 만들어졌는데 그것이 단백질이 되지 않을 수 있습니다. 또한, 요즘은 디지털 시대라서 사람들이 '대출 이력이 담긴 종이 영수증'을 뽑지 않은 채 스마트폰 바코드를 활용해 대출했을 수도 있습니다. RNA의 경우에는, RNA 추출 방법의 한계로 세포 안에 존재하는 RNA 중 일부를 캡쳐하지 못할 수 있습니다. 이러면 해당 영수증의 데이터를 분석해 A 도서관에서 사람들이 주로 어떤 책을 찾아 읽는지 예측하기가 어렵습니다. 물론 해당 영수증은 최신 영수증일겁니다. 아직 폐기처리장에 가지 않은 도서관 쓰레기통에 있던 영수증이니까요. 그렇기에 만약 A 도서관에서 주로 종이 영수증을 사용하고, A 도서관 방문객이 엄청나게 많고, 그 방문객들의 대출 이력이 담긴 종이가 항상 특정 쓰레기통에 손상되지 않고 보관될 수 있다면, 우리는 그 쓰레기통을 털어 종이 영수증을 추출해 사람들이 어떤 책을 읽었는지와 읽고 있을지 추정할 수 있습니다. 물론 우리는 쓰레기통을 털기 위해 해당 자료 열람실을 파괴해야 하기에 도서관에는 증식 및 분화를 할 수 있는 '자료 열람실'들이 셀 수 없이 많아야 하겠지만요. 동물 실험의 경우에는 도서관 전체를 파괴하는 경우도 있는데요. 이에 대한 대안으로 요즘은 사람의 실제 세포 환경을 모사한 '오가노이드 기술'이 등장하기도 했습니다.
시간이 지나면 폐기처리장으로 가는 쓰레기통의 종이 영수증처럼 mRNA도 일시적으로 발현됩니다. 진핵생물에서 mRNA의 반감기는 수 분에서 수 시간까지 다양할 수 있다고 합니다(원핵생물의 mRNA는 빠른 환경 변화에 대응하기 위해 대략 1~5분 정도만 지속된다고 합니다). 즉, 사람의 mRNA의 절반 정도는 수분에서 수시간이 지나면 분해되어버린다는 것입니다. 어찌 보면 당연하죠. 세포는 자극의 유형과 강도가 달라지는 환경의 변화에 따라 반응 즉, 기능을 달리해야 될테니까요. 다시말해 세포는 빠르게 변화하는 환경에 발맞춰서 만드는 단백질을 변화시킬 수 있어야 할 것이고, 그렇게 세포는 끊임없이 기존의 단백질을 파괴하고 새로운 기능을 하는 단백질을 만들어낼 수 있어야 생존이 가능합니다. 결국 우리가 세포에서 추출해낸 mRNA는 해당 세포의 최근 기능을 추론할 수 있는 정보가 담긴 mRNA일 가능성이 높습니다. 무엇보다 우리의 몸에서 단백질이 만들어지려면 반드시 mRNA를 만드는 절차를 거쳐야 합니다. 그래도 결국 우리가 할 수 있는 건 추출한 샘플을 통한 '예측'입니다. 심지어 mRNA는 아직 기능을 하는 도구가 아닌 '특정 도구를 만드는 설계도 일부의 복사본'입니다. 본 책에서는 다음과 같이 말합니다.
단백질을 암호화하는 것으로 보이는 일부 유전적 서열은 실제로 결함이 있거나 발현되지 않을 수 있다. 게놈 서열로부터 유추된 단백질은 실험을 통해 그 존재가 확인되고 그 특성이 측정되기 전 까지는 가상의 대상이다. 1)
A 도서관에서 사람들이 어떤 책을 주로 찾아 읽는지 파악하는 가장 좋은 방법은 사실 도서관 쓰레기통을 뒤지는게 아닙니다. 그보다 더 좋은 방법은 도서관에 직접 여러 번 가서 사람들이 어떤 책을 주로 대출하여 읽고 있는지 직접 보거나 그 현장을 사진찍는 것입니다. 그렇지만 우리는 세포 속으로 직접 갈 수가 없습니다. 또한, 세포에서 어떤 일들이 벌어지고 있는지 RNA를 관찰하기엔 RNA는 너무나도 작습니다. 그렇다고 우리 몸에서 어떤 일이 벌어지고 있는지 파악하는 일을 포기할 순 없죠. 우리는 우리 몸의 생존을 위협하는 요인들을 이해하고 그에 대처해야 하니까요. 우리 몸에서 벌어지고 있는 기능들을 신뢰도 높게 이해하려면 몸에서 기능하는 세포 내에 존재하는 다양한 물질들을 다양한 측면에서 신뢰도 높게 파악해야 합니다. 즉, 세포로부터 고품질의 데이터를 다양한 측면에서 충분히 확보하여, 세포의 기능에 대한 이해의 폭을 넓힐 필요가 있습니다. 통계의 힘은 강합니다. 앞서 말했듯 데이터가 많으면 진실에 가까워집니다. 동전을 수만번 던지면 앞면과 뒷면이 나올 확률은 각각 50%에 수렴합니다. 물론 본 데이터는 올바른 해석을 가능하게 하는 고품질의 데이터여야 할 것이고, 세포의 맥락을 최대한 반영한 데이터이어야 할 것입니다.
다시말해, 우리 몸에서 세포들이 어떤 기능을 하고 있는지 신뢰도 높게 파악하려면, 세포의 기능이 이루어지고 있는 '맥락(context)'을 최대한 반영할 수 있도록 하는, 그러면서도 배치 효과(기술적인 변이)와 같은 노이즈를 최소화하여 세포의 복잡하면서도 미묘한 생물학적 기능을 파악할 수 있도록 하는 기술이 필요하지 않을까 싶습니다. 기술이 발전하면 과학이 발전할 수 있습니다. '알파폴드'와 같은 AI 기술의 발달은 우리 몸에서 기능하는 단백질의 구조와 단백질 간 상호작용을 예측할 수 있는 기반이 되었습니다. 물론 맥락을 반영하고 노이즈를 최소화하는 세포 기능 분석은 말이 쉽지 어떻게 해야 할지는 감도 안옵니다. 세포에서는 서로 다른 구조를 가진 단백질들이 복잡하게 상호작용하고, 세포끼리도 상호작용하여 그 복잡성을 가중시키기 때문입니다. 그래도 전 세계 사람들이 이러한 문제를 해결하기 위해 머리를 맞대고 있는 만큼 희망은 없지 않습니다. 그렇게 세포 내 존재하는 다양한 물질들을 다양한 측면에서 파악할 수 있는 단일세포 멀티오믹스 기술(single cell multiomics)이 등장하였고, 결과의 신뢰도 높은 해석을 위해 기술적인 변이를 최소화하는 배치 보정(batch correction)을 위한 알고리즘들이 개발되는 등 몸의 기능을 세포 수준에서 파악하는 기술의 진보는 지금도 꾸준히 이루어지고 있습니다.
Best practices for single-cell analysis across modalities - PMC
Abstract Recent advances in single-cell technologies have enabled high-throughput molecular profiling of cells across modalities and locations. Single-cell transcriptomics data can now be complemented by chromatin accessibility, surface protein expression,
pmc.ncbi.nlm.nih.gov
지금까지 설명한건 mRNA입니다. RNA에는 mRNA만 있는게 아니죠. RNA에는 단백질 합성 공장인 '리보솜'의 구성 요소가 되는 rRNA, 번역(translation) 과정에서 아미노산을 들고오는 tRNA, 유전자 발현 조절에 관여하는 miRNA와 siRNA, piRNA 등이 있습니다. 저는 이 중에서 RNA 간섭(RNA interference)이라는 기작을 통해 유전자 발현에 조절에 관여하는 miRNA와 siRNA가 흥미롭습니다. 이들은 RNA이면서도 다른 RNA(mRNA)에 결합해 번역을 억제합니다. 다시 말해, 이 두 가지 유형의 RNA들은 특정 mRNA로부터 단백질이 만들어지지 않도록 특정 mRNA의 분해를 유도하기도 하고, miRNA의 경우엔 분해되기 전까지 mRNA를 침묵시킬 수도 있습니다. 결국 DNA로부터 전사된 mRNA가 단백질로 만들어지는 과정은 굉장히 험난하며, 유전자 발현에 영향을 미치는 여러 변수가 작용하게 된다고 볼 수 있겠습니다. 물론 DNA로부터 단백질이 만들어지는 과정이 굉장히 단순했다면 '실패 복구 메커니즘(fail safe mechanism)'을 발동하기 어려웠을 겁니다. 즉, DNA로부터 비정상적인 단백질들이 우후죽순 등장했을 수 있겠죠. 그렇기에 우리 몸 안에서 이루어지는 RNA 간섭은 비정상적인 mRNA를 발견해 분해하거나 침묵시킴으로써 '실패'를 바로잡을 수 있다는 점에서 중요한 기능합니다. 사실 'RNA 간섭'은 유전자 발현의 가변성을 더하는데 있어 빙산의 일각에 불과합니다. DNA 서열로부터 단백질을 만드는 과정에는 더 많은 변수가 존재합니다. 그 중 대표적인 것이 바로 '가변 스플라이싱(alternative splicing)'입니다.
진핵생물의 유전자에는 단백질을 암호화하는 영역 사이사이에 '비암호화 영역'이 존재합니다. 여기서 '암호화 영역'을 '엑손(exon)', '비암호화 영역'을 '인트론(intron)'이라고 부릅니다. DNA로부터 전사되어 만들어진 처음 단계의 미성숙한 RNA(pre-mRNA)는 DNA의 엑손과 인트론 서열 정보를 모두 포함하는데요. 따라서 번역이 되지 않은 인트론 서열은 추가적인 가공 과정을 통해 잘라져 나가야 합니다. 그 과정이 바로 '가변 스플라이싱'입니다. 인트론이 잘라져 나갔다면 성숙한 mRNA를 만들기 위해 중간 중간 분리되어 있는 엑손들을 다시 연결해야겠죠? 이때 흥미로운 점은 인트론들이 잘라져 나가고 남은 엑손 중 모든 엑손들이 하나로 연결되어 성숙한 mRNA가 되는 것이 아니라 exon skipping이라는 기작을 거쳐 그중 일부의 엑손만 선택적으로 연결되어 성숙한 mRNA가 만들어진다는 것입니다. 여기서 어떤 엑손들이 선택적으로 연결되어 mRNA가 만들어지느냐에 따라 서로 다른 종류의 단백질들이 만들어집니다. 즉, 동일한 pre-mRNA라도 가변 스플라이싱을 통해 어떤 엑손을 선택적으로 포함하느냐에 따라 다른 단백질을 암호화하는 mRNA가 만들어질 수 있는 것이죠. 이러한 점에서 본 스플라이싱 과정을 '가변(alternative)' 스플라이싱이라고 부릅니다. 책에서는 다음과 같이 설명합니다.
진핵생물에서는 단백질의 아미노산 서열을 암호화하는 염기 서열이 더 복잡한 방식으로 조직되어 있다. 종종 하나의 유전자가 게놈 DNA 내에서 별도의 조각(segments)으로 분할되어 나타난다. 발현 영역인 엑손은 리보솜이 단백질로 번역하는 성숙 mRNA로 전사되는 DNA의 연속적인 부분이다. 인트론은 두 엑손 사이의 중간 영역이다.. 많은 경우, 동일한 전사체에서 파생된 다양한 성숙 mRNA 분자에는 다양한 엑손 선택이 포함되어 있다. 이러한 가변 스플라이싱은 DNA에 암호화된 단백질 목록을 풍부하게 만든다. 1)
결국 우리는 여러 엑손과 인트론 부위를 포함하고 있는 하나의 유전자로부터 엑손 선택(exon skipping)을 통해 다양한 단백질을 만들 수 있었던 것입니다. 통상 사람의 단백질 암호화 유전자(~20000개) 중 약 37% 정도까지가 '다수의 동형 단백질(multiple protein isoforms)을 만들어낼 수 있는 유전자'라고 합니다 2). 뒤에서 설명하겠지만 우리 인간(human)은 다른 생명체에 비해 유전자가 많은 편이 아닌데요. 암호화영역은 전체 DNA 서열에서 1~2%에 불과합니다. 그럼에도 다양한 단백질들을 만들 수 있었던 건 바로 이 '가변 스플라이싱' 과정 덕분이라고 볼 수 있습니다. 이점에서 얻을 수 있는 한 가지 교훈은 자원이 적더라도 적절한 가공처리 등으로 잘 활용하기만 하면 기능을 극대화할 수 있다는 점이 아닐까 싶습니다. 제 작년에 읽었던 책인 '혁신에 대한 모든 것'의 관련 구절 하나가 떠오릅니다.
자원이 유한한 세계에서 무한한 성장이 불가능하다고, 아니 적어도 지속 불가능하다고 말하는 이들은 틀렸다. 이유는 단순하다. 성장은 덜 쓰면서 더 많이 얻는 식으로 이루어질 수 있기 때문이다. 4)
여기서 한 가지 궁금증이 생겼습니다. 다양한 엑손 조합을 만드는 가변 스플라이싱 기작의 가변성이 랜덤하게 발생하게 되는 것인지, 아니면 특정 신호 조절에 의해 특정 엑손 조합들을 형성하도록 하는 것인지 말이죠. 물론, 애초에 유전자 발현 자체가 랜덤으로 이루어지는 게 아니라 보통 그 유전자가 필요하기에 그 유전자를 발현하도록 하는 기작이 이루어지는 만큼 엑손 조합도 어떤 기작이 특정 조합을 이루도록 유도하지 않을까 싶긴했는데요. 무엇보다 특정 유전자가 엑손 조합을 통해 다양한 단백질을 만들 때 그 단백질들을 랜덤으로 만든다면, 그중 목표로 했던 단백질이 아닌 원치 않는 단백질 몇 개가 만들어져셔 세포의 생존에 위협을 가할 수 있을테니까요. 그래도 혹시 몰라서 확인을 해보니까 엑손 조합에 관여하는 스플라이싱 인자들의 조절 기작은 아직 완벽하게 이해되지 않은 복잡한 기작이더군요. 몇 가지 알 수 있던 건 있습니다. 스플라이싱 인자들의 스플라이싱 조절 네트워크는 세포마다 다르며, 세포 운명 결정(cell fate decision)을 제어해 조직 및 기관의 기능에 주요 역할을 한다는 것2)입니다.
암튼 랜덤은 아닙니다. 그저 스플라이싱 조절 네트워크의 발동 기작이 세포마다 어떻게 다르게 나타나는지 그 특이적인 메커니즘을 점진적으로 밝혀가고 있을 뿐입니다. 결국, 세포들은 서로 다른 스플라이싱 조절 네트워크를 통해 특정 유전자로부터 서로 다른 단백질들을 만들어내며 서로 다른 기능을 할 수 있는 것이었습니다. 사실 동일 유전자로부터 서로 다른 엑손 조합이 만들어져서 서로 다른 기능을 나타내는 단백질을 이전 논문 정리에서 다뤄본 적이 있는데요. 바로 피루브산 키나아제인 'PKM1'과 'PKM2'입니다. PKM1과 PKM2는 동일 유전자에서 다른 엑손 조합을 통해 만들어져서 서로 다른 기능을 나타내는 두 가지 유형의 동형 단백질입니다. 간단히 설명하자면 PKM1은 해당과정이 신속하게 이루어질 수 있도록 하여 피루브산을 충분히 만들어내는 반면, PKM2는 해당과정의 속도를 늦춥니다. 아래 글을 적으며 본 기작에 대해 공부를 해봤었는데요, 자세하고 정확한 기작은 관련 논문을 참고하시길 바랍니다.
[42일차] 논문 리뷰 연습 04 :: PKM2 Drives Hepatocellular Carcinoma Progression by Inducing Immunosuppressive Microenviro
안녕하세요, 이번엔 2023년 말에 전공수업에서 공부하고 리뷰 발표했던 논문을 다시 한번 정리해보려고 합니다. 논문 제목은 'PKM2 Drives Hepatocellular Carcinoma Progression by Inducing Immunosuppressive Microe
tkmstudy.tistory.com
결국 우리는 PKM을 암호화하는 유전자 발현을 확인한다고 해서 그 유전자로부터 PKM1이 만들어질지 PKM2가 만들어질지 예측하기 어렵습니다. 따라서 어떤 조건의 어떤 세포에서 스플라이싱 조절 네트워크가 어떻게 나타나는지, 그리고 그로부터 어떤 단백질이 만들어는지를 보다 구체적으로 규명해내는 것이 앞으로 분자생물학 분야의 주요 과제이자 생물정보학이 도전해볼 수 있는 영역이 되지 않을까 싶습니다. 그냥 해본 말이라 아닐 수도 있습니다. 이미 많이 밝혀졌고 중요성이 크지 않을 수도 있으니까요. 그렇지만 왠지 중요해보입니다. 우리 몸의 유전자가 스플라이싱 조절 네트워크의 발동기작에 따라 질병에 영향을 미칠 수 있는 서로 다른 단백질을 만들어낼 수 있다는 의미기도 하니까요. 책에서도 가변 스플라이싱이 세포 내 단백질 파악에 있어 복잡성을 가중시킬 수 있다고 설명하고 있는데요. 생물정보학 분야는 복잡한 생물학적 기전을 최대한 실제와 가깝게 예측하는 방향으로 데이터 및 알고리즘을 발전시켜가고 있는 만큼 '가변 스플라이싱'을 반영하는 생물학적 데이터 분석은 더 정확도 높은 분석을 가능하게 할 것으로 보입니다. 스플라이싱 인자인 '스플라이소좀(splicosome)'에 의해 가변 스플라이싱이 어떻게 이루어지는 다음 영상에서 잘 시뮬레이션 해주고 있습니다.
우리 몸의 단백질은 아미노산 간 다양한 비결합성 상호작용(람데르발스 힘, 수소결합, 이온결합, 소수성 상호작용, 이황화결합 등)을 통해 복잡한 구조를 이룹니다. 그 복잡한 구조는 폴리펩티드 사슬 간 연결로 만들어지는 4차구조까지 이어집니다. 이러한 단백질의 구조는 단백질의 기능을 결정합니다. 주의해야할 건 단백질은 '의식'이 없다는 것입니다. 그저 그 형태에 맞게 기능하게 되었고 그 기능이 생존에 유리하니 계속 그 단백질을 생산하게 된 것입니다. 여기서 문제는 우리는 RNA와 같은 게놈 서열로부터 단백질의 4차 구조를 예측하지 못한다는 것이죠. 풀어 설명하면, 게놈 서열로부터 아미노산 서열(특정 게놈 서열이 특정 아미노산을 지정하니까)을 파악해 그로부터 만들어지는 하나의 폴리펩티드 사슬을 예측할 수 있긴 하지만 단백질의 4차 구조는 앞서 말했듯 여러 폴리펩티드 사슬 간의 비결합성 상호작용에 의해 이루어지기 때문에 게놈 서열만으로 이해하기엔 어렵습니다.
게놈 서열은 단백질의 4차 구조에 대한 단서를 제공하지 않는다. 예를 들어, 성인 인간 헤모글로빈이 2개의 α-사슬과 2개의 β-사슬을 포함하는 사량체라는 것을 게놈서열로부터 어떻게 추론할 수 있는가? 많은 단백질이 보조기(group)에 결합한다. 이것들은 게놈에서는 보이지 않는다. 시스테인 잔기 사이의 주요 화학 결합인 이황화결합의 패턴은 아미노산 서열에서 직접 추론할 수 없다. 1)
물론, 이제 우리는 AI 기술의 발전으로 단백질의 잔기들 사이에서의 거리와 각도 등의 구조적 정보를 예측해 3차원 공간에서 단백질이 비결합성 상호작용에 의해 어떻게 접힐지 추정할 수 있습니다. 즉, 이제는 단백질 3차 구조를 예측할 때 서열 정보를 넘어 전반적인 상호작용 패턴, 진화적 정보 등 여러 특징 변수들을 활용할 수 있게 되었기에 시스테인 잔기 사이의 이황화결합도 간접적으로 예측할 수 있게 되었습니다. 이에 더해 4차 구조까지도 높은 정확도로 예측할 수 있게 되었는데, 관련 국내 소식이 있길래 아래 기사를 가져와봤습니다.
단백질 '4차 구조' 최대 1만배 빠르게 식별·비교 도구 나왔다
단백질 구조 비교 도구인 폴드시크-멀티머를 활용한 단백질 복합체 시각화 예시. 서울대 제공국내 연구팀이 스위스 연구팀과 협력해 단백질 복합체구조를 빠르게 파악하고 서로 비교할 수 있는
www.dongascience.com
본 책은 챕터 5에서 '단백질 구조 예측'에 대한 내용을 다루고 있는데요. 저는 먼저 유전체 내용부터 공부하고 시간이 되면 단백질 구조 예측 부분도 정리해보려고 합니다.
DNA 서열로부터 단백질이 되어가는 과정에서만 여러 변수들이 작용하는 것이 아닙니다. 단백질이 되고 나서도 단백질의 기능을 변화시킬 수 있는 여러 변수들이 작용할 수 있습니다. 그중 가장 대표적인 예가 바로 '번역 후 변형(post-translational modification)'입니다. 책에서 말하길, 번역후 변형 과정에는 리간드 추가(ligand addition), 글리코실화(glycosylation), 메틸화(methylation), 인산화(phosphylation), 펩티드 절단 등이 포함된다고 하는데요. 인산화의 경우에는 바로 떠오르는 단백질이 있죠. 바로 '키나아제(kinase)'입니다. 키나아제는 다른 단백질(기질)의 특정 잔기에 '인산기'를 붙여 그 단백질을 인산화시킵니다. 보통 단백질이 인산화되면 그 단백질은 활성화됩니다. 반대로, 다른 단백질에 있는 인산기를 떼어내어 그 단백질을 비활성화시키는 효소도 있는데요. 이를 포스파타제(phosphatase)라고 합니다. 보통 세포 내에서의 신호 전달 경로는 키나아제와 포스파타제에 의한 단백질 '활성' 혹은 '비활성'의 연쇄적인 기작을 통해 이루어지게 됩니다.
이러한 점을 활용해서 항암 치료를 위한 '티로신 키나아제 억제제'가 개발이 되었습니다. 이는 암 성장 경로에 관여하는 단백질의 티로신 잔기에 인산기를 붙임으로써 해당 단백질의 기능을 활성화하는 '티로신 키나아제'의 기능을 억제하는 전략입니다. 그렇게 특정 단백질을 공략해 여러 단백질들의 순차적인 상호작용을 통해 형성되는 암 세포의 성장 경로의 작동을 억제하는 것이죠. 또 다른 번역 후 변형 기작에는 '펩티드 절단'이 있는데요. 왠지 절단낸다고 하니 펩티드로 구성된 단백질의 활성을 억제할 것 같습니다. 그렇지만 꼭 그렇지는 않습니다.
펩티드의 절단은 일반적인 번역 후 변형이다. 어떤 경우에는 절단이 비활성 형태의 단백질을 활성 형태로 전환한다. 음식의 소화와 혈액 응고에 활동하는 단백질분해효소(proteases)가 그 예이다. 다른 경우에는 올바른 접힘을 촉진하는 효과가 있다. 예를 들어, 인슐린은 적절하게 접히는 단일 사슬 전구체로 합성된 후 펩티드를 절단하여 성숙한 올리고머 형태를 생성한다. 1)
펩티드 절단을 통해 단백질 기능 활성화한다고 하니 또 하나 떠오르는 예시가 있는데요. 바로 '보체계'입니다. 보체계는 우리 몸을 침입한 타자를 저지하는 면역 반응 기전으로, 굉장히 작은 '보체'라는 단백질들이 쪼개지면서 또 다른 보체 단백질을 만들고, 그 단백질들이 다른 보체들을 활성화하면서 우리 몸에 침입한 타자(병원균)에 구멍을 냅니다. 최근에 읽은 책인 필리프 데트머 집필한 '면역 3)'에선 보체계를 다음과 같이 설명합니다.
우리 면역계를 구성하는 핵심 멤버 중 하나는 보체계다. 보체계는 서른 가지가 넘는 단백질로 이루어지며, 복잡하고 우아한 춤을 추듯 손발을 찾찾 맞춰 침입자를 저지한다. 보체계의 역할은 세 가지다. 적을 공격하고, 면역계를 활성화하며, 적이 죽을 때까지 그 몸에 구멍을 뚫는 것이다. 3)
사족이 길어졌는데, 결국 중요한 것은 게놈 서열만으로 우리 몸에서 단백질들이 어떻게 기능하고 있는지 파악하는 건 굉장히 어렵다는 것입니다. 우리 몸에서는 굉장히 작은 수 많은 단백질들이 복잡한 상호작용을 하고 있기 때문입니다. 그러면서도 그 복잡한 상호작용 양상은 게놈 서열만 봐선 알기 어렵습니다. 사실 몸에서 면역 만큼 복잡한 게 없는데, 관련 내용도 차차 정리하면서 조금씩 깊이 공부해보려고 합니다. 최근 앞서 구절을 인용했던 필리퍼 데트머가 지필한 '면역' 책을 거의 한 달에 걸쳐 정독을 완료했는데요. 깊이 있게 다루진 않지만 그래도 꽤 재밌더군요. 읽어보시길 추천드립니다. 암튼 본 글에서는 유전체에 대해 다루도록 하겠습니다.
인간의 게놈 서열에 비해 원핵생물의 게놈 서열은 간단합니다. 심지어 원핵생물은 세포 하나로 구성되어 있습니다. 그렇기에 원핵생물에서는 하나의 세포의 기능을 이해하면, 전체의 기능을 알 수 있습니다. 흥미로운 점은 원핵생물에는 핵이 없고, 유전 물질이 '큰 단일 원형 조각 형태'로 존재한다는 점인데요. 여기서 궁금해지죠. 아시다시피, 인간의 DNA 서열은 원형을 띠지 않습니다. 보다 정확히 말하자면, 인간의 DNA 서열은 세포 분열이 이루어지지 않을 땐 풀어져 있다가 분열이 이루어질 땐 아래 이미지와 같은 '염색체(chromosome)' 구조를 나타냅니다. 이러한 염색체 구조는 히스톤 단백질에 DNA에 돌돌 말려 응축된 구조로 볼 수 있습니다.
그렇다면 왜 원핵생물의 유전물질은 분열 전이든 분열 중이든 항상 원형 DNA 형태를 띠는걸까요?
사실 순서가 반대입니다. 우리 진핵생물에 존재하는 여러 세포들의 유전 물질은 왜 위와 같은 원형 DNA 형태가 아닌 히스톤 단백질에 DNA가 돌돌 말려 있는 구조를 갖는 걸까요?
그 이유는 원핵생물과 진핵생물의 '생존을 목표로 한다'는 공통점과 '유전물질의 길이가 다르다'는 차이점에서 비롯되었을 것으로 추정됩니다. 원핵생물의 DNA의 길이는 보통 5 Mb 미만이라고 하는데요. 사람의 하나의 세포에 존재하는 DNA 길이인 약 3200Mb(1Mb = 1,000,000bp)에 비해 굉장히 짧죠. 그러면서도 원핵생물과 진핵생물 모두 세포에서 DNA보다 소중한 건 없습니다. DNA가 보존되어야 DNA로부터 구성성분들을 만들어내는 세포가 생존하니까요. 잘 살아남는 게 오래 살아 남습니다. 그렇게 DNA를 잘 보존한 세포들이 거대한 역사 속에서 지금까지 살아남은 것입니다. 원핵생물이 세포가 하나 밖에 없다고 해서 단순하고 허접한 존재가 아닙니다. 그들도 진핵생물과 마찬가지로 거대한 역사 속에서 끊임없이 변화하는 환경 속에서 지금까지 DNA를 보존 및 수정해가며 살아남은 강한 생명체입니다.
DNA는 세포 안에 존재하는 핵산분해효소(nuclease)로부터 분해될 위험이 있습니다. 물론, 핵산분해효소(nuclease)는 손상된 핵산을 제거하는 등 세포의 기능을 위해 필요하긴 하지만, 불필요할 때 DNA 서열이 핵산분해효소로 모두 분해되어 버리면 그 세포는 더 이상 기능하지 못하므로 끝입니다. 즉, 원핵생물은 세포 하나가 죽어버리면 더 이상 생존하지 못합니다. 이러한 일을 방지하기 위해 DNA를 가닥 끝에서부터 갉아 먹는 exonuclease와 같은 핵산분해효소들로부터 DNA를 보호하는 조치가 필요합니다. 이에 대한 조치로 원핵생물은 원형을 이루는 DNA 가닥 형태를 갖게 되었다고 추론해볼 수 있겠습니다. 원형을 이루면 말단이 존재하지 않게 되기에 DNA 가닥 끝이 핵산분해효소의 먹잇감이 되지 않도록 할 수 있으니까요. 그렇다면 진핵생물의 유전물질은 왜 원형이 아닐까요? 세포 안에 존재하는 핵산분해효소가 DNA를 분해할 수 있는 건 진핵생물도 마찬가지일텐데요.
우선, 길이가 3200Mb나 되는 유전물질을 조그마한 세포에 원형으로 보관하는 건 불가능합니다. 따라서 진핵생물은 다른 단백질들로부터 DNA를 보호할 수 있는 '안전 공간'을 만들었습니다. 바로 '핵(nucleus)'입니다. 물론 핵 안에서도 DNA를 분해하는 단백질들이 붙을 위험이 있습니다. 이를 방지하기 위해, 그리고 조그마한 핵 안에 약 1.1 ~ 2m 정도(인간의 경우)되는 긴 DNA를 보관할 수 있도록 히스톤 단백질이라는 것에 이 DNA를 돌돌 말아서 보관합니다. 문제는 히스톤 단백질에 DNA가 지나치게 응축되어 있으면 DNA에 어떤 단백질도 결합할 수 없다는 것입니다. 이 말은 핵산분해효소는 물론, DNA에서 단백질을 만들기 위한 '전사(transcription)' 과정에 필요한 전사인자도 DNA에 붙을 수 없다는 의미입니다. 따라서 우리 몸의 세포는 유전자 발현이 필요할 때만 히스톤 단백질과 DNA 간 응축 정도를 느슨하게 하여 유전자 발현이 이루어질 수 있도록, 그러면서도 외부의 위협으로부터 DNA를 보호할 수 있도록 응축 정도를 정교하게 제어합니다.
이러한 생물학적 지식을 기반으로 최근에는 DNA에서 어떤 위치의 서열이 전사를 활성화할 수 있는 '전사 인자(단백질)'가 결합할 수 있는 열린 상태(DNA와 히스톤 단백질 간 응축이 느슨한 상태)인지를 확인하는 ATAC‐seq(Assay for Transposase-Accessible Chromatin with sequencing)이 등장하기도 했는데요. 간단히 설명하자면 ATAC‐seq은 DNA가 히스톤 단백질과 느슨하게 결합한 열린 상태일 때만 효소의 일종인 Tn5(transposase의 일종)가 해당 영역에 어댑터 서열을 삽입할 수 있다는 생물학적 지식 기반의 원리를 이용하여 삽입된 어댑터 서열의 피크 신호를 검출해 열린 염색질의 위치를 파악하는 방법입니다. 이를 통해 DNA에서 어느 부분이 전사가 활성화가 되어 있는지 파악할 수 있죠. 따라서 ATAC-seq은 scRNA-seq을 통해 파악한 세포별 유전자 발현 패턴의 해석에 있어 신뢰도를 높여줄 수 있습니다. 글이 의식의 흐름대로지만 공부를 위한 글이기에 계속 이어가겠습니다. 위에 올려보니 원핵생물에 대해 이야기하다 여기까지 왔네요. 참고로, 이제 진핵생물은 텔로머레이스에 의해 말단 부분(텔로미어, 세포 분열 횟수를 제한해 세포의 수명을 결정)을 복제하는 별도의 메커니즘이 작동해야 하기에 원형을 띠고 싶어도 띨 수가 없습니다.
원핵생물의 유전체는 진핵생물과 비교하여 상대적으로 적은양의 비암호화 DNA 서열을 갖습니다. 대장균(E. coil)에서는 DNA의 약 11%만이 비암호화되어 있다1)고 하는데요. 사람의 DNA에선 98~99% 정도가 비암호화 영역이라는 점에서 원핵생물의 비암호화 영역이 차지하는 비율은 굉장히 작음을 알 수 있습니다. 여기서 비암호화 DNA 서열은' 단백질로 번역되지 않는 DNA 서열'을 말하는데요. 단백질로 번역되지 않는다고 해서 아무런 기능도 하지 않는 DNA 서열이라는 말은 아닙니다. 비암호화 서열은 tRNA, rRNA, miRNA, siRNA 등 세포의 생존에 핵심이 되는 RNA를 만드는 서열일 수도 있고, 우리가 아직 모르는 기능에 관여하는 서열일 수도 있습니다. 앞서 말했듯 인간과 같은 진핵생물은 비암호화 DNA 서열이 굉장히 깁니다. 그만큼 사람 샘플을 대상으로 RNA 시퀀싱 데이터 분석을 진행할 때, 우리가 아직 밝혀내지 못한 게놈 서열인 '비암호화서열'의 역할과 작동 메커니즘을 이해하는 것도 세포의 기능을 이해하는 데 있어 중요한 파장을 불러오지 않을까 싶습니다.
물론 진핵생물이 아닌 원핵생물에서도 게놈 서열 파악을 어렵게 하는 요인이 있습니다. 바로 '수평적 유전자 전달'입니다. 생각나는대로 궁금한 것들을 조사하면서 글을 적다보니 너무 길어졌습니다. 잠깐 끊고 다음 글에서 '수평적 유전자 전달(horizontal gene transfer)'에 대해 다뤄보도록 하겠습니다. 감사합니다!
참고자료
1) 저자 ARTHUR M. LESK. 번역 이용석,강병철,김익수 외 3명, 생물정보학 입문 제2판, 월드사이언스, 2024
2) Baralle, F., Giudice, J. Alternative splicing as a regulator of development and tissue identity. Nat Rev Mol Cell Biol 18, 437–451 (2017).
3) 필리프 데트머, 강병철 옮김, 면역(IMMUNE), 2021
4) 매트리들리(세계적 과학 저술가) 지음, 이한음 옮김, 혁신에 대한 모든 것, 청림출판, 2023