본문 바로가기

생물정보학(바이오인포매틱스)

[41일차] 생물정보학 입문 책 정리 Ch. 01 :: 서론

 

 

안녕하세요 이번 글에선 최근에 공부하고 있는 '생물정보학 입문 제 2판' 책 첫 챕터를 정리해보고자 합니다. 본 내용에는 오류가 있을 가능성이 있으며, 자세하고 정확한 내용은 본 책 1)을 참고하시길 추천드립니다!

 

우선 책의 인트로 부분에 다음과 같은 인상적인 문장이 있었습니다.

 

 

유전자 발현 패턴 그리고 조절 상호작용 네트워크는 세포와 생명체가 DNA에 담긴 정보를 어떻게 구현하는지 보여준다. 생명체의 잠재력은 게놈에 포함되어 있지만, 그것으로부터 생애 전반을 추론하는 것은 불가능하다. 생명 활동 전체를 이해하기 위해서는 RNA와 단백질, 그리고 이들이 DNA와 상호작용하는 방식을 찾아야 하는데, 이러한 활동은 발달 프로그램이나 환경에 따라 달라지고 반응한다. 1)

 

 

우리 몸이 만들어가는 이야기는 단순히 우리 몸의 설계도인 DNA 서열에 의해서만 결정되지 않습니다. 배를 만드는 사람이 전형적인 배 설계도의 내용을 달달 암기했다고 해도, 그 배가 특정 환경에서 목적에 맞는 기능을 제대로 할지는 다른 문제인 것처럼 말이죠. 그 환경에서 제대로 된 기능을 수행하는 배를 만들려면, 배의 설계도를 알아야 하는 것은 물론, 배를 띄워야 하는 장소의 환경적 특성과 배의 운용 목적에 맞게 배를 다듬어야 할 수 있기 때문입니다. 또한, 배의 일부가 손상되거나 갑자기 배가 제 기능을 하지 못할 때 대처도 잘 해야 하겠죠.

 

출처 : AI DALLE

 

 

우리 몸을 항해하는 단백질은 우리 몸의 설계도인 DNA로부터 여러 생물학적 과정을 거쳐 만들어집니다. 이러한 과정은 여러 변수들이 난무하고 여러 위협들이 찾아오는 우리 몸 속에서 이루어지고 그에 맞게 단백질이 만들어지고, 기능하고, 분해되게 됩니다. 물론 항상 제 기능을 잘하는 건 아니지만요. 그러한 우리 몸의 메커니즘을 이해하면서 분자생물학이 발전해왔고, 이젠 컴퓨터의 등장과 데이터의 축적, 그리고 IT 기술의 발전으로 생물정보학 또한 발전해오고 있습니다. 

 

저자가 말하길, 지난 세기 동안 분자 생물학자들은 생명체를 분해하며 생명체가 어떻게 이루어져 있는지 이해하는 데 초점을 맞추어왔다고 합니다. 그 덕에 우리는 우리 몸이 무엇으로 구성되어 있는지를 알게 되었고, 방대한 양의 DNA 서열은 물론, 단백질의 3차원 구조까지도 예측할 수 있게 되었습니다.

 

 

이제 우리의 과제는 그것들을 어떻게 다시 조립을 해야할지 이해하는 것이다. 우리는 많은 양의 데이터를 가지고 있다. 이제 우리는 그것들이 어떻게 상호 관련되어 있는지 확인하고 싶어 한다. 명 현상의 중심에는 공간과 시간의 구성 요소들 사이의 복잡한 상호작용 패턴이 있다. 이러한 패턴을 이해하기 위해서, 이 분야는 정보를 네트워크로 통합하고, 그 구조와 동력을 분석하는 방향으로 나아가고 있다. 네트워크를 저장하고, 시각화하며, 분석하고, 비교할 수 있는 많은 도구들이 존재한다. 현대 생물정보학은 이러한 도구 없이는 불가능하다. 1)

 

 

컴퓨터 기술의 발전은 대규모 데이터의 수집 및 저장을 가능하게 했습니다. 현재 우리는 인터넷을 활용해 언제 어디서든 NCBI와 같은 대규모 통합 생물학 데이터 아카이브 및 저장소에 클릭만으로도 쉽게 접근할 수 있게 되었습니다. 그렇지만 중요한 것은 데이터로부터 생물학적 질문에 대한 올바른 답을 얻어내려면, 올바른 데이터를 활용해야 한다는 점입니다. 이에 저자는, "정보는 품질 관리와 주석 작업을 거쳐야 하며, 정보 검색이 가능하도록 논리적인 구조를 갖춰야 한다"고 말합니다. 

 

컴퓨터 공간에서의 데이터 아카이브는 현실 공간에서의 도서관에 비유할 수 있지 않을까 싶습니다. 물론, 도서관에서는 걸어다니며 원하는 책을 찾지만, 데이터 아카이브에서는 검색과 클릭, 링크를 통해 원하는 데이터를 제공받고 그 주석 정보를 얻죠. 데이터 아카이브에서의 품질 관리 및 주석 작업도 도서관에서의 일에 비유할 수 있습니다. 예로, 품질 관리는 도서관을 방문하는 고객들을 위해 주기적으로 도서관에 있는 책들을 갱신하는 활동(ex. 오래된 책은 창고에 정리하고 새 책을 끼워넣기 or 찢어진 책 수리나 바코드 인식 안되는 책 바코드 갱신), 주석 작업은 도서관에 있는 책들이 각각 어떤 책들인지 설명(ex. 자연과학 분야 책 / 미술 분야 책)을 기록해두는 작업에 비유할 수 있을 듯 합니다. 

 

출처 : AI DALLE

 

 

도서관에서 책을 읽은 사람들은 그 책의 정보를 그대로 달달 외우기만 하는 기계가 아니죠. 사람들은 그 책의 정보를 본인의 관심분야나 전문분야에 접목해 새로운 아이디어를 만들어내곤 합니다. 데이터 또한 그 데이터가 아하 그런 데이터가 있구나 정도로만 이해하고 끝나는 것이 아닌, 그 데이터를 원하는 연구 문제를 해결하는데 이용하거나 다른 데이터와의 통합 분석을 통해 생각치 못했던 연구 성과를 낼 수도 있습니다. 특히, 데이터 아카이브에서는 그 데이터가 어떤 데이터인지만 알아도 그 데이터를 모두 읽지 않고 주석만 읽고도 이를 데이터 분석 및 응용에 활용할 수 있습니다. 품질 관리가 철저히 되어 있는 보장된 수치형 데이터라면, 데이터의 요약 통계 정도만 봐도 충분할 때가 있으니까요. 

 

 

데이터를 재조합하는 다양한 방법이 새로운 접근법을 제공한다. 예를 들어, 게놈 서열을 단백질 기능의 시그니처와 결합하여 유전자 산물의 역할을 할당하는 방법이 있다. 데이터와 마찬가지로, 생물정보학 분야의 도전 과제는 종종 이용 가능한 프로그램을 재조합하는 것이다. 카트를 만드는 것은 바퀴를 새로 발명하는 것이 아니라, 그것들을 조립하는 것이다. 1)

 

 

아직 챕터 1에 들어가지 않았는데 서두가 길어졌네요. 이제 챕터 1의 내용을 정리해보도록 하겠습니다.

 


 

 

생명체란 무엇일까요? 한 마디로 정의하기 참 어려운 것 같습니다. 본 책에서는 다음과 같이 정의합니다.

 

생명체는 물질, 에너지, 그리고 정보의 통제된 조작에 영향을 미치는 자연적으로 발생하는 자가복제 장치이다. 가장 먼 관점에서 보면, 지구 상의 생명체는 시공간에 분포하는 복잡하고, 영구적이며, 진화하는 시스템이다. 그것은 각각 유한한 수명을 가지며, 클론 개체군을 제외하고 고유한 특징을 가진 독립된 개별 유기체로 주로 구성되어 있다는 것이 가장 중요하다.

 

 

우리 '인간' 역시 하나의 생명체로, 불멸을 원하는 'DNA'라는 유전 정보를 우리 몸의 가장 기본적인 단위인 세포 속에 소중히 보관하고 복제를 통해 자손에게 물려주며, 유한한 생을 마감합니다. 결국, 이 DNA라는 유전정보가 우리가 어떻게 기능하고, 어떤 모습으로 다른 생명체들과 시공간 속에서 상호작용할지, 관찰 가능한 '표현형'을 결정하게 되는데요. 저자는 표현형을 '유전자형 이외의 눈으로 직접볼 수 있는 특성의 모음'으로 정의합니다. 이러한 표현형은 유전자는 물론, 유전자와 환경의 복잡한 상호작용, 그리고 유기체의 발달을 제어하는 후생유전학적 신호에 따라서 달라질 수 있습니다. 만약, DNA가 모든 표현형을 결정하고 불변했다면 생태계의 다양성은 불가능했겠죠.

 

 

표현형은 유전자형과 환경의 영향을 받는 유기체의 발달을 제어하는 후생유전학적 신호에 따라서 달라진다. 유전자형과 표현형 사이의 ‘비대칭성’은 진화의 원동력이다. 1)

 

 

 

참고로, '유전자형'은 핵 및 미토콘드리아가 가지고 있는 DNA 서열로 볼 수 있습니다. 핵에 있는 DNA 서열은 복제가 이루어질 때를 제외하고 '염색체 구조'를 형성하는데요. 우리 인간은 22쌍의 상염색체와 1쌍의 성염색체를 각 체세포마다 갖습니다. 여기서 한 쌍은 두개입니다. 결국, 각 염색체 쌍은 동일한 위치에 두 개의 대립 유전자를 가지며, 두 대립 유전자가 같을 땐 동형접합체(homozygote), 다를 땐 이형접합체(heterozygote)라고 합니다.

 

 

포유동물에서는 전형적으로 약 20%의 좌위가 이형접합체(2개의 다른 대립유전자)이다. 동형접합체와 이형접합체는 유전자형이 다르지만, 단일 유전자가 형질을 베타적으로 제어하고, 하나의 대립유전자가 우성인 경우 동형접합체와 이형접합체는 동일한 표현형을 가질 수 있다. 1)

 

 

위와 같은 경우에서 형질을 베타적으로 제어하는 대립 유전자를 우성, 우성에 의해 표현이 되지 못하는 대립 유전자를 열성이라고 하죠. 우성 열성 하면 멘델의 강낭콩 실험이 가장 먼저 떠오르실 것 같습니다. 물론, 강낭콩과 달리 현실의 대부분의 표현형은 우성과 열성이 명확히 구분되어 있지 않다고 합니다.

 


 

 

하나의 유전자는 하나의 단백질을 넘어 여러 종류의 단백질을 합성하는데 관여할 수 있다는 걸 알고 계신가요?

 

이론적으로 생각해보면 유전자 서열이 동일하다면 그 서열에 맞는 아미노산 서열이 만들어지고, 그렇기에 하나의 유전자로부터는 항상 동일한 아미노산 서열이 만들어질 것 같은데 말이죠. 유전자의 염기서열이 동일하다는 전제 하에(돌연변이가 일어나지 않은 이론적인 상황) 어떻게 이런 가변성이 가능한 걸까요?

 

이는 DNA의 정보가 전사(transcription) 과정을 통해 RNA로 복사된 뒤 단백질로 번역(translation) 되기 전 가공 처리 과정을 겪게 되기 때문입니다. RNA 중 단백질을 발현하는 mRNA는 단백질을 암호화하는 엑손 영역만 남기고, 단백질을 암호하지 않은 인트론 영역을 가공 처리 과정에서 제거하는데요. 이러한 과정을 '스플라이싱'이라고 합니다. 이때 저자가 말하길, "가변적인 스플라이싱은 엑손의 다른 선택에 의해 동일한 유전자에서 여러 다른 단백질의 생산으로 이어질 수 있다"고 합니다. 물론 여러 후성유전학적 신호 및 자극에 따른 단백질의 변형이 하나의 유전자로부터 여러 종류의 단백질을 만들게 할 수 있습니다. 이러한 단백질들은 몸을 구성하는 세포의 기능에 영향을 미치는데요. 뇌를 갖지 않는 분자들의 세계에서 '단백질의 기능'은 구조가 결정하니까요. 항체 역할을 하는 단백질이 갑자기 관심 분야가 바뀌었다고 해서 자발적으로 효소가 되어버리는 경우는 보기 힘듭니다. 물론 수동적인 특정 자극에 따른 구조적 변화를 통해 역할의 변화는 가능할 수 있긴 하지만요.

 

 

세포의 게놈 서열과 여기에 포함된 RNA와 단백질의 레퍼토리는 세포가 무엇이 될 수 있고, 무엇을 할 수 있는지를 시사한다. 그러나 세포는 선택을 한다. 조밀하고 논리적으로 통합된 제어 메커니즘 네트워크는 세포 전사 및 대사 활동의 동적 상태를 통제한다.

 

 

우리 몸의 조절 메커니즘은 단백질과 단백질의 결합, 단백질(ex. 전사인자)의 DNA 결합에 의해 이루어진다고 알려져 있습니다. 결국, 딥마인드의 단백질 구조 예측과 단백질 간 상호작용 예측 모델인 '알파폴드'는 우리 몸의 조절 메커니즘에 대한 이해의 폭을 넓혀 주었기에 전세계적으로 큰 주목을 받고 노벨상까지 받은 것으로 볼 수 있겠습니다.  

 

이제 단백질 구조 예측이 정교한 수준으로 가능해졌습니다. 다음 단계는 시공간이 작용하는 특정 맥락의 우리 몸 속에서 단백질들은 어떻게 네트워크를 이루는지 즉, 단백질 간의 순차적 연쇄적 반응이 어떤 생물학적 경로에 관여하는지 단순히 노드로 연결하는 것이 아닌 폭넓은 차원에서 이해하는 게 새로운 혁신이 되지 않을까 싶습니다. 이제 단백질 구조도 예측이 가능하고, 방대한 양의 생물학 데이터가 축적되었으며, 고성능의 컴퓨터로 심층학습이 가능한 AI 시대니까요.

 

출처 : AI DALLE

 

 

우리 몸의 네트워크는 크게 유전체 네트워크, 단백질 네트워크, 대사산물 네트워크로 구분할 수 있다고 합니다. 유전체 네트워크의 경우 같은 계통발생학적 기원을 가져 서열이나 기능면에서 유사성을 갖는 상동관계(Homology)의 유전자끼리 연결하거나, 물리적으로 염색체 상에서 서로 가까이 위치해 함께 유전될 가능성이 높은 Linage(결합) 관계를 연결한 관계를 나타냅니다. 또한, 비슷한 시점이나 특정 조직 혹은 특정 조건에서 공동 발현 패턴(coexpression pattern)을 보이는, 그래서 같은 생물학적 경로에 관여하거나, 같은 전사 인자의 조절을 받거나, 특정 기능을 함께 수행할 가능성이 있는 유전자들끼리의 관계를 나타내기도 합니다.

 

단백질의 경우엔 같은 계통발생학적 기원을 갖는 상동관계 이외에도 서로 활성을 조절하는 조절관계, 같은 경로를 공유해 특정 조건 혹은 특정 조직에서 함께 발현되는 공유표현 패턴, 서로 결합하는 물리적 복합체 형성 관계 등을 연결지어 네트워크로 표현한다고 하네요. 마지막으로 대사산물은 효소 반응의 기질 및 생성물, 구조의 유사성, 반응성의 유사성으로 화합물들을 연결지어 네트워크로 표현한다고 합니다. 

 

이제 유전자로부터 단백질이 발현되어 그것이 세포의 기능을 결정하고, 그들의 관계를 네트워크로 표현해 몸의 기능을 서술할 수 있다는 걸 알게 되었습니다. 그렇다면 어떤 유전자가 언제 발현할지는 어떻게 통제할까요? 세포에서 모든 유전자가 상시적으로 발현되는 건 에너지 낭비는 물론, 불필요한 기능으로 세포를 죽음에 빠지게 할 수 있을 것입니다. 그만큼 우리의 세포에서는 엄청나게 긴 DNA 서열 중 필요한 부분의 유전자만 전사(DNA -> RNA)와 번역 과정(RNA -> 단백질)을 통해 단백질로 발현시키는 과정이 앞서 만들어진 단백질들의 협력 과정을 통해 이루어집니다. 물론, 만들어진 단백질이 반드시 생존에 유리하게 작용하진 않을 수 있지만요. 

 


 

 

책을 읽으면서 재밌는 사실을 알게 되었는데요. 간과 근육의 건강한 세포와 종양세포 또는 바이러스에 감염된 일부의 세포가 많은 핵을 가질 수 있다는 점이었습니다. 세포는 핵이 없거나 핵이 한 개만 있는 줄로만 알았는데 신기하네요. 핵이 여러 개면 게놈의 여러 사본을 가진다고 하는데, 그렇다면 종양세포를 대상으로 하는 scRNA-seq의 QC 과정에서 Doublet(세포를 하나만 세어야 하는데 두개가 들어간 케이스)을 제거할 때 주의해야할 필요가 있을 듯 해보입니다. 참고로, 서로 다른 개인은 서열의 약 0.5%가 다르다고 하네요. 서로 다른 유전자형의 대표적인게 MHC(주조직 적합성 복합체)가 있는데 요즘 면역학 강의도 슬쩍 듣고 있지만 역시 면역은 복잡하고 어렵습니다. 예외가 너무 많고 조건에 따라 기능이 달라지니까요. 

 

또한, 졸업논문을 작성하며 이름이 익숙해져버린 'SNP'에 대한 설명도 있었습니다.

 

 

단일 뉴클레오티드 다형성(SNP)은 단일 위치에서의 염기 치환이다. 어떤 경우에는 하나의 SNP가 단백질을 기능 장애로 만들어 질병을 일으키기에 충분하다. 예를 들어, 단일 아미노산을 변경하는 단일 염기 치환으로 인한 겸상-혈구(낫모양 적혈구) 헤모글로빈은 정상 헤모글로빈과 다르다. 

 

 

SNP 여러 개가 하나의 세트로 알츠하이머병이나 불면증과 같은 특정 질병과 연관성이 있다는 건 알았는데요. 낫모양 적혈구 헤모글로빈의 경우 하나의 SNP가 질병을 유발할 수도 있더군요. 참고로 낫모양 적혈구가 혈관 폐색을 일으켜 발생하는 질환이 '낫모양 적혈구 빈혈증'이죠. 이러한 유전변이가 있다고 해도 생후 6개월 까지는 비정상적인 헤모글로빈이 만들어지지 않을 수 있습니다. 그 이유는 태어나서 6개월까진 문제가 있는 성인 헤모글로빈이 아닌, 태아 헤모글로빈 HbF가 유전자 발현을 통해 생성되기 때문입니다. 그 이후로 점차 HbF 생산을 담당하는 유전자 스위치가 꺼지고, 그러면서 성인 헤모글로빈을 만드는 'HbS'가 생성되며, 낫모양을 이루는 비정상적인 헤모글로빈 β 사슬이 발현됩니다. 따라서 낫모양적혈구 질환 치료에 있어 생후 6개월 이후 태아 헤모글로빈 합성 유전자 HbF가 꺼지는 메커니즘을 붕괴하는 전략이 활용될 수 있다고 합니다. HbF 생성 유전자 발현 메커니즘이 꺼지지 않으면 비정상적인 HbS 단백질 발현으로 이어지지 않을테니까요. 이는 HbF가 HbS와 함께 응집되지 않기에 가능한 전략입니다.

 

질환은 염기서열의 변이로 인해 비정상적인 단백질이 만들어져 나타날 수도 있지만, 특정 유전자의 복제수가 비정상적으로 늘어서 나타나기도 합니다. 대표적인 예로, 앞서 언급한 21번 상염색체가 정상인보다 한개 더 많은 즉, 세 개라 복제수변이가 나타나는 다운 증후군이 있습니다. 

 

사실 돌연변이는 항상 나쁜 쪽(생존에 불리한 쪽)으로만 작용하는 건 아닙니다. 애초에 우리는 우주에서 만들어진 돌연변이가 축적된 형태일 수 있으니까요. 그만큼 생존에 유리한 방향으로 복제수 변이가 나타나기도 하는데요. 대표적인 예로, AMY1 유전자의 복제수변이가 있습니다. 침과 같은 타액의 α-아밀리아제 유전자인 AMY1은 녹말을 당으로 분해하는 효소를 암호화합니다. 이 유전자의 복제수가 식단에서 전분의 비율과 상관관계가 있다고 합니다. 즉, 식단에 전분이 많으면 몸에서 녹말을 당으로 분해하는 일을 더 많이 해야 하니 그러한 역할을 하는 효소인 α-아밀리아제가 더 많이 필요하고, 그래서 본 효소를 암호화하는 AMY1 유전자가 전문을 많이 먹는 집단의 사람들에게서 더 많이 복제될 필요가 있었던 것으로 진화의 역사를 추적해볼 수 있겠습니다.  

 

출처 : AI DALLE

 

 

일부의 돌연변이는 질병의 독단적인 원인은 아니지만 질병의 위험을 높일 수 있다고 합니다. 즉, 돌연변이가 간접적으로 질병의 위험을 높일 수 있습니다. 대표적인 예로, 단백질 분해를 억제하는 단백질의 비정상적인 발현으로, 비정상적인 단백질 분해가 이루어져 조직 손상이 이루어지는 경우가 있습니다. 그 예는 다음과 같습니다.

 

 

유전적 수준에서 감지할 수 있는 또 다른 위험 인자는 폐포에서 엘라스타아제에 의한 단백질 분해를 억제하는 단백질인 ‘알파1-항트립신’과 관련이 있다. 알파1-항트립신(324Glu → Lys)의 Z 돌연변이에 대해 동형접합성인 사람은 비정상적인 단백질만 발현한다. 그들은 정상적인 억제 활성에 의해 확인되지 않은 내인성 엘라스타아제로 인한 폐 손상으로 인해 폐기종의 위험이 있으며, 합성되는 간세포에 중합체 형태의 알파1-항트립신이 축적되기 때문에 간 질환의 위험도 있다. 1)

 

 

여기서 엘라스타아제(elastase)는 단백질을 가수분해하는 단백질이자 효소로, 해당 효소의 작용을 억제하는 또 다른 단백질인 α1-항트립신은 간에서 생성되어 폐를 엘라스타아제에 의한 손상으로부터 보호합니다. 그렇지만, 위의 구절처럼 α1-항트립신 유전자의 동형접합 돌연변이는 α1-항트립신을 제 기능을 하지 못하게 해 간은 물론, 폐까지 악영향을 끼치게 할 수 있습니다. 

 

흥미로운 점은 질병과 관련한 유전자의 변이가 그 유전자 내에 있지 않을 수 있다는 점입니다. 

 

 

환자의 게놈 염기서열을 대조군의 게놈 염기서열과 비교하면 질병과 염기서열 변화의 상관관계를 통계적으로 분석할 수 있다. 이러한 변화는 일반적으로 단일 염기 다형성(SNP)의 형태를 취한다. 이러한 연구는 엑손 서열로 제한함으로써 단순화할 수 있다고 생각할 수 있다. 그러나 더 많은 질병 관련 SNP는 암호화 영역보다 조절 영역에 있다.

 

 

즉, 특정 유전자와 연관된 SNP가 유전자 안이 아닌, 유전자의 발현을 조절하는 enhancer 영역, sliencer 영역, 혹은 전사인자를 인코딩하는 영역에 있을 수 있다는 것입니다. 참고로, 물리적으로 가까운 위치에서 특정 유전자의 발현 조절에 관여하는 SNP를 cis SNP, 물리적으로 떨어진 위치에서 전사인자 등을 통해 간접적으로 유전자 발현을 조절하는 SNP를 trans SNP라고 합니다. 

 

앞서 하나의 SNP에 의해 나타나는 낫모양 적혈구 질환 치료를 위해 태아 헤모글로빈 HbF 생성이 꺼지는 메커니즘을 붕괴하는 전략을 활용할 수 있다고 했었죠? 물론 그런 방법도 있지만, 원초적으로 그 하나의 SNP를 올바른 방향(생존에 유리한 방향)으로 교정하는게 더 확실할 수 있습니다. 그렇지만 이 돌연변이를 역전시키는 것은 쉽지 않기에 태아 헤모글로빈 합성의 지속성과 관련한 유전자 BCL11A(태아 헤모글로빈 발현 조절 인자 발현)를 녹아웃시키는 전략이 활용되었고, 그 결과 태아 헤모글로빈과 혈리학적으로 정상적인 표현형의 풍부한 생성으로 이어졌다고 하네요.

 

이때, BCL11A의 녹아웃은 BCLL1A의 발현에 영향을 미치는 적혈구-조직 특이적 인핸서에 대한 녹아웃을 통해 가능하다고 합니다. 주의할 것은 BCL11A의 완전한 동형접합성 생식선 녹아웃은 신생아 치사율을 유발할 수 있다는 점입니다. 결국, 유전자는 위에서 말했듯 여러 단백질을 합성할 수 있고, 여러 가지 기능에 관여할 수 있는 만큼 그 중 특정 맥락에서의 한 가지 기능을 피하기 위해 해당 유전자를 녹아웃시켰다가 그 유전자가 몸에서 하는 또 다른 생존에 있어서의 핵심 기능을 못하게 만들 수도 있습니다. 그만큼 유전자 편집엔 주의가 필요하겠죠. 암튼 그래서 BCL11A의 경우 성인에게서만 해당 유전자를 비활성화 시키는 조건부 녹아웃을 만드는 전략을 사용하고 있다고 합니다. 

 

이러한 유전변이는 질병 치료의 표적이 되는 것은 물론, 약물에 대한 환자 간 효과 차이 혹은 반응 차이(ex. 부작용 차이)를 만들어낼 수도 있습니다. 대표적인 예로, 말년에 고혈압 치료를 받은 DNA 이중나선 구조를 발견한 왓슨의 경우가 있습니다.

 

 

왓슨은 β 차단제라고 하는 일종의 약물로 고혈압 치료를 받았다. β-차단제는 스트레스 반응에 활성되는 β-아드레날린 수용체를 표적으로 한다. 왓슨은 약물이 그를 부적절하게 졸리게 만든다는 것을 발견했다. 그의 게놈 서열은 그가 사이토크롬 P450 유전자의 변이체에 대해 동형접합체임을 나타내었고, 그 결과 약물의 대사가 평소와 달리 느려졌다. 복용량을 줄임으로써 원하지 않는 부작용을 피할 수 있었다. 1)

 

 

현재 사용 중인 많은 약물은 특정 단백질과 상호작용하여 기능을 변경함으로써 질병의 증상이나 근본적인 원인에 영향을 미친다고 하며, 약물 중 절반은 수용체, 약 1/4는 효소, 약 1/4는 호르몬을 표적으로 한다고 합니다. 그리고 7%는 알려지지 않은 표적에 작용한다고 하죠. 최근에는 CRISPR를 활용한 유전자 치료도 주목받고 있습니다. CRISPR 기술은 특정 염기서열을 인식해서 그 부분을 제거하고 다른 유전자를 붙이는 기술로, 문제를 일으키는 유전자를 제거하고, 몸에 보호적인 효과를 일으키는 유전자를 삽입하는데 사용할 수 있습니다. 본 기술은 2020년 노벨상의 주인공이 되었을 정도로 21세기 큰 바람을 불러온 혁신적인 생명공학 기술입니다. 물론, 유전자 편집에 있어 off target(원치 않은 표적 편집) 문제와 윤리적 문제는 앞으로도 꾸준히 풀어가야 할 숙제가 될 듯 합니다. 

 

다음에 2장 챕터를 다 읽은 후 또 다시 정리해보겠습니다. 감사합니다.

 

 

- 참고자료

 

1) 저자 ARTHUR M. LESK. 번역 이용석,강병철,김익수 외 3명, 생물정보학 입문 제2판, 월드사이언스, 2024

 

 

생물정보학 입문 : 네이버 도서

네이버 도서 상세정보를 제공합니다.

search.shopping.naver.com