본문 바로가기

생물정보학(바이오인포매틱스)/생물정보학 책

[생물정보학 알고리듬 03장] 컨티그 조립하기(최대 비분기 경로) & DNA array와 트랜스포존(transposon)

 

안녕하세요, 과학커뮤니케이터 TKM입니다!

 

 

 

이번엔 지난 번 글에 이어 생물정보학 알고리듬 3장 내용을 정리해보겠습니다 👏

 

 

[생물정보학 알고리듬 3장] '리드(read)'로부터 유전체 뉴클레오티드 서열 조립하기 :: 드 브루인

안녕하세요 TKM입니다! 그동안 영어 공부겸 '생물정보학 알고리듬' 책 내용을 영어로 한 챕터씩 정리해왔는데 그러다보니 제가 제대로 내용을 쓰고 있는지, 그리고 제대로 공부가 되고 있는건지

tkmstudy.tistory.com

 

 

우선, 드 브루인 그래프의 한계에서부터 시작해보겠습니다 :)

 

 

예로, 리드의 길이를 3이 아닌 2로 잡으면 다음과 같이 드브루인 그래프가 겹치는게 많아져 복잡해집니다..!

 

 

 

따라서 생물학자들은 리드의 길이를 늘릴 수 있는 방법을 고안해냈다고 합니다 🙋‍♂️

 

 

즉, 앞서 글에서 예시로 들었던 ' ACTGACTAGG'에서 고정된 길이 1만큼 떨어진 2-mer을 붙인다면

 

AC-GA, CT-AC, TG-CT, GA-TA, AC-AG, CT-GG가 등장할 것입니다!

 

 

 

그럼 드 브루인 그래프가 엄청 간단해지며 'ACTGACTAGG'로 예측할 수 있게 됩니다!

 

 

 

서열은 문자열을 연결하면 어떤 서열인지 알 수 있습니다 :)

 

 

 

리드들을 k-mer들로 쪼개기

 

 

따라서 k-mer 포괄범위를 더욱 완벽해지게 하려면, k값을 줄이면 된다고 하는데

 

그러면 전에 봤듯이 드 브루인 그래프가 더욱 엉켜지게 되어 그래프에서 유전체를 찾아내기가 어려워집니다..!

 

드 브루인 그래프 : 왼쪽 2-mer, 오른쪽 3-mer

 

 

참고로, 롱리드 시퀀싱의 장점은 아래 기사 정리 글에서 확인하실 수 있습니다 ㅎㅎ

 

 

실패한 인간 게놈 프로젝트? 유전체 해독 100% 퍼즐 완성했다 :: 롱리드 시퀀싱 기술 개발

인간 유전체 풀리지 않던 '8% 빈칸' 모두 채웠다 동아 사이언스 2022년 4월 4일 조승한 기자 Di...

blog.naver.com

 

 

 

암튼 리드를 쪼개면 조립 결과물에서 보통 k-mer 포괄 범위에 간격이 생기게 되고

 

이럴 경우 전체 염색체 조립을 하기보단

 

컨티그(유전체 상의 연속된 긴 조각)를 조립하는 것을 목표로 하게 된다고 합니다!

 

 

무엇보다 완벽한 포괄 범위를 갖고 있어도 반복 서열 때문에 오일러 경로를 단 하나만 추론하는게 불가능하여

 

유전체를 컨티그로 쪼갤 수 밖에 없다고 합니다..!

 

그럼 위에 있는 3-mer 드 브루인 그래프에서 '최대 비분기 경로'를 찾아봅시다. 

 

 

 

경로를 제대로 찾아냈는지, 그리고 모두 찾아낸건 맞는지 모르겠어서 아시면 댓글 부탁드리겠습니다!

 

결국 CTGAC, CTAGG가 최대 비분기 경로로 가능할 듯 싶은데 

TGACT도 되는건지 궁금하기도 하고 ㅋㅋㅋ

 

DNA 시퀀싱 기술의 짧은 역사

 

 

 

그렇지만, DNA array로 서열을 재구축하는 것은 알고리듬 상으로도 너무 복잡하고

 

수백만 개의 작은 DNA 조각을 합성해야 하는 생화학적 어려움도 존재하여 DNA array의 꿈은 결국 실패로 돌아갔습니다..!

 

허나 다른 용도로써 엄청난 경제적 가치와 잠재력을 보여주고 있습니다 👏

 

 

 

트랜스포존

 

 

인간 유전체의 50%는 '트랜스포존'이라는 DNA 상 위치가 바뀔 수 있는 반복 서열로 되어있다고 합니다..!


DNA 상 위치가 바뀔 수 있는 것은 물론, 삽입되면 그 유전자를 무력화할 수 있다니.. 

 

실제 유전체 조립에 굉장히 까다로운 변수가 될 것 같습니다 ㅠ

 

트랜스포존은 '레트로 트랜스포존''DNA 트랜스포존'으로 구분되는데

 

이에 대한 설명은 아래 영상에 있습니다!

 

 

 

또한, DNA가 이중가닥으로 이루어졌음에도

 

각 리드가 어느 가닥에서 왔는지 모른 채로 리드들을 다루게 되는 것도 유전체 조립에 변수로 작용합니다..!

 

즉, 유전체에 '정방향 반복 서열'과 '역방향 반복 서열'이 서로 접착 되어 있어 유전체 조립을 복잡하게 합니다.

 

 

 

 

다음은 제 4장 '항생제의 서열은 어떻게 알아낼까?'로 찾아오겠습니다!

 

 

 

Bioinformatics OPEN STUDY | Notion

본 페이지는 비영리 목적으로 ‘생물정보학’ 관련 프로그래밍 공부 내용을 정리 및 공유하기 위해 마련해본 공간입니다. 본 페이지는 원래 비공개 페이지였지만, 일부를 공개 내용으로 바꾸는

sparkling-dibble-7ff.notion.site

 

 

 

과학 is 일상 : 네이버 블로그

과학기술정책가를 꿈꾸는 생물정보학도이자 과학기술계와 일반 대중을 연결하는 과학커뮤니케이터 TKM입니다! PC로 보면 좋습니다~ 공지 글로 과학꿈터뷰 전자책을 무료 공유하고 있습니다! 문

blog.naver.com