안녕하세요, 과학커뮤니케이터 TKM입니다!
이번엔 지난 번 글에 이어 생물정보학 알고리듬 3장 내용을 정리해보겠습니다 👏
우선, 드 브루인 그래프의 한계에서부터 시작해보겠습니다 :)
예로, 리드의 길이를 3이 아닌 2로 잡으면 다음과 같이 드브루인 그래프가 겹치는게 많아져 복잡해집니다..!
따라서 생물학자들은 리드의 길이를 늘릴 수 있는 방법을 고안해냈다고 합니다 🙋♂️
즉, 앞서 글에서 예시로 들었던 ' ACTGACTAGG'에서 고정된 길이 1만큼 떨어진 2-mer을 붙인다면
AC-GA, CT-AC, TG-CT, GA-TA, AC-AG, CT-GG가 등장할 것입니다!
그럼 드 브루인 그래프가 엄청 간단해지며 'ACTGACTAGG'로 예측할 수 있게 됩니다!
서열은 문자열을 연결하면 어떤 서열인지 알 수 있습니다 :)
리드들을 k-mer들로 쪼개기
따라서 k-mer 포괄범위를 더욱 완벽해지게 하려면, k값을 줄이면 된다고 하는데
그러면 전에 봤듯이 드 브루인 그래프가 더욱 엉켜지게 되어 그래프에서 유전체를 찾아내기가 어려워집니다..!
참고로, 롱리드 시퀀싱의 장점은 아래 기사 정리 글에서 확인하실 수 있습니다 ㅎㅎ
암튼 리드를 쪼개면 조립 결과물에서 보통 k-mer 포괄 범위에 간격이 생기게 되고
이럴 경우 전체 염색체 조립을 하기보단
컨티그(유전체 상의 연속된 긴 조각)를 조립하는 것을 목표로 하게 된다고 합니다!
무엇보다 완벽한 포괄 범위를 갖고 있어도 반복 서열 때문에 오일러 경로를 단 하나만 추론하는게 불가능하여
유전체를 컨티그로 쪼갤 수 밖에 없다고 합니다..!
그럼 위에 있는 3-mer 드 브루인 그래프에서 '최대 비분기 경로'를 찾아봅시다.
경로를 제대로 찾아냈는지, 그리고 모두 찾아낸건 맞는지 모르겠어서 아시면 댓글 부탁드리겠습니다!
결국 CTGAC, CTAGG가 최대 비분기 경로로 가능할 듯 싶은데
TGACT도 되는건지 궁금하기도 하고 ㅋㅋㅋ
DNA 시퀀싱 기술의 짧은 역사
그렇지만, DNA array로 서열을 재구축하는 것은 알고리듬 상으로도 너무 복잡하고
수백만 개의 작은 DNA 조각을 합성해야 하는 생화학적 어려움도 존재하여 DNA array의 꿈은 결국 실패로 돌아갔습니다..!
허나 다른 용도로써 엄청난 경제적 가치와 잠재력을 보여주고 있습니다 👏
트랜스포존
인간 유전체의 50%는 '트랜스포존'이라는 DNA 상 위치가 바뀔 수 있는 반복 서열로 되어있다고 합니다..!
DNA 상 위치가 바뀔 수 있는 것은 물론, 삽입되면 그 유전자를 무력화할 수 있다니..
실제 유전체 조립에 굉장히 까다로운 변수가 될 것 같습니다 ㅠ
트랜스포존은 '레트로 트랜스포존'과 'DNA 트랜스포존'으로 구분되는데
이에 대한 설명은 아래 영상에 있습니다!
또한, DNA가 이중가닥으로 이루어졌음에도
각 리드가 어느 가닥에서 왔는지 모른 채로 리드들을 다루게 되는 것도 유전체 조립에 변수로 작용합니다..!
즉, 유전체에 '정방향 반복 서열'과 '역방향 반복 서열'이 서로 접착 되어 있어 유전체 조립을 복잡하게 합니다.
다음은 제 4장 '항생제의 서열은 어떻게 알아낼까?'로 찾아오겠습니다!