본문 바로가기

생물정보학(바이오인포매틱스)/생물정보학 책

[생물정보학 알고리듬 4장] 펩티드를 어떻게 추론할 수 있을까? :: 실험 스펙트럼과 이론 스펙트럼, 그리고 컨볼루션

 

안녕하세요 TKM입니다!
 


 
 
우선, 글을 시작하기 전에 본 글은 공부 목적의 글로 오류가 많이 있을 수 있음을 밝힙니다 🙏
 

 

 

[생물정보학 알고리듬 4장] '항생제 내성 세균'에 대응하기 위한 '항생제 펩티드 아미노산 순서'

안녕하세요, 생물정보학도 TKM입니다! 오늘 다룰 책 4장의 주제는 '항생제 서열을 어떻게 알아낼까?'입니다. '약학용어사전'에 따르면, '항생제'란 "미생물이 생성한 물질로, 다른 미생물의 성장을

tkmstudy.tistory.com

 

 

오늘도 지난 글에 이어 항생제 서열을 알아내기 위한 '고리형 펩티드 시퀀싱'에 대해 다뤄보도록 하겠습니다!
 
이를 위해 책에서 소개된 방식은 이론적 스펙트럼이 실험 스펙트럼과 일치하는 후보 선형 펩티드를 성장시키는 방식이었습니다.
 

 
 

이처럼 답이 될만한 후보군을 늘리는 '분기 단계'와 답이 되지 않는 후보를 쳐내는 '제거 단계'로 구성된 알고리듬을 '분기 한정법 알고리듬'이라고 합니다 👏
 
만약 실험 스펙트럼 Spectrum에서 이론 스펙트럼이 모두 포함돼 있으면 도출된 선형 펩티드는 Spectrum과 일치한다고 볼 수 있는데,
 
이때 첫번째 주의할 점은 선형 펩티드에서 같은 질량이 두 번 나오면, Spectrum에서도 두 번 나와야 한다는 것입니다.
 
예로, 아래 이미지에서보듯 티로시딘 B1 스펙트럼과 이론 스펙트럼이 일치하려면, 1194는 두번 나올 수 있지만 113은 두 번 나올 수 없죠.
 
 

출처 : 생물정보학 알고리듬 책

 
 
또한, 펩티드의 모든 하위 선형 펩티드는 맞추고자 하는 펩티드와 같아야 한다는데
 
예로, [0, 99, 128, 275, 374]는 위에서 비교하면 티로시딘 B1의 스펙트럼과 일치하지 않으므로 제거합니다.
 
그렇게 Spectrum과 일치하지 않는 펩티드를 제거하는 것이 '분기 한정법 알고리듬'입니다.
 
그렇지만, 오류가 없을 수 없는 몸의 세계에서 잘못된 K-mer가 생성될수도 있다는 걸 기억해야 합니다..!
 
즉, 실험 스펙트럼이 이론 스펙트럼과 정확히 일치하지 않더라도 올바른 펩티드일 수 있죠.
 
 

 

 
 
 
그렇다면, 이런 '거짓 질량'과 '누락 질량'과 같은 잡음을 고려해서 시퀀싱을 할 수 있을까요?
 
일단, 이론 스펙트럼이 주어진 스펙트럼과 가장 근접한 펩티드를 고를 수 있도록 하는 '느슨한 점수체계'를 도입해야 할 것입니다.
 
위의 스펙트럼 [ 0 99 128 275 374 403 ]의 점수는 3인데, 이러한 점수 중 높은 점수를 갖는 후보들을 일정 수준만큼 모으는 게 좋은 방법이 될 수 있습니다.
 

 
 

여기서 Peptide가 선형인 경우는 문자열 끝부분을 감싸는 Peptide의 하위 펩티드를 제거한 점수,

 

LINEARSCORE(Peptide, Spectrim) 함수가 결과로 나온다고 합니다.

 

20에서 100개 이상의 아미노산

 
 

앞서, 20개의 아미노산이 단백질을 구성한다고 가정했는데
 
사실 '셀레노 시스테인'과 '피롤리신'이라는 단백질 생성 아미노산도 있고,
 
이외에도 전에 봤던 NRP인 비단백질 아미노산까지 포함되면 항생제 펩티드 구성 요소 숫자가 100개까지 확장될 수 있다고 합니다.
 
그리고 저자의 말에 따르면, 생물정보학자들은 이러한 비단백질 아미노산의 존재를 고려해
 
종종 아미노산의 질량을 57에서 200Da으로 가정한다고 합니다!
 
 

출처: Pixabay, thanks to  OpenClipart-Vectors

 
그렇다면 실험 스펙트럼에서 각각의 아미노산의 질량은 어떻게 구할까요?
 
그 방법은 바로 하위 펩티드의 질량을 빼서 구하는 것입니다!
 
예를 들어, NQE의 질량에서 NQ를 빼면 아미노산 E의 질량이 나오겠죠?
 
이렇게 구한 스펙트럼의 모든 질량차를 '스펙트럼 컨볼루션'이라고 합니다.
 
아래는 책에 나온 NQEL의 '가상 스펙트럼'의 스펙트럼 컨볼루션에 대한 예시인데 거짓 질량 99, 299가 포함되고 누락 질량 129(E)는 빠져있습니다.
 

 
 
물론, 컨볼루션을 보면 누락질량인 129가 질량차에 따라 나타나게 됩니다.
 
이 컨볼루션에서 57~200 사이의 가장 빈번한 M개의 요소를 선택해 '아미노산 질량 알파벳'을 형성하는 알고리듬을 'CONVOLUTIONCYCLOPEPTIDESEQUENCING'이라고 합니다.
 
그럼 다시 '질량 분석기'에 대한 이야기로 돌아가봅시다 👏
 

 
 
질량분석기는 아래 이미지처럼 x축을 '질량/전하 비율'로 하는 이온으로 두고, 상대적인 강도를 '피크'로 나타냅니다.
 

 
 
이때, 각 피크의 전하를 알 수 없고 maxCharge(최대 전하)도 사용한 조각화 기술에 따라 달라진다는 한계가 있긴 합니다.
 
특히, 위 이미지 같은 경우 대부분이 '거짓 피크'라고 하는데, 낮은 강도를 갖고 있는 만큼 전처리로 제거하는게 필수적이라고 하네요.
 
 

영장류에서 고리형 펩티드 시퀀싱

 
 
박테리아나 균류와 마찬가지로 '동물'에게서도 고리형 펩티드가 존재한다고 하는데, 그 중하나는 '마카크 원숭이'에서 발견된 'Θ -디펜신'입니다.
 
사람은 이와 달리 'Θ -디펜신'을 생산하진 못하지만, 해당 디펜신을 이루는 RTD1a와 RTD1b와 매우 유사한 유전자가 있다고 합니다.
 
결국 한 유전자에서 변이가 발생해 종결코돈이 돼 단백질 길이를 짧게 만들어 Θ-디펜신을 생성할 수 없게 되었다고 하는데,
 
신기한건 'Θ -디펜신'을 자르고 붙이는 효소가 여전히 인간에게 작용한다는 것입니다!
 
 

 


 
다음은 5장 'DNA 서열들을 비교하려면 어떻게 해야할까?'로 찾아오겠습니다!
 
 
 

 

Bioinformatics OPEN STUDY  | Notion

본 페이지는 비영리 목적으로 ‘생물정보학’ 관련 프로그래밍 공부 내용을 정리 및 공유하기 위해 마련해본 공간입니다. 본 페이지는 원래 비공개 페이지였지만, 일부를 공개 내용으로 바꾸는

sparkling-dibble-7ff.notion.site

 
 

 

과학 is 일상 : 네이버 블로그

과학기술정책가를 꿈꾸는 생물정보학도이자 과학기술계와 일반 대중을 연결하는 과학커뮤니케이터 TKM입니다! PC로 보면 좋습니다~ 공지 글로 과학꿈터뷰 전자책을 무료 공유하고 있습니다! 문

blog.naver.com