본문 바로가기

생물정보학(바이오인포매틱스)

[대학원 준비 8일차] SNPs(single-nucleotide polymorphisms)에 대하여

 

오늘은 translation 관련 이론 복습 전에 제 졸업논문과 관련한 SNPs(single-nucleotide polymorphisms) 개념에 대해 정리해보는 시간을 가져보겠습니다.

 

SNPs에 대해 소개하는 여러 영상을 봤는데, 아래 영상이 기초적인 부분부터 SNPs가 무엇인지 잘 설명해주는 것 같습니다.

 

 

 

NAVER 지식백과1)에 따르면, SNPS는 개인마다 DNA 염기서열에서 하나의 염기서열에 차이를 보이는 유전적 변화 또는 변이(a variation at a single position in a DNA sequence among individuals)로 사람 유전체 중엔 300~1000만의 SNPs가 있다고 합니다.

 

또한, 1% 이상의 집단이 DNA sequence의 specific postion에서 동일한 nucleotide를 가지지 않는다2)고 하며 그 변이들이 SNPs인 것입니다.

 

중요한 건 SNPs는 개인마다 DNA 지문분석으로 활용할 수 있다는 건데 그 변이가 어떤 질병과 연관이 있는지(질환 관련 유전자 탐색), 약제에는 어떻게 반응하는지(효과 판정, 부작용 유무 등) 등의 정보를 파악할 수 있어 개인 맞춤의료에 적용할 수 있다고 합니다.

 

SNPs가 구체적으로 어떻게 활용될 수 있을지, Associate Investigator이신 Chris Gunter 박사께서 다음과 같이 말씀해주셨습니다.

 

 

" If we want to identify genetic contributors to a common complex disease like diabetes, we can group together thousands of people who have diabetes and compare their SNP patterns to thousands of people who do not have diabetes. With enough people in our study, we can use the SNPs as markers to see that certain areas of the genome appear to be the same in people who have diabetes, and that tells us where we should look in more detail for a genetic cause."

- 출처 : National Human Genome Research institue(NIH)


결국, 특정 질병을 가진 사람들과 가지지 않은 사람들의 SNPs를 비교해보고, 특정 질병을 앓는 사람들에게서 빈번하게 나타나는 SNPs가 genetice disease의 genetic cause를 파악할 수 있는 biomarker로서 역할을 할 수 있다는 말인 듯합니다. 

이때 DNA에 염기가 얼마나 많은데 하나의 염기서열 차이가 큰 영향을 주긴 할까 싶을 순 있지만, 염기서열 하나만 차이나도 만약 그 염기의 변화가 다른 아미노산을 코딩한다면, 다른 단백질이 만들어질 것이고

 

그리고 그러한 변화가 몸의 무수한 세포들의 DNA에서 모두 동일하게 발생한다면, 사람 유전체 중 SNPs가 300~1000만개가 있을 수 있는 만큼 개인 간의 유의한 차이를 만들어낼 수 있지 않을까 싶습니다.

 

알려진 SNPs는 online public-domain resource인 dbSNP에서 확인해볼 수 있습니다.

 

 

dbSNP Enhances Scalability, Data Diversity, and Accessibility - NCBI Insights

As part of the Human Genome Project, NCBI, part of the National Library of Medicine, and the National Human Genome Research Institute (NHGRI) established the Single Nucleotide Polymorphism database (dbSNP) in 1998. Over the last 25 years, dbSNP has evolved

ncbiinsights.ncbi.nlm.nih.gov

 

 

dbSNP는 1998년 Human Genome Project의 일환으로 NCBI에서 만들었으며, 25년이 넘은 지금까지 genetic variatin data를 위한 reliable central public repository로 진화해왔다고 합니다.

 

제가 올해 초 데이터 분석 연구에 활용한 SNPs 데이터는 장내 미생물의 SNPs 데이터였는데, Mibiogen consortium에서 18,340명의 환자로부터 16S rRNA gene sequencing을 통해 데이터를 수집해서 공개한 GWAS summary data였습니다.

 

 

 

https://www.mibiogen.org/

 

www.mibiogen.org

 

 

위 사이트로 들어가면 요런 '열' 구분으로 된 GB 용량의 거대한 SNPs 데이터를 다운 받을 수 있습니다. 너무 양이 커서 PC방에서 분석을 돌렸던 기억이 납니다.

 

 

 

참고로 여기 열 이름 중 'bac'은 장내 미생물 이름을 나타내고, CHR은 몇번 째 염색체인지 나타내고, Ref.allele는 major allelle, Eff.allele는 alternative allela는 minor allele 즉, SNP로 바뀐 염기서열을 나타냅니다.

그리고 BETA는 beta effect size, SE는 effect size에 대한 Standard Error, P는 p value, N은 SNPs 숫자, N cohorts는 코호드 숫자를 의미합니다.

 

다음으로 UCSC에서 특정 유전자에서의 SNP 데이터를 가져와보는 실습을 해보겠습니다. 아주 간단히 해볼 예정입니다.

 

 

UCSC Genome Browser Home

Meetings and Workshops: Come see us in person! Feel free to contact us if you are interested in attending a workshop, or meeting someone from the team to collaborate, get help, or ask any questions at the meetings.

genome.ucsc.edu

 

 

일단 위의 링크(UCSC Genome Browser)에 들어가면, 이런 화면이 등장할 것입니다.

 

 

 

저는 여기서 상단 메뉴 중 Genomes 메뉴를 클릭해서 2013에 업데이트된 human genome assembly인 'human GRCH38/hg38'로 들어갔습니다.

 

 

 

그럼 이런 식으로 등장하는데, 그냥 무작정 APOE4 유전자를 찾으려고 검색창에 검색해보니 요런 식으로 나오더군요.

 

참고로, APOE 유전자가 없는 사람에겐 알츠하이머병 진행을 늦추는 약인 레켐비가 듣지 않는 것으로 밝혀졌습니다4).

 

 

 

그렇게 하니 'APOE'라는게 뜨길래 클릭하니 요렇게 본 유전자가 있는 좌표가 뜹니다. 이 좌표를 복사해줍니다.

 

 

 

다음으로 Tools 메뉴에 들어가서 Table blowser로 들어가는데, 그러면 이렇게 뜹니다.

 

 

 

여기서 Group을 variant를 선택해서 Track에 dbSNP가 뜰 수 있게 하고 (Assembly는 아까봤던 Grch38/hg38 그대로 되어 있어서 수정하지 않았습니다),

 

Region의 Position 영역에 복사한 걸 붙여넣은 후 Output filename에 적절한 파일명을 입력합니다(csv로 해야 엑셀 파일로 보실 수 있습니다).

 

 

 

그러고 Get output을 클릭하면 아래와 같이 해당 유전자 영역에서 발생할 수 있는 SNPs에 대한 데이터를 얻을 수 있습니다.

 

 

 

여기서 ref는 대다수의 allele, alts는 SNPs가 되는 effective allele가 되겠습니다. 좀 더 자세히 알아보기 위해 첫번째 행의 'rs440446'을 복사해서 구글에 검색해보았습니다.

 

 

GWAS Catalog

Location - Cytogenetic region - Most severe consequence - Mapped gene(s) - --> --> Trait(s) --> --> - --> --> --> --> Reported trait(s) --> --> --> - --> --> Alleles - Minor allele - MAF - Variant in Ensembl Genomic context Phenotype information Genes and

www.ebi.ac.uk

 

 

그러면 요렇게 GWAS catalog 사이트로 들어가지면서 rs440446과 관련된 정보들이 등장합니다. 

 

 

 

다음에 저기 옆에 'Variant in dbSNP'를 클릭해보았더니 rs440446과 관련된 publications이 나옵니다.

 

링크 : https://www.ncbi.nlm.nih.gov/snp/rs440446#publications

 

 

아래로 더 드래그해서 보니 'see rs440446 in Variation Viewer'가 등장하길래 눌러봤는데, 이렇게 직관적으로 어떤 영역에서 변이가 발생한 것인지 나옵니다.

 

 

 

 

Variation Viewer

--- current selection ---

www.ncbi.nlm.nih.gov

 

 

해당 rs영역을 오른쪽 클릭해서 sequence view로 하면, sequence 영어 표기들이 쭉 나오면서 어떤 영역에 변이가 등장하는지 알려줍니다.

 

 

 

다음으로 GWAS catalog에서 'Varaiant in Ensembl'를 클릭하면 rs440446과 관련된 Phenoty information, 그리고 gene regulation에 관여할 수 있는 regulatory feature도 알려줍니다.

 

Ensembl에 재밌는게 많은 것 같은데 한번 시간 잡고 구경을 제대로 해봐야겠습니다.

 

 

 

 

들어간 김에 rs440446이 regulatory region으로서 작용하는 ENSR00001341975라는 regulatory feature에 대해 한번 살펴보죠.

 

 

 

 

보니까 해당 특징이 어떤 세포를 inactive하거나 repressed하는지 알려주는 것 같습니다. 무엇을 하다가 여기까지 온 것인지 잠깐 헷갈리는데 SNPs였었죠?

 

의식의 흐름대로 공부하는거라 정신없었어도 죄송합니다. 다음에는 Medelian randomization analysis가 무엇인지 공부해가는 시간을 가져보겠습니다.

 

 

 

 

참고자료

 

1) NAVER 지식백과, 생명과학대사전, SNPs와 그 중요성

 

 

SNPs와 그 중요성

단일염기 변이 다형의 중요성. SNPs는 Single nucleotide polymorphisms의 약기이다. 유전자의 다형(개인간 유전자염기의 차이)에는 몇 가지 종류가 있으며 현재 가장 주목받고 있는 것은 SNPs(Single nucleotide

terms.naver.com

 

2) nature education, SNP

 

 

single nucleotide polymorphism / SNP | Learn Science at Scitable

A single nucleotide polymorphism, or SNP (pronounced "snip"), is a variation at a single position in a DNA sequence among individuals. Recall that the DNA sequence is formed from a chain of four nucleotide bases: A, C, G, and T. If more than 1% of a popula

www.nature.com

 

 

3) National Human Genome Research institue(NIH), Single Nucleotide Polymorphisms, September 26, 2024

 

Single Nucleotide Polymorphisms (SNPs)

Single nucleotide polymorphisms (SNPs) are a type of polymorphism involving variation of a single base pair.

www.genome.gov

 

4) 이정아 기자, 치매약 레켐비, 여성과 非백인 환자에게 효과 없나, 조선비즈, 2024

 

 

치매약 레켐비, 여성과 非백인 환자에게 효과 없나

치매약 레켐비, 여성과 非백인 환자에게 효과 없나 묵인희 국가치매극복연구개발사업단장 남성·백인·APOE4 유전자가 없는 환자에게만 처방될 듯

biz.chosun.com