안녕하세요, 오늘은 전 글처럼 최근에 공부 겸 읽어본 또 다른 오픈엑세스 논문을 간단하게 정리해보고자 합니다.
[32일차] 오픈엑세스 논문 리뷰 연습 01 :: Integrating single-cell sequencing data with GWAS summary statistics revea
이번 글에서는 최근에 관심있게 읽은 논문 한 편을 정리해보려고 합니다. 제목은 'Integrating single-cell sequencing data with GWAS summary statistics reveals CD16+monocytes and memory CD8+T cells involved in severe COVID-19'로
tkmstudy.tistory.com
최근에 전에 정리한 논문에서의 연구 프로세스를 정리하고 시뮬레이션해보는 시간을 가져봤는데요. 보니까 scRNA-seq 데이터가 너무 커서 ㅋㅋㅋ 그냥 그중에 normal, mild, severe 각 조건마다 두 개 샘플씩 가지고 병합해서 분석을 진행해봤습니다.
물론 MAGMA tool 돌리기, cell-type annotation과 약간의 annotation 정도까지만 따라해보긴 했지만, 논문이 제 수준에서 봤을 땐 친절하게 설명해주지 않아서 꽤나 애를 먹고 있네요.. 그래도 친절한 챗GPT 덕분에 그래도 조금씩 시도해보고 있습니다.
요즘엔 이렇게 논문 읽기, 논문 시뮬레이션, 그리고 머신러닝 & 딥러닝 공부와 KOBIC 생물정보학 강의 듣기, 면역학 등 배경지식 공부, 독서, 알바 등을 하며 시간을 보내고 있는데 반복적인 일상이지만 그래도 시간이 참 빠르게 가는거 같습니다. 사족이 길어졌는데 바로 논문 정리로 들어가보겠습니다.
오늘 정리할 논문의 제목은 "Single-cell analyses and host genetics highlight the role of innate immune cells in COVID-19 severity"로 2023년에 Nature genetics 저널에 퍼블리쉬된 일본 오사카대 연구진의 논문입니다.
논문 링크 : https://www.nature.com/articles/s41588-023-01375-1
연구 프로세스를 한줄로 소개하자면, COVID-19 patients(moderate와 severe 조건)와 healthy controls로부터 얻은 single-cell transcriptome과 TCR, BCR 데이터를 host genetics 데이터와 통합 분석한 연구라고 할 수 있겠습니다.
그만큼 전에 정리한 논문과 결이 비슷한 논문인데요. 오사카대에서 진행된 본 연구에서는 Japanse ancestry인 73명의 COVID-19 patients와 75명의 healthy contols로부터 얻은 혈액 샘플로부터 mRNA expression data, TCR/BCR data, 그리고 동일 샘플에 대한 SNP genotyping을 통한 genotype data를 얻었다고 합니다(그림 참조). 여기서 COVID-19 patient 중 WHO 분류 기준 상 9명의 환자는 moderate, 64명의 환자는 severe 환자였고, moderate와 severe 그룹 간 나이와 성별 분포는 큰 차이가 없었다고 합니다.
먼저 연구진 PBMC의 mRNA expression data를 통해 COVID-19 patients와 healthy controls에서 어떤 면역세포 유형이 등장하는지 확인하였는데요. 이를 위해 클러스터링 후 마커 유전자로 annotation한 결과 13개의 세포유형이 나타났으며, 이후 총 25개의 세부집단으로 구분했다고 합니다(annotation 결과는 논문을 참고하시길 바랍니다). 본 annotation 결과는 각 세포타입이 어느 참조 세포 타입과 가장 유사한지 계산해주는 Azimuth를 이용해 교차검증을 하였다고 합니다.
Satija Lab
.section.nopad { padding: 0rem; } .btn-container { display: flex; justify-content:center; margin-top: 1rem; } .btn-azimuth { font-size: 30px; } Azimuth is a web application that uses an annotated reference dataset to automate the processing, analysis, and
satijalab.org
이후 Milo라는 툴을 이용하여 COVID-19와 healthy controls 간의 세포 구성 차이(compositional change)를 확인했습니다.
여기서 Milo는 k-nearest neighbor graph를 통해 differential abundance가 유사한 세포를 모아 겹치는 소그룹인 'neighborhood'로 지정하는데요. 전통적인 방식과 달리 그룹 간에 세포가 서로 겹치기에 세포 상태가 연속적으로 변화하는 경우에도 미세한 국소적 변화를 잘 반영할 수 있다고 합니다. 참고로, KNN 그래프를 기반으로 하는 만큼 위의 그림에서처럼 index cell을 중심으로 선정하고 index cell과 가까운 세포를 모아 neighborhood를 만들고, 음이항 GLM을 이용해 조건 간 유의한 세포 수 차이를 보이는 neighborhood를 찾는다고 합니다.
음이항 GLM을 사용하는 이유는 single-cell에서 얻은 neighborhood별 카운트 데이터의 경우 과산포(overdispersion)가 존재하기 때문입니다. 즉, 어떤 neighborhood에는 특정 조건에서 세포가 거의 관찰되지 않아서 0이 많이 발생할 수 있기에 음이항 GLM은 0이 많은 자료에 유연하게 대응해 조건 간 세포 분포의 차이가 실제로 유의한지 추론할 수 있도록 돕는다고 합니다.
Milo 분석 결과를 세포 유형별로 비교하였을 때엔 COVID-19 patients에서 healthy controls에 비해 T cells, NK cells, DC의 상당한 감소가 나타났는데요. 이는 선행 연구와 일치되는 결과라고 합니다. 반면, PB와 Platelet은 COVID-19에서 상당히 증가함을 확인할 수 있었습니다(그림 d 참조).

다음으로 본 연구팀은 COVID-19에서 dysregulated IFN response가 보고되었던 만큼, 조건별, 그리고 세포별로 IFN response 수준을 파악해보고자 했습니다. 여기서 IFN response는 항바이러스 기능을 하는 선천면역 반응이죠.
먼저 모든 조건의 개별 세포에서의 Type I IFN response score를 관련 유전자 발현 수준을 통해 평가한 결과(관련 gene set에 Addmodule score 함수 이용), NK와 CD16+ monocytes에서 해당 유전자를 평균보다 높게 발현함을 확인할 수 있었습니다. 특히, healthy 대비 severe에 비해 healthy 대비 moderate COVID-19에서 type 1 IFN score가 높게 나타남을 확인할 수 있었는데요. 특히, monocytes와 DC에서의 점수가 moderate 조건에서 다른 조건에 비해 높게 나타났습니다.
다음으로 PBMC의 IFN-γ response 수준도 평가했는데요. 그 결과 CD16+ monocytes와 cDC에서 IFN-γ response 관련 유전자의 높은 발현이 나타났습니다. 조건별로 비교했을땐 moderate COVID-19에서 높은 점수가 나타났으며 특히, CD16+ monocytes와 pDC에서 IFN-γ score가 moderate 조건에서 높게 나타났습니다. 종합적으로, 본 결과는 systemic IFN response가 nonsevere disease에서 높게 나타난다는 선행 연구와 일치되는 결과로, COVID-19의 immunopathology에 innate immune cells의 잠재적 중요성을 시사한다고 하네요.
다음으로 본 연구팀은 앞서 말했듯 13개의 클러스터의 subpopulation을 파악하여 다운스트림 분석을 진행하였는데요. 먼저 monocytes와 DC를 대상으로 각각 5개와 2개로 subset으로 canonical gene markers의 발현에 따라 구분하였습니다. 이후 Milo를 활용해 COVID-19와 healthy controls 간 differential abundance analysis를 수행한 결과, 6,721 neighborhoods 중 1,265가 differential abundance를 보여주었으며, ncMono, cDC, pDC의 비율이 COVID-19 patients에서 healthy controls에 비해 확연히 감소되어 나타났습니다.
disease severity에 따라 differential abundance를 평가한 결과에서는 pDC와 ncMono가 moderate에 비해 severe 조건에서 감소되어 나타났습니다. COVID-19-specific features 중 하나가 ncMono의 세포 비율 감소임을 비추어볼 때, 본 결과는 ncMono가 COVID-19 severity의 immunopathology에 기여함을 암시하는 결과로 볼 수 있다고 합니다.
이후 해당 5개의 subset을 대상으로 healthy 대비 moderate, 그리고 healthy 대비 severe 조건에서 upregulate되는 top ten enriched pathways를 각각의 up-DEGs에 대한 GO analysis를 통해 파악했는데요. 그 결과, moderate 조건에선 response to IFN-γ pathway가 각 subset에서 enrich하게 나타났습니다. 그러나 severe COVID-19에선 세가지 monocyte subsets(cMono, intMono, ncMono)에서 본 경로가 다음과 같이 나타나지 않았습니다. 이외에도 각 subset에서 response to Type I IFN pathway의 enrichment가 severe COVID-19의 ncMono에서 특이적으로 감소되어 나타남을 확인할 수 있었습니다. 본 결과는 앞선 IFN response score와 일치하는 결과로 moderate에 비해 severe에서 줄어드는 항바이러스 기능인 IFN response가 COVID-19의 severity에 기여할 수 있음을 암시합니다.
ncMono의 moderate와 severe 간 differential expression analysis 결과에서도 moderate에 비해 severe 조건에서 IFN-γ-induced gene에 속하는 CXCL10의 발현이 ncMono에서 상당히 downregulate되어 나타남을 확인할 수 있었습니다.
이외에도 서로 다른 조건 간의 transcriptional activation과 cell transition의 dynamics의 차이를 분석하기 위해 RNA velocity analysis를 수행하였는데요. 그 결과, intMono에서 ncMono로의 transition potential이 healthy controls에선 관찰된 반면, COVID19에선 관찰되지 않았다고 합니다. 이는 결국 COVID-19 patients에서의 ncMono의 감소된 비율이 cMono에서 ncMono로의 cellular transition의 downregulation에 의한 결과일 수 있음을 암시합니다.
다음으로 연구진은 Monocytes와 DC를 대상으로 subset을 구분해 다운스트림분석을 했던 것처럼 T cell과 B cell도 Milo를 이용해 조건 간 differential abundance를 개별세포수준에서 분석했습니다. 그 결과는 논문을 참고하시길 바랍니다. 차이가 있는 부분은 T cell의 경우, T cell에서의 샘플별, 조건별, 세포유형별 clonal relationship의 차이를 확인하기 위해 TCR(T cell receptor) analysis를 수행했다는 점입니다. 이때, GRCh38 human VDJ reference genome을 참조 데이터로 하여 Scirpy 툴을 사용하여 TCR 시퀀스를 분석하였는데요. 그 결과 CD4 effector T cells, CD8 effector T cells, 그리고 MAIT cells에서 large clonal expansion이 관찰되었다고 합니다.
특히, CD4 effector T cells의 clonal expansion 비율은 moderate 조건에서 healthy와 severe 조건에 비해 높게 나타났는데요. 참고로, TCR 분석에서 특정 T 세포의 clonal expansion은 면역계가 특정 항원을 강하게 인식하여 이에 대한 면역 반응을 강하게 유도하고 있음을 의미합니다. 이러한 관점에서 severe와 달리 moderate에서 높게 나타난 CD4_Ef의 efficient clonal expansion이 serious COVID-19 방지와 연관이 있다고 해석할 수 있겠습니다. 특히, 대부분의 확장된 클론형이 개별환자에게 고유하게 나타났는데 이는 같은 COVID-19 환자라도 개별 환자마다 면역계가 인식하는 T 세포 클론이 달라질 수 있음을 시사합니다.
T cell의 TCR analysis처럼 B cell의 BCR analysis도 scirpy를 이용하여 수행했는데요. Clonal expansion은 COVID-19에서 larger expansion을 보인 B_plasma에서 명백하게 나타났습니다. 그러면서도 TCR analysis와 달리, 아주 일부의 clonotyopes만 COVID-19와 healthy controls가 겹쳤으며, B_plasma에서의 expanded clonotypes는 다른 B cell subsets와 공유하지 않는다는 것이 확인되었습니다. 논문을 보시면 아시겠지만, 연구진은 이외에도 severe group의 B_plasma에서 Type I IFN 경로가 enrich하게 나타남도 확인했는데요. 종합적으로 본 결과는, COVID-19에서 clonally expand된 circulating PB에 의한 robust antibody response가 augmented IFN responses의 background에 대항하며 발생함을 시사한다고 합니다.
다음으로 본 연구팀은 CellPhoneDB와 NATMI를 사용해 COVID-19과 healthy 조건에서의 ligand–receptor pairs의 발현에 의한 intercellular communication을 개별세포수준에서 비교해보았습니다.
그 결과 COVID-19와 healthy group 모두에서 monocytes와 DC의 강한 상호작용이 나타남을 확인할 수 있었습니다. 본 결과는 Simple Edge Count Analysis 방식을 통해 ligand, receptor 유전자 발현으로 세포 간 상호작용의 유무와 개수 정도만 추론했다면, 이를 넘어 NATMI를 이용하여 상호작용 강도나 중요도까지 고려하여 Cell-Connectivity-Summary Network의 차이도 분석했는데요. 그 결과, healthy 보다 COVID-19에서 pDC가 sender로 관여하는 세포 간 상호작용과 , B_plasma가 receiver로 관여하는 세포 간 상호작용이 낮게 나타났다고 합니다.
또한, moderate와 severe 간 상호작용 비교 결과에서는 거의 모든 상호작용이 moderate에 비해 severe에서 줄어들어 나타남을 확인할 수 있었습니다. 특히, pDC (sender)에서 ncMono와 pDC (receiver)에 대한 intercellular interactions이 severe COVID-19에서 줄어들어 나타났는데요. severity가 높아짐에 따라 타입 I IFN 생산세포로 알려진 pDC와 염증반응조절 등 병리학적 중요성을 갖는 ncMono 사이에 상호작용이 줄어든다는 점에서, 해당 면역 세포 간 intercellular interaction의 dysfunction이 COVID-19의 severity와 연관이 있을 수 있음을 시사합니다.
추가로 본 연구팀은 앞서 severe 조건에서의 ncMono에서 상당히 downregulate되어 나타난 CXCL10에 초점을 두어 ncMono가 관여하는 intercellular interaction을 조사했는데요. 여기서 CXCL10는 IFN-γ-induced gene으로 CXCR3에 결합함으로써 생물학적 효과를 발휘한다고 알려져 있습니다. 따라서 본 연구팀은 ncMono의 receiver로서의 IFNG/IFNGR interaction과 ncMono의 sender로서의 CXCL10/CXCR3 interaction을 NATMI를 사용해 조사했습니다. 여기서 IFNG/IFNGR interaction도 함께 확인한 이유는 ncMono가 sender로서 CXCL10을 분비하려면 우선 IFNG/IFNGR interaction를 통해 IFN-γ 신호를 제대로 받아야 하기 때문이라고 볼 수 있겠습니다.
그 결과, IFNG/IFNGR interactions은 receiver인 ncMono에 대해 Activated T cells와 NK cell가 sender로서 강한 상호작용을 보여주었으며, COVID-19의 severity가 증가함에 따라 상호작용 정도가 향상되어 나타남을 확인할 수 있었습니다. CXCL10/CXCR3 interaction은 sender인 ncMono에 대해 pDC와 일부의 activated T cells가 receiver로서 moderate 조건에서 높은 상호작용을 보였으며, healthy와 severe 조건에서 본 상호작용이 나타나지 않았습니다. 이는 ncMono의 dysfunction과 CXCL10/CXCR3의 상호작용 감소가 COVID-19 severity에 기여하는 주요 요인일 수 있음을 시사합니다.
다음으로 본 연구팀은 COVID-19의 genome-wide host genetics risk를 평가하고 PBMCs에서의 disease-associated cells의 subpopulations를 파악하기 위해, scDRS를 사용해 COVID-19 GWAS로부터의 polygenic signals를 scRNA-seq data로부터의 정보와 통합하여 분석했습니다. 참고로 scRDS는 COVID-19 scRNA-seq datasets로부터 파악한 각 세포의 disease score를 계산하기 위해 MAGMA를 이용해 COVID-19 case-control GWAS summary statistics로부터 putative disease genes top 100개를 찾은 뒤, 각 세포에서의 해당 유전자의 발현 정도로부터 disease score를 계산합니다.
본 연구팀은 앞서 scRNA-seq 데이터로부터 annotation한 세포 유형을 주요 세포 유형 6개(CD4+ T cells, CD8+ T cells, NK, monocytes, DC, B cells)로 그룹지어서 각 세포유형별 세 가지 조건(self-reported, hospitalized, very severe)의 COVID-19 GWAS phaneotypes과의 연관성을 scRDS를 활용해 평가했습니다. 그 결과, self-reported infection GWAS에 대해 유의하게 enrich되는 cell type은 나타나지 않은 반면, monocyte는 very severe GWAS, DC는 hospitalization과 very severe GWAS와 연관되어 있다고 나타났습니다. 이를 통해 COVID-19의 severity에 관여하는 polygenic risk가 선천 면역을 책임지는 monocyte, DC와 같은 세포 유형에서 enrich하게 나타남을 입증할 수 있었습니다.
마지막으로 본 연구팀은 GWAS로 파악된 COVID-19-associated variants에 의한 transcriptional variability와 dynamics의 보다 나은 이해를 위해 Japanese population의 COVID-19 GWAS에서의 replicated variants의 eQTL effects를 조사했습니다. 여기서 eQTL은 expression quantiative trati loci의 약자로 유전자 발현을 조절하는 유전자 영역을 뜻하며, eQTL 효과 분석은 유전체 상의 변이가 유전자 발현 수준에 미치는 영향을 파악하기 위한 방법으로 볼 수 있습니다.
즉, 각 샘플에서의 특정 유전자의 발현량과 그 유전자와 연관되어 있을 가능성이 있는 변이의 유전자형 정보를 가지고, 선형회귀모델을 사용하여 종속 변수 '유전자 발현'에 독립변수 '변이의 유전자형'이 어떻게 연관되어 있는지에 대한 Variant to Gene(V2G) score를 나이, 성별, severity 등 공변량을 고려하여 계산합니다. 그렇게 eQTL 분석을 진행하면 특정 유전 변이가 있을 때 그 유전 변이와 관련있는 유전자의 발현이 유의하게 얼마만큼 증가한다 이런 식의 연관 정보를 알 수 있게 됩니다. 본 연구에서는 Japanese population의 COVID-19 GWAS를 가지고 six major cell type을 대상으로 single cell eQTL 분석을 진행했는데요. 그 결과, COVID-19-associated variants는 COVID-19 patients와 healthy controls 사이에서 significant eQTL effects의 서로 다른 cell type distributions를 보였습니다(그림 참조 a). 즉, COVID-19-associated variants의 context-specific eQTL effects가 유의하게 나타났습니다. 그 중에서도 COVID-19 patients에서의 monocytes가 COVID-19와 연관된 multiple variants에서 FDR 0.02 미만의 significant eQTL effects를 보였습니다.
이후 본 연구팀은 COVID-19 severity에서의 monocytes의 관여를 입증한 이전 분석 결과를 고려하여 monocytes의 three subsets 각각에 대한 eQTL effects를 조사했습니다. 그 결과, COVID-19 patients의 monocytes에서 ABO와 IFNAR2에 대해 각각과 연관이 높은 두개의 variants가 significant한 eQTL effects를 보였습니다. 반면, healthy control의 cMono를 포함한 3개의 subset에서는 IFNAR2 variant의 eQTL effect가 나타나지 않았습니다.
IFNAR2은 Type I IFN signaling pathway에 핵심 역할을 하기에, 본 연구팀은 보다 세부적으로 IFNAR2 variant의 eQTL effect를 조사했습니다. 그 결과 Monocytes에서 IFNAR2 expression와 연관된 risk allele의 높은 effect size 즉, COVID-19 context-specific increasing dosage effect가 나타났습니다. Monocyte 중에선 cMono에서 특이적으로 높은 effect size를 보였습니다. 종합적으로 본 연구결과는 rs13050728의 risk allele가 cMono에서 IFNAR2의 발현 증가를 통해 severe COVID-19에 기여할 수 있음을 시사합니다. 그만큼 COVID-19의 pathophysiology에 대한 host genetical effects를 규명하는 데 있어 context & cell type-specific eQTL effect를 고려하는 게 중요하다고 볼 수 있겠습니다.
지금까지 연구결과를 소개했는데 결과 중 일부만 소개하고 소개한 내용에 제 해석도 들어간지라 오류가 있을 수 있기에 자세한 내용은 논문을 직접 읽어보시길 추천드립니다. 연구 결과를 요약하자면, 본 논문에선 첫째, severe COVID-19에서 monocytes 혹은 DC 그중에서도 특히, ncMono의 dysfunction을 확인했습니다. 예로, moderate에서 높게 나타나던 ncMono의 IFN response가 severe에선 확연히 줄어듬이 확인되었죠.
둘째, ncMono의 세포 비율과 cMono에서 ncMono로의 celluler transition이 COVID-19 patients에서 감소됨이 확인되었습니다. 이에 논문 저자는 COVID-19 조건에서 cMono의 ncMono로의 celluler transition의 downregulation 결과로 ncMono의 비율이 감소했다는 결과를 도출했습니다. 셋째, cell-cell communication 분석 결과로는 severe COVID-19 조건에서 ncMono와 pDC 사이의 CXCL10/CXCR3 interaction이 확연히 감소되면서도 ncMono가 activated T cells로부터 IFN-γ signal은 유의한 수준으로 받는다는 것이 확인되었습니다. 이는 IFN-γ signal은 받으면서도, ncMono에서 발현되야 하는 IFN-induced gene인 CXCL10은 발현되지 않는 ncMono의 dysfunction을 입증하는 결과로 볼 수 있습니다.
넷째, GWAS 데이터 통합 분석 결과로는 monocytes와 DC에서 host genetics COVID-19 risks의 enrichment가 나타났으며 IFNAR2 variant의 COVID-19 context-specific eQTL effect가 monocytes 특히 cMono에서 높게 나타났습니다. 종합적으로 본 결과는 COVID-19 severity에 있어 innate immunity의 생물학적, 숙주 유전학적 관여를 시사합니다.
본 연구의 한계는 ncMono의 줄어든 differentiation과 ncMono의 dysfunction의 구체적인 메커니즘은 밝히지 못했다는 점이라고 하네요.
후속 연구로는 single-cell transcriptome 분석을 넘어 여러 모달을 함께 분석하는 multimodal single-cell analysis와 in vivo experiments를 통해 본 결과에 대한 보다 신뢰도 있는 입증을 할 필요성을 제시했습니다. 또한, context-specific eQTL effects가 확인된 만큼, 보다 많은 COVID-19 case를 수집하고 healthy control과 비교하는 연구가 COVID-19의 pathogenesis에 있어 host genetic risk를 밝히는데 도움이 될 수 있을 것이라고 밝히며 논문이 마무리가 되었습니다.
이것으로 single-cell analyses와 host genetics를 통한 COVID-19 severity에서의 innate immune cells의 역할 강조를 다룬 논문 리뷰를 마치겠습니다. 이 논문도 보다 상세하게 공부해보면서 시뮬레이션을 할 수 있는 부분을 하려고 하는데, 지금 하고 있는 전의 논문 시뮬레이션에 몇 가지 할 수 있는 부분을 접목해봐야겠습니다. 또 정리할 부분이 있으면 찾아오도록 하겠습니다. 감사합니다!
참고자료:
1) Edahiro, R., Shirai, Y., Takeshima, Y. et al. Single-cell analyses and host genetics highlight the role of innate immune cells in COVID-19 severity. Nat Genet 55, 753–767 (2023).