본문 바로가기

생물정보학(바이오인포매틱스)

[28일차] Azimuth, reference-base single-cell analysis를 위한 앱

 

제가 최근에 single cell 분석 관련 공부를 하고자 노션 홈페이지에 다가 공부하면서 찾은 관련 툴과 공부 자료들을 정리해 모아두고 있는데요.

 

 

 

대학원 준비생의 노트 ( 24. 12 ~ ) | Notion

'과학커뮤니케이터 TKM' TKM's STUDY BLOG

sparkling-dibble-7ff.notion.site

 

 

이번 글에서는 그중 흥미로웠던 앱 중 하나인 referenc-based single-cell analysis를 위한 앱인 Azimuth를 소개해보고자 합니다. 

 

 

 

Azimuth

Azimuth: An app for reference-based single-cell analysis

azimuth.hubmapconsortium.org

 

 

"Azimuth is a web application that uses an annotated reference datset to automate the processing, analysis, and interpretation of a new single-cell RNA-seq or ATAC-seq experiment."
- 출처 : Azimuth 1) -


 

번역하자면, Azimuth는 annotated reference dataset을 활용하여 자동으로 scRNA seq 혹은 ATAC-seq의 processing, analysis, interpretation을 해주는 웹 애플리케이션으로, 

 

해당 웹에서 데이터를 선택한 후 필터링할 조건을 지정하면, 자동으로 normalization, visalization, cell annotation, 그리고 differential expression biomarker를 찾아줍니다. 

 

물론 제한된 데이터에 대하여 제한된 분석 방법을 통해서만 분석 결과를 산출하긴 하지만, 개별세포분석을 이제 공부하기 시작하는 저로서는 scRNA-seq이나 scATAC-seq을 돌리면 어떤 결과값(ex. 세포 유형 확인 + 발현된 유전자 확인)들이 나오는지 전반적으로 확인할 수 있을 듯 하여 흥미로웠습니다.

 

scRNA-seq Queries의 References 같은 경우에는 전에 Seurat 패키지로 다뤄봤던 Human PBMC부터 Human Pansci까지 총 13개의 웹이 준비되어 있었고, scATAC-seq Queries 같은 경우엔 Human PBMC, Human Bone Marrow 두개의 웹이 있었습니다.

 

출처 : Azimuth 홈페이지

 

출처 : Azimuth 홈페이지

 

 

보시다시피 각각의 웹에 'Learn more'와 'Go to App'이라는 버튼이 있습니다. 여기서 Learn more를 누르면 해당 Azimuth References에 대한 자세한 소개가 나옵니다. 예시로, scRNA-seq Queries의 Toy Data로 자주쓰인다고 알려진 Human PBMC를 대상으로 Learn more를 눌러봤습니다.

출처 : Azimuth 홈페이지

 

 

먼저 Reference에 대한 개요(세포 수, 종, Reference Dataset의 출처, Demo Dataset의 출처)와 함께 어떻게 데이터를 구성했는지에 대한 소개가 나옵니다. 참고로, 여기서 Demo Dataset은 이따가 본 웹에서 직접 분석을 돌릴 때 사용할 예정입니다.

어떻게 데이터를 구성했는지 쭉 보니까 HIV 백신을 day 0, 3,7 세번 맞은 8 명의 volunteers로부터 백신 접종후마다 데이터를 수집해서 총 24개의 샘플을 모으고, CITE-seq panel로 처리하여 single-cell RNA와 ADT(Antibody Drived Tags) 데이터를 모은 듯 합니다. 

 

스크롤을 더 내려보니 Annotaion 세부사항을 볼 수 있었는데, 특정 세포에 대한 Marker genes를 알 수 있었습니다. 예로, Monocyte의 Markers는 CTSS, FCN1 등등이 있나 봅니다.

 

출처 : Azimuth 홈페이지

 

 

그럼 이번엔 Human PBMC의 Learn More 옆에 있던 또 다른 버튼인 'Go to App'을 눌러봤습니다.

 

출처 : Azimuth 홈페이지

 

플랫폼 구성이 왠지 이전에 졸업논문 실험할 때 활용했던 MRbase 플랫폼 느낌이 살짝 납니다. 분석을 돌릴 때도 비슷한 느낌이 듭니다.

 

 

https://app.mrbase.org/

Mendelian randomization using summary data from genome-wide association studies (GWAS) is an increasingly important tool for appraising causality in hypothesized exposure-outcome pathways. The approach can, however, be technically challenging and time cons

app.mrbase.org

 

암튼 페이지 오른쪽 설명을 읽어보니까 dataset을 업로드해서 Multimodal PBMC reference에 매핑해달라고 하네요. 데이터가 있으면 아래 버튼을 클릭해서 업로드하면 되겠습니다.

 

출처 : 위와 동일

 

 

저는 data를 따로 업로드하지 않고 그 아래에 있는 'Load demo dataset' 버튼을 눌러서 아까 말했던 demo dataset를 reference에 매핑해보도록 하겠습니다. demo dataset의 구성은 '11,769 PBMCs from 10x Genomics'라고 합니다.

 

버튼을 누르고 잠시 기다리면 다음과 같은 화면이 뜹니다.

 

출처 : 위와 동일

 

 

seurat 패키지 실습할 때 봤던 반가운 plot이네요.

 

 

 

[22일차] 학부생, BRIC의 scRNA-seq data 분석법 글 따라해보기 01 :: Seurat 불러오기 & Quality Control (QC)

이번 글에서는 scRNA data를 기반으로 R 환경 Seurat 패키지를 통해 개별세포분석을 해보고자 합니다.   이를 위한 data로는 전에 수강을 완료한 KOBIC 교육센터의 '예제 데이터를 활용한 단일세포 전

tkmstudy.tistory.com

 

 

전에 설명했듯이 nCount_RNA는 UMI의 개수, nFeatue_RNA는 genes의 개수, percent.mt는 total gene에 대한 미토콘드리아 gene의 비율을 의미합니다.

 

UMI 혹은 gene의 개수가 비정상적으로 많으면 doublet(two cells in droplet)일 가능성이 높고, 비정상적으로 적으면 low-quality cell이거나 empty droplet으로 볼 수 있다고 합니다. 그리고 미토콘드리아 유전자의 비율이 비정상적으로 높으면 죽어가는 세포일 가능성이 높다고 하죠. 여기서 정상인지 비정상적인지에 대한 기준은 연구자의 재량껏 한다고 하는데 시각화한 걸 보고 기준을 정해 필터링하면 되겠습니다.

 

저는 그냥 최근에 본 유튜브에서 정한 기준 대로 유전자가 6500개 초과, 300개 미만, 미토콘드리아 유전자 비율은 20% 미만으로 하도록 하겠습니다.

 

출처 : 위와 동일

 

 

QC fileter에 다가 확인할 최소값과 최대값을 변경했더니 생략할 영역은 오른쪽에 보듯 빨간색으로 표시해주더군요. 벌써부터 신기합니다. 그럼 'Map cells to reference'를 눌러 분석을 돌려보겠습니다.

 

아 그리고 Mapping할 Reference Metdata는 celltype.l2로 했는데, 그냥 디폴트값으로 있길래 그냥 그걸로 했습니다. celltype.l2의 구성은 다음과 같습니다.

 

출처 : 위와 동일

 

 

분석을 돌리니 아래에 무언가가 등장했습니다.

 

출처 : 위와 동일

 

기다리고 나면, 분석이 끝나고 업로드된 세포 개수와 처리된 세포 개수, 그리고 분석에 걸린 시간이 등장합니다.

 

출처 : 위와 동일

 

그러면서 왼쪽에 요런 메뉴들이 등장하게 될 것입니다.

 

출처 : 위와 동일

 

먼저 Cell Plots를 눌러보았는데, 다음과 같은 UMAP이 등장했습니다.

 

출처 : 위와 동일

 

위에 꺼는 Reference Dataset의 UMAP이고, 아래로 내려가면 분석하고자 하는 데이터의 UMAP이 등장합니다. 

 

출처 : 위와 동일

 

 

어떤 클러스터는 reference dataset 보다 클러스터 내 세포 수가 풍성해보이고, 또 다른 클러스터는 보다 적어보입니다. 비주얼적으로만 보면 한계가 있으니 스크롤을 더 내려서 metadata table 수치도 확인해봤습니다.

 

출처 : 위와 동일

 

옆에가 좀 짤리긴 했는데, 행을 query, 열을 예측 cell type으로 지정해서 비율을 기준으로 확인해보니까 분석한 데이터에서 CD14 Monocyte가 약 31 퍼센트로 가장 많이 나타난 것으로 보입니다.

 

이전에 Seurat 패키지를 돌렸을 땐 cluster만 등장했지 그것이 무엇인지 annotation하기 위해서는 추가적인 절차가 필요했는데, 이렇게 한번에 cell type을 검증하고 어느정도 등장했는지 보여주니 편리해서 좋네요.

 

다음으로 cell plot 아래에 있던 feature plot을 클릭해보겠습니다.

 

Feature Plots이 등장하네요. 여기서 특정 유전자(아래의 경우, GNLY)나 특정 단백질(Imputed protein)을 지정해서 어떤 클러스터에서 이것들이 얼마나 발현되었는지 확인할 수 있었습니다.

 

출처 : 위와 동일

 

 

imputed protein 중 CD102의 경우에는 다음과 같이 Platelet으로 annotation된 클러스터에서 높게 발현되었음을 확인할 수 있었습니다.

 

 

출처 : 위와 동일

 

 

아래에는 violin plot으로 각 클러스터마다 선택한 유전자 혹은 단백질이 얼마정도 발현되었는지 보여줍니다. ANKRD9 유전자의 경우에도 Platelet에서 발현량이 높게 나타나네요.

 

출처 : 위와 동일

 

 

그 아래에는 'Predicted cell type biomarkers'가 나오는데요, RNA biomarkers와 Imputed protein biomarkers의 예측 정확도를 보여줍니다.

 

predicted cell type을 Platelet으로 지정해서 확인해보니까 RNA biomarkers의 경우, 해당 바이오마커가 있으면서 클러스터 안에 있는 세포(non-zero feature를 가진 세포)의 비율인 pct_in이 약 90퍼센트 이상으로 높게 나타나고, 해당 바이오 마커가 있는 클러스터 밖에 있는 세포의 비율인 pct_out은 낮게 나타난 것으로 보입니다. 참고로 auc는 'area under the curve'의 약자로 1일 때 완벽하게 클러스터를 구분할 수 있다고 하네요.

 

 

출처 : 위와 동일

 

단백질 바이오마커는 pct_in과 pct_out 모두 100, 100이 나왔는데요, 이러면 해당 biomarker가 cluster 간의 구분을 제공하지 않는 것인데(어느 클러스터든 있으니까), 그러면서도 AUC가 1이라는 건 오류 또는 오해석일 가능성이 있다고 합니다(by 챗GPT).

 

 

 

가능한 원인 중 Azimuth 자체가 문제일 가능성은 낮으니 artifact에 의한 편향이 일리가 있어 보이는데, 그렇다면 해당 biomarker는 cluster-specific biomarker로 보긴 어렵다고 합니다. 결국 위에 나온 imputed protein biomarkers 중에서는 CD26-1에 집중하면 되겠네요.

 

다음으로 Feature Plot 아래에 있는 Download Results 버튼을 눌렀더니, 다음과 같은 화면이 등장했습니다.

 

출처 : 위와 동일

 

좌측 상단에 있는 'Analysis script template'을 누르니까 이렇게 R script로 어떻게 분석을 진행했는지 코드가 나오네요.

 

 

 

여기까지만 보겠습니다. 자세하고 정확한 것은 Azimuth에 들어가셔서 구경해보시길 추천드립니다. 감사합니다!

 

- 참고자료

 

 

Azimuth

Azimuth: An app for reference-based single-cell analysis

azimuth.hubmapconsortium.org