이번 글에서는 최근에 사용할 수 있게된 '챗GPT 딥리서치'를 활용해 파악한 scRNA-seq 최신 동향 내용을 정리해보고자 합니다. 말 그대로 챗GPT가 정리한 거라서 오류가 있을 수 있습니다!

챗GPT가 어떻게 답변했는지는 아래 링크에 담겨있습니다. 그대로 적으며 정리해볼 예정입니다.
ChatGPT - scRNA-seq 최신 동향
Shared via ChatGPT
chatgpt.com
우선, " 2020년 이후부터 학계에서의 scRNA-seq 분야의 주요 최신 동향을 정리해줘"라고 물어봤는데요. 그랬더니 어떤 부분에 초점을 두고자 하는지 물어보더군요.

그래서 그냥 전체 분야에서 깊이 있는 정리 즉, 상세한 리뷰를 원한다고 했습니다.

기다리고 나니, 어떤 출처를 참고했는지와 함께 '2020년대 이후 단일세포 RNA 시퀀싱 분야의 최신 연구 동향'에 대해 정리해주었습니다. 그 내용을 요약 정리해보겠습니다.
1. 분석 기법 및 데이터 처리
1) 딥러닝 및 머신러닝 기반 분석 기법
단일세포 RNA 시퀀싱의 데이터의 해석에 딥러닝과 머신러닝 기법이 적극 도입되었습니다. 특히, "대용량의 고차원 데이터를 처리하고 잡음 속에서 유의미한 패턴을 추출하는데 인공 신경망이 활용되며 전통적 기법보다 뛰어난 성능을 보이고 있다"고 합니다.
예로, 변종 자동인코더(VAE)나 생성모형(GAN)을 통해서 데이터를 저차원으로 효율적으로 임베딩하고, 드롭아웃으로 인한 결측치를 보정함으로써, 세포 간 관계를 더 잘 포착하고 후속 분석(클러스터링, 세포 유형 예측 등)의 정확도를 높였다고 하는데요. 특히, scVI, scANVI 등의 VAE 기반 방법은 배치 효과 보정과 특징 추출에 널리 쓰이고 있고, 그래프 신경망을 이용한 scGNN 같은 모델은 세포 간 인접성 정보를 통합해 클러스터링 성능을 향상시켰다고 합니다.

"딥러닝 기반 접근법은 기존 통계기법으로는 어렵던 비선형 구조의 패턴을 발견하고 데이터 통합을 자동화하여, 단일세포 데이터 해석의 새로운 지평을 열고 있다. 다만 딥러닝 모형의 블랙박스 특성과 대량 학습데이터 필요성 등은 여전히 과제로 남아 있으며, 이러한 한계를 개선하기 위한 연구도 진행 중이다."
특히, 전사체 데이터의 경우 어떤 유전자는 지나치게 고발현하고, 어떤 유전자는 거의 등장하지 않는 그런 분포를 갖기 때문에 유전자 발현 패턴을 분석할 때 비선형 구조를 고려할 필요가 있는데, 이에 딥러닝 기반 접근이 도움이 될 수 있는 것이죠. 그렇지만, 딥러닝이 어떤 특징을 추출해서 모델을 훈련했는지 모르는 그런 블랙박스 특성이 존재한다면 아무리 모델의 정확도가 높다고 해도 어떻게 그 결과를 어떻게 도출했는지 설명할 수 없는, 그래서 재현성과 신뢰성이 떨어지는 문제가 발생할 수 있을 듯 합니다. 또한, 딥러닝은 기존 지도학습과 달리 학습해야 할 특징이 주어지지 않고 학습데이터에서 스스로 특징을 추출하는 복잡한 연산을 수행하는 만큼 대량의 학습 데이터도 필요하다고 볼 수 있겠습니다.
2) 공간전사체학과 통합.
조직 내 세포들의 위치 정보와 발현 정보를 동시에 이해하기 위해, 단일세포 전사체 데이터와 공간 전사체학 데이터의 통합 분석이 활발하게 이루어지고 있다고 합니다. 조직 내 세포들의 위치를 알면 인접한 세포를 알게 되고, 그 공간적 정보로부터 어떤 세포 간 상호작용이 이루어지고 있는지 더 정확하게 추론할 수 있을테니까요. 그렇지만, 조직 슬라이드 위의 위치별로 유전자 발현을 측정하는 공간 전사체학의 경우, 단일세포 수준의 해상도가 제한적이라고 하는데요. 이를 보완하기 위해 Tangram 등 새로운 알고리즘이 개발되어 단일세포 RNA-seq 데이터의 세포 유형 정보를 공간 데이터에 매핑함으로써 세포들의 공간적 분포를 추정할 수 있게 되었다고 합니다.

"Tangram은 동일한 조직에서 얻은 scRNA-seq와 공간 transcriptomics (예: Visium, MERFISH 등) 데이터를 입력으로 받아, 공유된 유전자 발현 패턴을 학습함으로써 각 공간 좌표에 어떤 세포 유형이 위치하는지 추론한다. 그 결과, 공간 해상도가 낮아 놓친 유전자 발현 패턴을 보완하거나 세포 유형별 위치분포를 단일세포 수준으로 재구성하는 등 다양한 응용이 가능해졌다."
그외에도 Cell2Location, SPaGCN, Seurat의 앵커(anchor) 방식 등 여러 통합 기법이 등장하며, 조직 맥락을 고려한 세포 해석을 지원하고 있다고 합니다. 특히, 이러한 접근들은 뇌, 암 조직 등에서 '디지털 세포 지도'를 구축하는데 활용되고 있으며, 세포 간 상호작용과 미세환경에 대한 새로운 통찰을 제공하고 있다고 하네요.
3) 다중 오믹스 데이터 융합
단일 세포 수준에서 서로 다른 오믹스 데이터를 동시에 다루는 멀티-오믹스 분석이 2020년대에 급속히 발전하였다고 하는데요. 10X Genomics에서 2020년경 출시한 Multiome 기술처럼, 같은 세포로부터 전사체와 크로마틴 접근성(scATAC-seq)을 동시 측정하거나, 전사체와 표면 단백질(CITE-seq) 또는 V(D)J 재배열(면역 repertoire) 등을 함께 프로파일링하는 기술들이 보편화되었습니다. 이러한 멀티모달 데이터의 통합을 위해 Seurat 등 도구에 통합 알고리즘이 도입되었죠.

"MOFA, LIGER 등의 행렬인자분해 기법이나 TotalVI 같은 변종 딥러닝 모델이 멀티오믹스 통합에 사용되어, 서로 다른 데이터 유형 간의 공통된 잠재 공간을 학습한다. 그 결과, 단일세포 수준에서 유전자 발현과 유전자 조절 정보가 결합되어 세포 상태를 더 포괄적으로 파악할 수 있게 되었고, 예컨대 RNA-ATAC 동시분석을 통해 특정 세포형의 조절인자나 enhancer 활성 상태를 밝혀내는 등 중요한 성과들이 보고되고 있다. 이러한 멀티오믹스 통합은 데이터 규모 증가와 함께 더욱 중요해지고 있으며, 공개 데이터베이스의 다양한 데이터 층을 결합해 단일세포 종합 아틀라스를 구축하려는 시도도 진행중이다."
Progress in single-cell multimodal sequencing and multi-omics data integration - PMC
Abstract With the rapid advance of single-cell sequencing technology, cell heterogeneity in various biological processes was dissected at different omics levels. However, single-cell mono-omics results in fragmentation of information and could not provide
pmc.ncbi.nlm.nih.gov
4) 데이터 정규화 및 잡음 감소
scRNA-seq 데이터는 낮은 검출률로 인해 많은 드롭아웃(dropout) 값이 발생하고, 기술적 잡음이 큰 것이 특징이라고 합니다. 실제로 단일세포 실험에서는 사용된 시퀀싱 chemistry에 따라 전체 전사물의 6~30% 정도만 포착되고 나머지는 0으로 기록되는데, 이러한 희소성 때문에 결측치 보정(imputation)이 특히 중요하면서도 어렵다고 합니다.

2018년 도입된 SCTransform은 정규화와 변이 안정화를 동시에 수행하여 배치효과를 줄이고, 데이터의 신뢰도를 높이는데 기여했고, 이후 많은 파이프라인에 통합되었다. 또한, 딥러닝 기법을 이용한 데이터 보정 및 노이즈 감소가 주목받아, DeepImput는 자동인코도로 누락값을 예측하고, scIGANS, scGAIN 등 GAN 기반 모델은 인공적으로 드롭아웃을 복원함으로써 데이터 품질을 높였다. 이러한 방법들은 실험 잡음과 배치 차이를 줄여주어 다운스트림 분석의 정확도를 향상시킨다.
그렇지만, 과도한 보정은 실제 생물학적 이질성을 숨길 위험이 있어 최신 연구들은 '적응형 보정(adaptive compensation)'을 통해 잡음과 신호를 균형 있게 분리하는 방향으로 발전하고 있다고 하는데요. 즉, 필수적인 정규화와 배치 보정은 수행하되 실제 세포 간 차이는 최대한 보전하려는 노력이 지속되고 있다고 합니다.
5) 클러스터링 및 의사-시간 분석
수천~수만 개 세포의 고차원 발현 데이터를 저차원 공간에 표현하고 비슷한 세포끼리 묶는 '클러스터링'은 단일세포 분석의 핵심 단계이죠. 최근에는 k-최근접 그래프 기반의 커뮤니티 검출 알고리즘(예: Louvain/Leiden)이 표준으로 활용되고 있는데요. 이러한 그래프 클러스터링은 대규모 데이터에서도 계산 효율이 높고 계층적 구조 파악에 유리하다는 장점이 있습니다.
더 정교한 클러스터링을 위해 딥러닝을 접목한 시도도 있는데, scVAE는 VAE의 잠재적 공간에 혼합 가우시안 모형을 적용하여 자동으로 군집을 식별하였고, scPhers는 구형/쌍곡공간 임베딩을 통해 서로 다른 크기의 군집도 잘 분리되도록 개선하였다. 이처럼 최신 기법들은 고차원 데이터를 내재된 구조에 맞게 임베딩함으로써 희미한 아형(subtype)까지 포착해내는 방향으로 발전하고 있다.
scRNA-seq에서의 딥러닝 적용 사례 리뷰 논문 :
Application of Deep Learning on Single-cell RNA Sequencing Data Analysis: A Review - PMC
In this review, we have investigated how deep learning has been incorporated to advance different elements of scRNA-seq data analysis. Despite the promising results obtained using the deep learning techniques, there remain challenges in the field that need
pmc.ncbi.nlm.nih.gov
또한, 발생, 분화 등 연속적인 세포 상태 변화를 복원함에 있어 의사-시간(pseudotime) 분석이 필수적인 도구로 자리잡게 되었는데요. 2020년대엔 특히, branching trajectories가 각광을 받았는데, 그 예로, VIA 알고리즘은 그래프 기반으로 확장성과 안정성을 높여 복잡한 분화 경로도 안정적으로 포착하였으며, 딥러닝을 활용한 VITAE(2020) 모델은 VAE로 학습한 잠재 공간에 혼합 모형을 접목해 연속적인 세포 상태와 분기점을 함께 모델링했다고 합니다. 자세한 내용은 위의 리뷰 논문을 참고했다고 하니 읽어보시길 바라며, 저도 아직 안읽어서 나중에 읽어봐야겠습니다.
더불어 RNA 속도(RNA velocity) 기법이 등장하여 의사-시간 해석에 역동성을 추가했는데, spliced/ unspliced mRNA 비율을 이용해 세포 상태 변화의 진행 방향을 예측함으로써 분화의 시간적 흐름을 가늠할 수 있게 되었다. 이러한 발전을 통해 연구자들은 발달과정에서 세포들이 어떤 순서와 경로를 거쳐 변화하는지 추론하고, 특정 세포 상태에 이르는 분자경로까지 더 깊이 이해할 수 있게 되었다. 그럼에도 불구하고 서로 다른 방법들 간 결과 차이가 존재하기에, 최신 동향은 여러 알고리즘을 종합적으로 활용하고 검증된 마커 유전자를 통해 생물학적으로 해석하는 방향으로 나아가고 있다.
2. 실험적 기술 발전
1) 최신 scRNA-seq 플랫폼 및 기술
단일세포 RNA 시퀀싱 기술은 2020년대에도 지속적으로 개선되어 세포 처리량과 데이터 품질 면에서 큰 발전을 이뤘다고 하는데요. 기존의 플레이트 기반 방법은 여전히 활용되고 있긴 하지만 현재는 상업화된 마이크로액적 기반 플랫폼(ex. 10X Genomics Chromium)이 대부분의 실험에서 주류를 이루고 있다고 합니다. 무엇보다 드롭렛(droplet) 방식은 수만 개 이상의 세포를 병렬로 캡처하여 동시에 처리할 수 있어 '처리량'이 월등히 높고 비용도 세포당 크게 낮다고 합니다. 그럼에도 플레이트 기반 방법은 세포당 민감도와 데이터 풍부도가 높아서 전장(full-length) 전사체 정보를 얻거나 낮은 발현량 유전자까지 포착하는 데 여전히 중요하다고 하죠.

2) 샘플 처리 및 라이브러리 준비 혁신
2020년대에는 단일세포 실험의 샘플 전처리와 라이브러리 준비 과정에서도 다양한 혁신이 도입되었다고 하는데요. 대표적으로, 서로 다른 샘플의 세포에 구분 가능한 바코드를 붙여 한 실험으로 합치는 '멀티플랙싱(multiplexing) 기술'이 등장했다고 합니다.
예로, Cell Hashing은 모든 세포에 붙일 수 있는 DNA-바코드 항체를 시료별로 달리 처리하여, 혼합 후 시퀀싱 결과에서 해당 바코드로 샘플 출처를 구분한다. 이러한 해싱 기법은 적은 비용으로 대량의 샘플을 동시 처리하면서도 배치효과를 최소화할 수 있으며, 10x Genomics도 2020년대 초 CellPlex라는 상용키트를 출시하여 지질 태그 방식의 시료 바코딩을 제공했다. 이와함께 '유전체 다형성 기반 디멀티플렉싱 기법'도 발전하여, 혼합 샘플의 세포들을 자연 발생하는 유전적 차이(SNP 등)로 구분하는 방법이 실용화되었다.
샘플 처리 측면에서는 조직으로부터 단일세포 현탁액을 얻는 효소 처리법이 개선되어서 세포 생존율과 수율이 높아졌고, 동결 보관된 검체의 활용을 위해 '단일핵 시퀀싱(snRNA-seq)'이 표준화되었다고 합니다. 전반적으로, 샘플 준비 단계의 혁신은 단일세포 실험의 '재현성'과 '효율성'을 높이는 방향으로 진행되어, 이제는 대규모 코호트나 민감한 임상시료에서도 단일세포 분석이 현실화되고 있다고 하죠.
3) 시퀀싱 비용 절감 및 처리 속도 향상
단일세포 시퀀싱의 비용은 지난 몇년 간 급격히 감소하여, 대규모 싱글셀 연구를 저해하던 장벽이 크게 낮아졌는데요. 예로, 2015년경 세포 하나를 프로파일링하는 데 수 달러 이상 들었으나, 2020년대 중반에는 세포당 몇 세트 이하로 추산될 정도로 비용 효율이 개선되었습니다. 이러한 비용 절감은 대규모 아틀라스 프로젝트를 가능케 하여, 사람과 생쥐를 포함한 여러 종에서 수백만 세포 규모의 데이터셋이 속속 등장하고 있는 상황입니다.
Single Cell Portal
Reducing barriers and accelerating single-cell research
singlecell.broadinstitute.org
4) 단일 세포 수준에서의 고감도 유전자 발현 검출 기술
단일세포 분석에서 민감도란 세포 당 검출되는 mRNA 종류와 분자의 수를 늘리는 것으로, 드롭아웃 줄이고 희귀 전사물을 포착하는 데 직결된다. 2020년 등장한 Smart-seq3 프로토콜은 이전 세대에 비해 감도를 드라마틱하게 향상시킨 성과로 주목받았다. Smart-seq3는 세포 내 존재하는 RNA의 훨씬 더 큰 비율을 수집하여(기존 대비 검출량 증가), 5' 말단에 UMI 기반 카운팅을 도입하면서도 전체 길이의 cDNA를 확보할 수 있게 했다. 이를 통해 한 세포에서 수만 개의 mRNA 종류를 정량함과 동시에 각각의 전체 염기서열 정보를 얻어, 대안 스플라이싱이나 대립 유전자별 발현 같은 정교한 분석이 가능해졌다.
Smart-seq3의 높은 민감도는 다른 방법으로는 놓치던 희귀 세포형의 특이 유전자나 저발현 조절유전자까지 검출해내어, 세포 유형 동정과 상태 분석의 정밀도를 높였다고 하는데요. 이와 더불어 2022년 보고된 VASA-seq은 폴리A 꼬리를 갖지 않는 비폴리아데닐화(non-polyA) 전사물까지 포괄적으로 포착하는 혁신을 이루었다고 합니다.
High-throughput total RNA sequencing in single cells using VASA-seq - PMC
a, Volcano plot showing differentially expressed genes between VASA-seq (right, positive values) and 10x Chromium (left, negative values). Genes that are always highly differentially expressed across timepoints and have a log2 fold change >4 and P < 0.
pmc.ncbi.nlm.nih.gov
VASA-seq은 세포 내 모든 RNA에 poly(A) 꼬리를 인공적으로 부여(dA-tailing)하여, 코딩 RNA 뿐만 아니라 IncRNA, 미성숙 mRNA 등의 비폴리A RNA까지 시퀀싱할 수 있게 했다. 더욱이 이 기술은 플레이트 방식과 드롭렛 방식 모두에 적용 가능하도록 설계되어 고감도와 고처리량을 겸비한 최초의 기술로 평가받는다. 실제 VASA-seq을 이용한 발생 연구에서는 기존 방법으로는 관찰하기 어렵던 세포주기별 히스톤 mRNA 발현이나 세포 분화 경로 상의 미묘한 변화를 감지해내는 성과를 거두었다.
3. 주요 생물학적 응용
1) 암 연구에서의 scRNA-seq 활용
암 생물학 분야는 단일세포 시퀀싱의 등장이 가져온 가장 큰 수혜 분야 중 하나라고 하는데요. 종양 조직을 단일 세포 해상도로 들여다봄으로써 동일 종양 내에 공존하는 다양한 아형 세포들의 존재와 암세포의 유전적/표현형적 이질성(heterogeneity)이 상세히 밝혀졌기 때문입니다. 예로, 특정 암에에서 표준 치료에 저항성을 지닌 소수의 아형 암세포나 암 줄기세포를 scRNA-seq로 검출함으로써 재발의 원인을 규명하는 연구들이 다수 보고되고 있다고 하죠. 이외에도 단일세포분석을 통해 종양 미세환경(TME)에 대한 이해도 비약적으로 향상되었는데, 구체적으로 종양에 침윤한 면역세포, 섬유아세포, 혈관세포 등 비악성 세포들의 구성과 상태를 한꺼번에 파악할 수 있게 되었다고 합니다.
Application of single-cell sequencing to the research of tumor microenvironment - PMC
Abstract Single-cell sequencing is a technique for detecting and analyzing genomes, transcriptomes, and epigenomes at the single-cell level, which can detect cellular heterogeneity lost in conventional sequencing hybrid samples, and it has revolutionized o
pmc.ncbi.nlm.nih.gov
2) 면역학 및 단일세포 면역 프로파일링 기술
단일세포 RNA-seq과 단일세포 다중오믹스 기술은 면역세포의 유형별 특징, 그리고 상호작용을 정밀하게 규명하는데 활용되고 있습니다. 예로 말초혈액이나 림프조직을 대상으로 scRNA-seq을 수행하면 T 세포, B 세포, NK 세포, 수지상세포(DC) 등 면역세포 아형들을 한 번에 식별할 수 있고, 각각의 활성화 상태(Naive / effector / memory / exhausted)를 반영하는 유전자 발현 시그니처를 포착할 수 있습니다.
또한, 단일세포 수준에서 T 세포 수용체(TCR)와 B 세포 수용체(BCR) 서열을 동시 분석하는 면역 레퍼토리 시퀀싱이 결합되어, 어떤 클론의 T세포가 어떤 전사 상태를 갖는지 연결 짓는 것도 가능해졌습니다. 예로, 특정 항원에 반응해 클론 확장을 이룬 T 세포의 유전자 발현 패턴을 분석함으로써, 백신이나 만성감염에 나타나는 T세포의 분화 경로를 추적하는 연구가 이루어지고 있습니다.
단일세포 면역 프로파일링에서 CITE-seq과 REAP-seq 같은 기술은 세포 표면의 단백질 발현을 동시 측정함으로써, 세포의 표현형을 더욱 풍부하게 특성화할 수 있게 했다. 예컨대, CITE-seq은 100개 이상의 세포 표면 단백질에 대한 항체에 DNA 바코드를 붙여 RNA와 함께 시퀀싱함으로써 세포 당 mRNA 발현과 단백질 발현을 모두 얻는다. 이를 통해 전사체만으로 구분이 어려운 세포 아형을 단백질 마커로 정확히 식별하거나, 세포의 사이토카인 분비 능력 등을 단백질 수준에서 병행 평가할 수 있다. 나아가 2021년 보고된 ECCITE-seq은 CITE-seq을 확장하여 단백질, 전사체 외에 TCR/BCR 재배열과 CRISPR 간섭 정보까지 동시에 얻어 한 세포의 면역학적 특성을 총체적으로 파악했다.
이러한 기술들은 종양 면역미세환경에서 어떤 세포가 면역억제적 역할을 하는지 밝혀내거나, 자가면역 질환 환자의 병인 세포를 가려내는 등 임상 연구에도 응용되고 있다고 하는데요. 결국, 면역학 분야에서 단일세포 시퀀싱은 면역세포의 구성 분포와 활성 상태 지형도를 그려냄으로써 개인별 면역프로파일을 정밀 분석하는 핵심 도구로 자리잡았으며, 면역치료 표적 발굴과 백신 메커니즘 이해에 크게 기여하고 있다고 합니다.
3) 신경과학에서의 단일세포 분석 적용
신경과학 분야에서도 scRNA-seq은 뇌 조직의 복잡성을 이해하는 혁신적인 변화를 가져왔다고 합니다.
뇌는 수많은 종류의 뉴련과 비신경세포(아교세포 등)로 이루어져 있는데, 단일세포 전사체 분석을 통해 이러한 세포 종류들을 체계적으로 분류하고 특성을 규명하는 뇌 세포 아틀라스 연구가 활발히 진행되었다. 예를 들어 BICCNN(BRAIN Initiative Cell Census Network) 프로젝트는 2021년 마우스 일차 운동피질의 수십만 개 세포를 단일세포 시퀀싱하여 100가지가 넘는 세포 유형을 동정하고, 각 세포군의 유전자 발현 패턴과 전기생리학적 특성을 연계한 포괄적 지도를 완성했다. 인간 뇌에 대해서도 발생 단계별 단일세포 지도가 구축되어, 초기 배아 발달 과정에서 방사형 교세포(radial glia) 등 전구 세포들이 어떻게 분화하고 공간적으로 배열되는지 규명되었다.
결국, 뇌세포에 대한 단일세포 분석은 뇌 발달과 회로 형성에 관한 새로운 세포 유형과 일시적 상태들을 발견하게 했습니다. 특히, 신경퇴행성 질환 분야에서도 단일세포 기술의 응용이 두드러진다고 하는데요. 알츠하이머병(AD)의 경우 환자 뇌조직을 단일세포 해독하여 미세아교세포와 성상세포 등의 다양한 활성 상태를 동정한 연구들이 보고되었다고 합니다.
Single-cell transcriptomic analysis of Alzheimer’s disease - PMC
a, Genes most upregulated: excitatory (Ex) and inhibitory (In) neurons, astrocytes (Ast), oligodendrocytes (Oli), oligodendrocyte precursor cells (OPC), and microglia (Mic) (Font size, -log10 P-value). b, Differentially-expressed gene (DEG) counts (2-sided
pmc.ncbi.nlm.nih.gov
이 밖에 파킨슨병, 다발성경화증 등에서도 단일세포 RNA-seq을 활용한 연구 이루어져, 질환 환경에서 신경세포와 면역세포의 상호작용, 스트레스 반응 경로 등의 변화에 대한 연구가 이루어지고 있다고 합니다. 이처럼 신경과학에서 단일세포 분석의 적용은 정상 뇌 기능부터 신경질환 병태생리까지 아우르면, 인간 뇌라는 복잡계의 부품 목록을 작성하고 동적 변화를 추적하는데 필수 불가결한 도구로 자리잡았다고 딥리서치는 평가합니다.
4) 재생의학 및 줄기세포 연구에서의 활용
줄기세포가 분화하여 조직을 형성하거나 재생하는 과정은 이질적인 세포들이 섞여 진행되는데, 단일세포 분석을 통해 이러한 세포 운명 결정 경로를 재구성할 수 있다. 예를 들어 다능성 줄기세포가 분화하여 다양한 세포로 나뉘는 과정을 scRNA-seq으로 추적하면, 개별 세포들이 어떤 전이 단계를 거쳐 최종 운명에 도달하는지 계통수(tree) 형태로 그려볼 수 있다. 이를 통해 의사-시간 궤적을 따라 분화 경로상의 분기점과 결정 유전자를 규명하고, 배양 조건이나 인자 조작에 따른 분화 경로 변화도 모니터링할 수 있다.
뿐만 아니라 장기 오가노이드 연구에서도 scRNA-seq이 활발히 쓰여, 오가노이드 내 세포들이 실제 생체조직과 유사하게 분화하는지 확인하고, 인자조작(ex. dox 투여 조직 손상)에 따른 개별세포 수준에서의 유전자 발현 패턴 변화를 검출하기도 합니다.
Partial in vivo reprogramming enables injury-free intestinal regeneration via autonomous Ptgs1 induction - PubMed
Tissue regeneration after injury involves the dedifferentiation of somatic cells, a natural adaptive reprogramming that leads to the emergence of injury-responsive cells with fetal-like characteristics. However, there is no direct evidence that adaptive re
pubmed.ncbi.nlm.nih.gov
5) 희귀세포 및 희귀질환 연구에서의 기여
조직이나 혈액 내 극소수만 존재하는 세포 종류는 벌크 분석으로는 그 존재나 분자 특성을 파악하기 어려웟지만, 대량의 세포를 개별 분석하는 scRNA-seq으로 이러한 희소 집단을 효과적으로 찾아낼 수 있다고 합니다. 예로, 전체 림프구의 0.01% 미만에 불과한 선천성 림프구(ILC) 집단을 분리 동정하거나, 종양환자의 혈액에서 순환종양세포(CTC)를 검출하여 전이 관련 유전자 발현을 규명하는 연구들이 이루어졌다고 합니다.
한편 희귀질환 연구에서도 단일세포 전사체학이 점차 활용되고 있다, 희귀질환의 경우 환자 유래 조직에서 어떤 세포가 돌연변이의 영향을 가장 크게 받는지, 그로 인해, 어떤 경로가 교란되는지 알아내는 것이 치료 전략 수립에 중요하다. 최근 5년간 전장 전사체 분석(RNA-seq)이 특이한 발현 변화나 스플라이싱 이상을 찾아내어 진단을 돕는 보조수단으로 떠올랐으며, 단일세포 RNA-seq은 이를 한층 발전시켜 세포 유형별로 이상 현상을 분리 관찰할 수 있게 한다. 더 나아가 단일세포 다중오믹스를 활용하면 한 세포 내에서 유전변이 -> 전사체 -> 단백질로 이어지는 경로를 추적하여, 희귀질환의 유전적 원인이 어떻게 표현형으로 발현되는지 규명할 수도 있다. 현재까지는 연구 단계이지만, 계산 기법과 실험기술이 발전함에 따라 단일세포 분석은 희귀질환 진단에도 점차 도입되어 정밀의료를 뒷받침할 것으로 전망된다.
Toward transcriptomics as a primary tool for rare disease investigation - PMC
Abstract In the past 5 years transcriptome or RNA-sequencing (RNA-seq) has steadily emerged as a complementary assay for rare disease diagnosis and discovery. In this perspective, we summarize several recent developments and challenges in the use of RNA-se
pmc.ncbi.nlm.nih.gov
4. 향후 전망 및 도전 과제
1) 데이터 처리 및 해석에서의 한계점
먼저, scRNA-seq에서 서로 다른 실험이나 연구 간 '배치 효과'와 '기술적 변이'는 완전히 해소되지 못한 문제로 남아 있다고 합니다. 물론 배치 보정 알고리즘이 발전했지만 완벽하지 않아서, 대규모 통합분석 시 일부 잘못된 통합이나 섞임 현상이 발생할 수 있다고 하죠. 이와 함께 앞서 말했듯 드롭아웃 잡음과 낮은 read 깊이로 인한 한계도 존재하며, 특히 희귀 유전자나 전사체의 정량에는 신중한 해석이 필요하다고 합니다.
해석 측면에서는, 단일세포 데이터에서 나온 새로운 세포 상태나 아형을 생물학적으로 정의하고 명명하는 표준이 아직 확립되어 가는 단계라고 하는데요. 서로 다른 연구에서 유사한 세포에 각기 다른 이름이 붙는 경우가 있고, 어떤 발견이 진정 새로운 세포 유형인지 아니면 연속적인 상태 상의 한 지점인지를 판단하는 데에도 어려움이 있다고 합니다. 따라서 향후에는 커뮤니티 차원에서 데이터와 결과를 체계화하고 표준화하는 노력이 요구된다고 하죠.
마지막으로, 딥러닝 기반의 분석의 결과는 높은 예측력에도 불구하고 '해석 가능성(interpretability)'이 낮은 경우가 있어, 모델이 학습한 특징을 생물학적으로 이해하는 데 한계가 있다. 이러한 한게를 극복하기 위해 모델의 결정 요인을 설명하는 기법이나 생물학적 사전 지식을 모델에 통합하는 연구가 진행되고 있다. 종합하면, 빅데이터화된 단일세포 시대에 걸맞게 데이터 처리의 효율성과 해석의 신뢰성을 높이는 일이 앞으로도 중요한 과제로 남아있다.
2) 빅데이터 및 클라우드 기반 분석 기술의 발전
전 세계적으로 축적된 단일세포 데이터는 이미 수억 개 이상의 세포에 이르고 있어, 이를 활용한 빅데이터 생물학이 가시화되고 있다. 이러한 대규모 데이터를 다루기 위해 클라우드 기반 인프라와 분석 기술이 발전하고 있다. 대표적으로 인체 모든 세포의 지도를 그리려는 Human Cell Atlas(HCA) 컨소시엄은 클라우드에 거대한 단일세포 데이터 포털을 구축하여, 전세계 연구자들이 데이터를 업로드하고 접근할 수 있도록 하고 있다.
Data Portal
To create comprehensive reference maps of all human cells—the fundamental units of life—as a basis for both understanding human health and diagnosing, monitoring, and treating disease.
www.humancellatlas.org
HCA 데이터 포털에서는 수천만 개 이상의 세포 데이터를 포함한 다중오믹스 데이터를 저장 및 공유할 수 있으며, 사용자는 클라우드 상에서 직접 대규모 연산을 수행할 수 있다고 합니다. 이처럼 데이터를 클라우드 상에 모으면 개별 연구자가 초대형 데이터를 내려받지 않고도 분석을 수행할 수 있고, 공동 연구자 간 데이터/코드 공유도 용이해지죠. 또한, 머신러닝 분야의 분산 학습 기법이 접목되어 여러 노드에서 거대한 단일세포 데이터를 병렬 처리하거나 딥러닝 모델을 학습시키는 것도 가능해지고 있다고 합니다.
다만 클라우드 기반 분석은 데이터 업로드 비용, 표준화되지 않은 메타 데이터, 개인정보 보호 등의 이슈도 수반한다. 이를 해결하기 위해 국제 단일세포 데이터 표준 구축, 데이터 형식 통일, 접근 제어 시스템 마련 등이 진행중이다. 궁극적으로 빅데이터와 클라우드 기술의 결합은 단일세포분석 분야에서 협업적 분석과 실시간 데이터 통합을 촉진할 것으로 기대된다.
3) 정밀의료 및 임상 응용 가능성
환자의 조직이나 혈액을 단일세포 수준에서 분석하면 질병의 분자적 이질성과 미세환경을 면밀히 파악할 수 있습니다. 따라서 이를 진단과 치료 결정에 활용하려는 시도가 시작되고 있는데요. 예로, 종양 환자의 경우 수술 검체를 단일세포 시퀀싱하여 면역세포 구성과 암세포 아형을 분석하면 해당 환자가 면역관문억제제에 반응할지 또는 표적치료가 유효할지 예측하는데 도움이 될 수 있다고 합니다.

더 나아가 희귀 유전질환 진단에 있어서 환자 유래 세포를 분석한 단일세포 전사체 데이터가 기능적 유전 진단의 근거로 활용될 수 있다는 보고도 있는데요. 예로, 원인 유전자가 불분명한 환자에서 단일세포 전사체를 살펴 특정 세포에서 두드러진 발현 이상을 보이는 유전자를 찾으면 후보 유전자를 압축하여 진단에 도움이 될 수 있다고 합니다.
이러한 응용 가능성을 현실화하기 위해서는 몇 가지 선결 조건이 있다. 우선 임상 샘플로부터 신속하게 단일세포 라이브러리를 구축하고 분석까지 수행할 수 있는 표준화된 프로토콜이 필요하다. 현재 몇몇 병원 및 기업에서 신속진단을 위한 싱글셀 플랫폼을 개발 중이며, 하루 이틀 내 세포 분류 결과를 얻는 것을 목표로 하고 있다. 또한, 결과의 해석 자동화와 시각화 도구도 필수적인데, 임상의가 단일세포 분석 결과를 직관적으로 이해하고 활용할 수 있도록 AI 기반 리포팅 시스템이 연구되고 있다.
4) 윤리적 문제 및 데이터 공유 이슈
개인으로부터 유래한 세포의 유전체 및 전사체 정보는 민감한 개인정보를 일부 담고 있을 수 있습니다. 비록, scRNA-seq 데이터는 주로 전사체에 국한되나 발현되는 유전자형 정보나 희귀 돌연변이를 통해 개인을 식별하거나 질병 소인을 유추할 가능성을 완전히 배제하긴 어렵다고 하죠. 따라서 연구 참가자에 대한 동의 절차에서 이러한 정보를 명시하고 동의를 구하는 것이 중요하다고 합니다.
생성된 데이터의 공개에 있어서도, raw data는 개인정보를 포함할 가능성이 높으므로 공개 저장소에 올릴 때 접근 제한을 두는 것이 일반적이다. 예를 들어 Human Cell Atlas 등 국제 프로젝트에서는 환자 유래 raw data의 경우 승인 받은 연구자만 접근할 수 있는 controlled-access repository에 보관하고, 익명화된 요약 정보나 세포군 수준의 2차 자료만 공개적으로 공유한다. 이러한 조치는 개인 정보 보호와 연구 데이터 공유 간 균형을 맞추기 위한 것이다.
또 다른 윤리적 측면으로는 세계 각지의 다양한 인구집단으로부터 세포 샘플을 확보하고 아틀라스를 만드는 과정에서 발생하는 형평성과 참여의 문제가 있을 수 있다고 하는데요. 부유한 국가와 기관 위주로 데이터가 생산되면 전 인류를 대표하지 못하는 편향된 결과가 나올 수 있고, 이에 따라 혜택의 불균형이 생길 수 있기 때문입니다. 이를 막기위해 HCA 등을 아프리카, 아시아, 남미 등 저표본 지역의 연구자들과 협력하고 역량 강화를 지원하여 글로벌한 데이터 생산과 활용을 도모하고 있다고 합니다. 최근에 봤던 아프라카인 장내미생물 조사 관련 기사가 떠오르네요.
[표지로 읽는 과학] 역대 최대 규모 아프리카인 장내미생물 조사
nature 제공 이번 주 국제학술지 '네이처' 표지에는 아프리카 전통 민족인 줄루족의 바구니를 현대적으로 해석한 작품이 등장했다. 전화선을 짜서 만든 바구니의 무늬는 아프리카에 사는 여성들
m.dongascience.com
마지막으로, 거대 단일세포 데이터의 공유는 연구 커뮤니티 발전에 필수적이지만 지적재산권 이슈도 존재한다. 대규모 컨소시엄에서 생산한 데이터는 일정 기간 기여자들이 우선 분석하도록 하는 '보호 기간(embargo)'을 두는 경우도 있으며, 공개 후에는 CC 라이선스 등을 통해 활용 범위를 명시하고 있다. 전반적으로 단일세포 데이터 공유는 오픈사이언스 정신 아래 활발히 이루어지는 추세이며, 다만 민감 정보의 비식별화와 적절한 접근 통제가 병행되고 있다.
향후에는 윤리적 고려를 만족하면서도 연구 생산성을 높일 수 있는 '데이터 거버넌스 모델'이 더욱 정교화되어 전세계 인류를 대표하는 거대한 단일세포 데이터 자원이 안전하고도 자유롭게 활용될 수 있으로 기대된다며 딥리서치 내용은 마무리 되었습니다.
다음에 또 정리할 부분이 있다면 찾아오도록 하겠습니다. 감사합니다!