안녕하세요, 이번엔 단일세포 전사체 분석 기술(single cell RNA-seq analysis)의 전반적인 개요와 고려사항들을 정리해보는 시간을 가져보고자 합니다. 공부 겸 정리하는 건지라 오류가 있을 수 있다는 점 양해부탁드립니다.

우선 '단일세포 전사체 기술(scRNA-seq)'이 무엇인지 간단히 소개하겠습니다. scRNA-seq이란, 조건별(ex. disease, chemical treatment, genetic modification)로 등장하는 세포의 구성 및 기능 차이를 개별세포수준에서 파악할 수 있는 기술이라고 볼 수 있겠습니다. 본 기술을 통해 저희는 특정 질병의 중증도를 높이는데 어떤 기능(ex. 경로)을 담당하는 세포 유형(혹은 아형)이 관여하는지 예측할 수도 있고, 특정 조직에서의 세포의 발달 과정을 추적할 수도 있고, 세포 간 상호작용도 이해할 수 있습니다. 최근에는 공간 전사체 분석 기술이 등장하여 세포들의 위치정보까지 고려하여 세포 간 상호작용을 보다 정밀도 높게 파악하려는 노력도 이어지고 있습니다.
논문 1)에서는 scRNA-seq 기술을 '개별 세포 수준에서 유전자 발현의 이질성(heterogeneity)과 역학 관계(dynamics)를 파악할 수 있는 기술'이라고 묘사합니다. scRNA-seq 이전에도 세포에서 유래한 전사체(transcriptome)를 대상으로 조건별 유전자 발현의 차이를 분석할 수 있는 Bulk RNA-seq이 등장했었는데요. 그렇지만 이는 해당 유전자가 어떤 세포에서 유래했는지 알지 못해 세포 간 이질성(cellular heterogeneity)을 파악할 수 없다는 한계가 있었습니다. 반면, scRNA-seq은 세포 간 이질성을 파악할 수 있기에 특정 질병 조건에서 어떤 세포 유형이 어느 시점에 어떤 문제를 일으키는지를 파악할 수 있는 것은 물론, '희소 세포 집단(rare population)'의 정체성(identity)을 파악할 수 있다는 장점이 있습니다. 예로, scRNA-seq을 활용하면 다른 세포 군집에 비해 작은 집단(small population)에 속하는 암세포 유형의 특징적인 돌연변이(mutation)를 파악할 수 있습니다. 낮은 발현을 갖는 암세포의 비정상적인 유전자는 전체 전사체에서 상대적으로 높은 변동성을 갖지 못하기에 Bulk RNA-seq에선 포착하긴 어렵기 때문이죠. 물론, FACs와 같은 기술로 특정한 세포유형을 분리한 뒤, 분리한 특정 세포유형을 대상으로 Bulk RNA-seq을 한다면 특정 세포유형에서 유래한 유전자의 발현 패턴을 포착할 순 있습니다.

보통 Bulk RNA-seq은 스무디, scRNA-seq은 화채에 비유하곤 하는데요. 스무디와 화채의 차이는 먹었을 때 그 맛이 어떤지는 두 음식 모두 알 수 있지만, 그 맛이 어떤 과일에서 유래했는지는 스무디에선 알기 어렵고(물론 스무디가 어떤 과일로 만들어져있는지 써있고 그 과일의 맛이 특징적이라면 알 순 있겠네요), 화채에선 알 수 있다는 점이죠. 이를 통해 우리는 화채에서 이상한 맛을 내는 특정 과일을 찾아낼 수 있습니다. 당연히 스무디에선 불가하죠.
그렇지만 어떤 것이든 장단점이 있듯이 scRNA-seq도 단점 즉, 한계가 있습니다. 대표적인 한계는 다음과 같습니다.
한계 1. Low Library Size
: 뒤에서 설명하겠지만, scRNA-seq은 단일 세포에서 유래한 mRNA를 캡쳐하고 cDNA(complementary DNA)로 역전사한 뒤 cDNA를 증폭하여 단일세포의 전사체적 특징을 파악합니다. 문제는 단일세포는 매우 제한된 양의 RNA를 갖는다는 점인데요. 그보다 더 큰 문제는 RNA를 캡쳐할 때와 RNA를 cDNA로 합성할 때의 효율이 완벽하지 않다는 점입니다. 따라서 실제 시퀀싱에 반영되는 분자 수는 줄어들기에, 시퀀싱 결과가 실제 세포에서의 전체적인 전사체적 특징을 반영하지 못할 수 있다는 한계가 있습니다. 이외에도 실험을 할때마다 각 절차(RNA 캡처, cDNA 합성 및 증폭 등)의 효율이 달라질 수 있기에 기술적인 변이인 '배치 효과'가 발생하게 되는데요. 이에 대해선 뒤에서 자세히 설명하겠습니다.
한계 2. High Noise Level
: scRNA-seq에서 얻어진 샘플의 양(세포 수)이 적다면 해당 샘플이 각 셀 혹은 각 상태에서 관측되는 발현량 분포를 충분히 대표하지 못할 수 있습니다. 이러한 상황에서 무작위로 일부만 추출하여 분석(샘플링)하게 되면, '진짜' 생물학적 차이(시그널)만 반영하는 것이 아니라, 샘플링 과정에서 우연히 발생하는 변동(통계적 변동)도 크게 반영될 수 있습니다. 즉, 세포마다 측정된 발현량의 개인차나 실험 오차 등 무작위 변동이 전체 결과에 상대적으로 크게 작용할 위험이 있습니다. 이로 인해 진짜 생물학적 변화로 인한 차이와 샘플링 때문에 발생한 우연적 차이를 구분하기 어려워지고, 결과적으로 '노이즈'가 증가한 것처럼 보이게 될 수 있습니다. 따라서 저희는 기술적 변이로 인한 '노이즈'를 적절하게 제거할 필요가 있습니다.
한계 3. Dropout Events
: 발현량이 낮은 유전자들의 RNA 캡쳐 수율은 낮을 수 밖에 없습니다. 따라서 해당 세포에 존재하는 유전자의 전사체가 캡쳐되지 못해 시퀀싱 결과에 나타나지 않을 수 있습니다. 이럴 경우 '가짜 0값(fake zero)'을 초래하게 되는데요, 이러한 현상을 '드롭아웃(dropout)'이라고 합니다. 0은 죽어버린 정보입니다. 더 이상 복구할 수가 없습니다. 그렇다면, 앞서말한 희소한 암 세포 유형의 낮은 발현량을 갖으면서 핵심적 역할을 하는 비정상적인 유전자의 발현을 포착하지 못할 수 있습니다.
결국 scRNA-seq 기술은 기술적 한계로 인해 세포 내의 전사체(transcriptome)를 모두 캡쳐해서 분석하지 못합니다. 그렇지 않아도 단일세포의 RNA 양은 적은데 말이죠. 심지어 RNA 자체도 무조건 단백질로 번역되어 우리 몸에서 기능하리란 법은 없습니다. 그저 아직 세포보다 작은 로봇이 세포 속의 DNA에서 어떤 RNA가 만들어지고, 해당 RNA가 어떤 단백질을 합성하며, 그 단백질들이 어떤 기능을 하고 있는지 확인하지 못한다는게 아쉬울 따름입니다.

결국 우리는 진짜를 보는 것이 아닌 진짜를 통계적으로 추정할 뿐입니다. 또한 캡처 수율과 cDNA 합성·증폭 수준 등이 실험자나 실험 장치에 따라 달라질 수 있어, 이로 인한 기술적 차이가 실제 생물학적 변화로 인한 차이로 오인될 가능성이 있습니다. 그럼에도 scRNA-seq은 조건별 특정 조직(tissue)에서의 세포 간 이질성을 파악할 수 있다는 점에 큰 장점이 있기에 최근 전세계적으로 주목 받는 생물 정보학 기술입니다. 그만큼 연구자들은 이러한 한계를 인식하고, 한계를 극복하기 위한 여러 신박한 데이터 전처리 툴들을 개발해왔습니다. 어떻게 본 한계를 극복하고자 했는지는 뒤에서 설명하도록 하겠습니다.
그럼 이제 이번 글의 주인공인 scRNA-seq 기술의 프로세스에 대해 정리해보도록 하겠습니다. 참고로 본 내용은 딥리서치의 답변, 작년에 개제된 논문 'The Workflow for Computational Analysis of Single-cell RNA-sequencing Data 1)' 등을 참고하였으며, 정확하지 않은 내용이 있을 수 있으니 유의 바랍니다. 오류를 발견하셨다면 언제든 댓글이나 메일로 알려주세요!
E-mail : tkm1214@naver.com
참고로, 본 내용은 10X genomics의 droplet-based 방법과 Seurat 패키지를 기준으로 작성하였습니다.
1. Data Preparation (샘플 준비)
일을 시작하려면 준비물을 잘 준비해야겠죠. 첫번째 단계는 바로 scRNA-seq을 위한 샘플을 준비하는 단계로, '고품질의 단일 세포 현탄액(single cell suspension)'을 준비해야 합니다. 조직 시료의 경우엔 트립신(protease)과 같은 효소 처리 등으로 세포를 분리하는데요. 여기서 트립신은 단백질 분해효소(protease)로서 세포부착단백질(ex. cadherin, integrin)을 분해하고, ECM(세포외기질)으로부터 세포를 떼어냄으로써 세포들을 분리합니다. 이외에도 세포부착단백질인 cadherin의 칼슘의존적 결합을 약화시키는 EDTA도 추가로 넣어주기도 합니다. 단일 세포 현탄액을 만들기 위해 조직 시료에 트립신을 넣어줄 때는 넣어주는 양을 적절하게 조절해야 합니다. 트립신을 너무 적게 넣어주면 분리가 잘 안되어 뒤에서 설명할 더블렛(doublet)이 많이 등장할 위험이 있고, 그렇다고 너무 고농도로 넣어주면 세포 수율(cell recovery)이 낮아질 위험이 있기 때문이죠.
세포 생존율은 scRNA-seq 분석 결과에 영향을 줄 수 있습니다. 보통 실험에 있어 90%가 넘는 세포 생존율(cell viability)을 유지하는 것이 권장된다고 하죠. 이때 세포를 오래 방치하면 생존율이 급격히 떨어지기에 세포 현탄액은 준비 후 30분 이내에 다음 단계로 진행하는 것이 바람직하다고 합니다(불가피하게 오래 방치해야 할 경우엔 동결보존을 해야할 듯 합니다).
준비된 단일 세포들은 일정한 농도로 희석하여 10X Genomics의 droplet-based microfluidic 장치에 로딩합니다. 이때 사용하는 10X Genomics Chromium 플랫폼에서는 '세포 현탄액 + 라이브러리 제작을 위한 효소 '와 '바코드 비드(beads)'를 함께 유체칩에 로딩하여 피코리터 규모의 유체 방울(droplet) 안에 한 개의 세포와 한 개의 바코드 비드, 그리고 효소(ex. 역전사효소) 등이 포획되도록 합니다. 결국 각 유체 방울은 단일 세포를 포함하게 되고(세포를 포함하지 못하거나 두개의 세포를 포함할 가능성도 물론 있습니다), 이후 단계에서 이 방울 내에서 그 세포를 용해(lysis)하여 그 세포의 mRNA 정보만을 선택적으로 캡처합니다. 논문 1)에서는 유체 방울을 '세포 용해'와 '라이브러리 생성'이 이루어지는 'individual reaction chamber'로 묘사합니다.
2. Library Preparation (라이브러리 제작)

10X Genomics의 Microfluidic 장치에서는 'Gel Beads in Emulsion (GEM)' 기술을 활용하여 세포를 개별 유체 방울(droplet) 안에 비드와 함께 캡쳐합니다. 이때 유체 방울 내부에는 lysis buffer가 포함되어 있어서 세포가 캡처된 직후 화학적(계면활성제 기반) 용해 과정을 통해 세포막이 파괴되고, 그 안에 들어있는 RNA가 방출됩니다. 그렇게 방출된 RNA는 바로 드롭릿(유체 방울) 내의 gel bead에 상보적으로 결합합니다.
그렇다면 여기서 lysis buffer는 어디에서 등장한 걸까요? 10X genomics의 실험 프로토콜(Single Cell Gene Expression LT Protocol v3.1)을 보면, Microfuldic 장치의 칩에 single cell suspension와 lysis buffer가 들어간 Master mix를 한 튜브에서 가볍게 파이펫팅 해준 뒤, 특정 well에 주입해주는데요. 이게 한 튜브 내에서 이미 섞이는데 유체방울 내에 들어가기전에 용해되버리는 건 아닌가 싶었는데요. 챗GPT한테 물어보니까 이 실험에 사용하는 lysis buffer가 즉각적이고 강한 lysis buffer가 아니라서 온도가 올라가는 RT 반응(역전사 반응) 단계에서 본격적으로 용해 및 역전사가 이뤄지도록 설계되어 있다고 하더군요. 결국 드롭릿에 세포, 젤 비드, 역전사 효소, lysis 버퍼가 들어간 뒤에 RT 반응을 개시할 때 세포 용해 및 역전사가 이루어지는 것이었습니다.
참고로 bead 표면에는 폴리(T) 서열(Oligo dT)이 붙은 프라이머가 코딩되어 있는데요. 여기에 mRNA 3' 말단의 폴리(A) 꼬리가 상보적으로 결합하게 되는 것이죠. 이외에도 bead 표면엔 '고유한 셀 바코드(Cell Barcode)'와 '고유 분자 식별자(UMI, Unique Molecular Identifier)' 서열도 함께 포함되어 있습니다. Cell barcode는 각 세포마다 고유한 서열 태그(약 16bp)로 각 비드마다 모두 다르고, 한 비드에 포함된 여러 프라이머들 사이에선 모두 같은데요. 그럼으로써 각 세포를 구분할 수 있게 해줍니다. 정상적인 경우라면 하나의 비드에 하나의 세포의 RNA만 캡처될테니까요(하나의 유체 방울엔 하나의 비드와 하나의 세포만 들어가니까) .

UMI는 비드 내 프라이머들끼리도 고유하게 달라서 차후 총 RNA 카운트를 정량화하는데 활용됩니다. 또한, UMI는 하나의 mRNA를 cDNA로 역전사한 뒤, 다수의 amplicon을 만들었을 때 그 복사본들이 복사본임을 알려주는 즉, 중복을 구별하는 역할도 합니다. 증폭 과정에서 만들어진 cDNA의 UMI는 모두 같을테니까요. 참고로, 위의 이미지에서 보듯 primer, cell barcode, UMI 다음으로 이어지는건 cDNA로 이후 추가적인 과정을 통해 이 조각(primer, cell barcode, UMI, cDNA 포함)이 비드에서 떨어져 나갑니다. 결국 cDNA에 식별할 수 있는 표지들이 따라 붙게 되는 것이죠. 이러한 바코딩 전략 덕분에 여러 세포로부터 얻은 cDNA 조각들을 한번에 풀링하여 라이브러리를 구성할 수 있고, 이후 시퀀싱 데이터에서도 세포별로 구분된 발현 정보 행렬(cell by genes matirics)를 구축할 수 있습니다.
10X 라이브러리 준비의 마지막 단계에서는 바코드가 포함된 cDNA 단편들을 모아 증폭 및 샘플 구별을 위한 인덱싱을 수행하여 최종 시퀀싱 라이브러리(sequencing library)를 얻게 됩니다. 앞선 절차에 대한 영상은 다음과 같습니다.
시퀀싱 전 부가적인 과정을 좀더 설명하자면, GEM 생성 후에 깨뜨리고 나서 cDNA 증폭 전, 증폭 후 각각 Dynabeads와 SPRIselect reagent를 넣어준뒤 마그넷을 활용해 샘플의 cDNA를 회수 및 정제(purification)해주더군요 3). 이렇게 GEM으로부터 회수하고 정제한 cDNA 단편들을 대상으로 시퀀서에 돌리기 전 라이브러리 구축 단계에 해주어야 하는 또 다른 절차가 있습니다. 바로 Fragmentation, End Repair & A-tailing, Adapter Ligation, 그리고 Index PCR입니다. 그리고 그 중간 중간에도 SPRIselect reagent로 정제를 진행합니다. 여기서 Fragmention은 Illumina 시퀀서에서 읽을 수 있는 사이즈로 cDNA 단편들을 파편화하는 단계이고, End Repair와 A-tailing은 Index가 각 단편들에 붙일 수 있도록 처리하는 단계입니다. 먼저 End Repair는 cDNA 조각의 끝이 불규칙하게 형성된 경우, 이를 균일한 blund end(매끈한 끝)으로 수정하는 단계인데요. cDNA 조각의 끝이 불규칙하게 형성된다는 말은 역전사나 cDNA 증폭 과정에서 절단 위치가 정확하지 않아 조각의 말단에 돌출(overhand)되거나, 끊긴 부분이 생기는 등 일정하지 않은 형태의 끝(5' 혹은 3' overhang)이 생기는 것을 의미합니다. 아래 왼쪽 이미지에서 검정색 막대기를 보면 됩니다.
이러한 불규칙한 끝 구조는 시퀀싱을 위한 후속 처리에서 문제를 일으킬 수 있기에, 다음 단계 전에 균일한 blunt end로 수정합니다. 그렇게 균일한 blunt end로 처리하게 되면 그 단편의 3' 말단에 단일 A(adenine) 염기를 첨가하는 과정이 진행됩니다. 이 과정을 'A-tailing'이라고 하며, Adapter Ligation을 위해 필요한 절차로 볼 수 있겠습니다. A-tailing으로 생성된 A-overhang은 아래 이미지에서 보듯 adapter의 T-overhang과 상보적으로 결합하여 Adapter Ligation이 효율적으로 이루어지도록 합니다.

참고로, 어댑터의 T-overhang과 cDNA 단편의 A-overhang은 DNA ligase라는 효소에 의해 연결되며, adapter는 시퀀싱 플랫폼에 맞춘 서열 정보(ex. 프라이머 결합 부위, 바코드 등)를 포함하고 있어 이후 PCR 증폭과 시퀀싱을 가능하게 합니다. adpater까지 붙였으면, 제한된 사이클 수의 PCR를 수행하여 adapter가 결합된 라이브러리를 증폭하는데요. adapter에는 인덱스 서열이 포함되어 있습니다. 이때 인덱스는 샘플 구분을 위한 인덱스로, 각 샘플에 고유한 인덱스를 삽입함으로써 여러 샘플을 하나의 시퀀싱 런에 병합(multiplexing)할 수 있도록 합니다. 시퀀싱 런 이후에 해당 인덱스를 확인하여 디멀티플렉싱(demultiplexing)을 통해 샘플을 구분하면 되니까요. 여러 개의 구분 표지들이 등장해서 살짝 헷갈릴 수 있을텐데요. 앞서 비드에서의 cell barcode는 각 cDNA 분자가 어떤 세포에서 유래했는지 알려주는 표지이고, UMI는 각 cDNA 분자를 구분해주는 표지이고, index는 시퀀싱 후에 어떤 샘플에서 유래했는지 알려주는 표지라고 볼 수 있겠습니다. 중요한 점은 각각의 표지가 구분만 가능하면 된다는 것입니다. 즉, 특정 세포, 특정 RNA, 특정 샘플에 대해 꼭 특정한 표지를 매칭시킬 필요는 없다고 볼 수 있겠습니다. 그렇지만, 같은 표지를 사용하면 안되니 어떤 표지를 사용했는지는 알아야하겠죠. 이제 시퀀싱을 위한 준비 절차를 마쳤습니다.
3. Sequencing
앞의 방식으로 구축된 단일세포 cDNA 라이브러리는 일반적으로 Illumina 플랫폼에서 페어엔드(pair-end) 시퀀싱으로 읽혀집니다. 페어엔드란 말 그대로 cDNA 조각의 서열 양쪽 끝을 일정 bp만큼 읽는다는 의미로, cDNA 조각의 전체 서열을 읽는 것은 기술적 한계와 효율적이지 못하다는 특징이 있기에 이렇게 양쪽 끝만 읽는다고 볼 수 있겠습니다. 참고로 10X Genomics의 3' 발현 라이브러리의 경우엔 Read1은 비교적 짧게(ex. 26bp) 시퀀싱하여 cell barcode와 UMI 정보를 담고, Read2는 더 길게(ex. 90~100bp) 읽어서 실제 전사체(cDNA) 서열을 담는데요. 시퀀싱 장비에서 Read1과 Read2의 서열을 동시에 읽어냅니다(Bridge Amplificiation을 통해 플로우셀 표면에 하나의 cDNA 단편을 서로 다른 방향으로 합성했으니까요). 더 놀라운 건 샘플 내 몇 천개 되는 세포에서 유래한 전사체들의 서열을 하나씩이 아닌 동시에 읽는다는 것입니다. 그렇다면, 일루미나 시퀀싱 장비는 어떻게 해서 여러 cDNA의 서열들을 페어엔드 방식으로 동시에 읽어낼 수 있는 걸까요? 그리고 나머지 표지인 index는 어떻게 구분하여 읽는걸까요? 다음 영상을 확인하시면 됩니다.
요약하자면, illumina sequencing은 'Bridge Amplification'과 'Sequencing by Synthesis'를 특징으로 합니다. 앞서 DNA 단편들 양쪽에 Adapter 서열을 붙였었죠. 이후 시퀀싱 장비의 플로우 셀(flow cell)에 준비를 한 DNA 단편들을 풀링합니다. 플로우 셀에는 adapter 서열(5' 어댑터, 3' 어댑터 각각 모두)을 인식하는 두 종류의 올리고뉴클레오타이드가 붙어있는데요. 여기서 adapter 서열은 샘플을 구분하는 index 서열 외에도 NGS 장비의 특정 서열에 붙을 수 있는 부위(sequencer binding site)와 프라이머 결합 부위(primer binding site)를 포함하고 있습니다. 해당 구조에 대한 설명은 아래 영상을 참고하시면 됩니다.
다시 한번 흐름을 설명하자면, 먼저 플로우 셀에 결합된 올리고뉴클레오타이드에 adapter 서열의 시퀀서 결합 부위(sequencing binding site)가 상보적 결합을 하게 됩니다. adapter 서열의 다른 일부는 앞서 설명했듯 '프라이머 결합 부위'였죠. 프라이머는 DNA 중합소에 의한 DNA 복제를 시작할 수 있도록 해줍니다. 그렇게 해당 프라이머 결합 부위에 프라이머가 붙게 되고, DNA 중합효소에 의해 cDNA 합성이 이루어집니다.
이후 플로우셀 표면의 올리고뉴클레오타이드에 상보적으로 결합했던 원래의 cDNA는 제거되고, 그로부터 본 장비에서 새로 합성된 cDNA 단편만 남게 됩니다. 다음으로 새로 합성된 cDNA 단편은 브리지(bridge) 형태로 구부러져 또 다른 플로우셀 표면의 올리고뉴클레오타이드와 상보적으로 결합합니다. 다른 끝 부분에도 어댑터가 있으니까요. 이 상태에서 다시 한 번 DNA 합성이 일어나, 하나의 cDNA로부터 두 개의 합성된 DNA 단편이 생성됩니다. 이러한 과정이 반복되면서 하나의 cDNA로부터 다수의 DNA 단편이 증폭되며, cDNA마다 클러스터를 이루게 됩니다.

이러한 합성과정을 'Bridge Amplification'이라고 합니다. 그에 대한 영상을 간단하게 만들어봤습니다.
bridge amplification을 통해 각각의 cDNA가 클러스터를 형성할 수 있었습니다. 클러스터를 형성한 이유는 신호를 더 명확히 탐지하기 위해서라고 할 수 있겠습니다. 이때, 각 cDNA 단편들마다 페어엔드로 형성되기에 시퀀서 장비에 풀링한 수 만개가 되는 cDNA 단편들 각각 클러스터를 형성하게 됩니다. 즉, 시퀀서 장비에는 수 많은 클러스터가 존재하게 되는 것이죠(위의 영상 참조). 이때 클러스터의 염기서열 신호를 탐지하기 위해 각 클러스터에 존재하는 동일 서열 DNA 가닥에 대해 염기서열을 하나하나 합성해가며 읽어어가는 'sequencing by synthesis' 절차를 진행합니다. 시퀀싱에 사용되는 뉴클레오타이드는 일반 dNTP(디옥시리보뉴클레오타이드)가 아닌 ddNTP(디디옥시리보뉴클레오타이드)로, 형광 표지가 달려 있으면서 합성이 일어나면 더 이상 신장되지 않도록 막아놓은 구조를 가집니다. 그렇게 뉴클레오타이드가 1개 결합되어 합성이 멈춘 상태에서 레이저 등의 광학 장비를 통해 각 클러스터에서 발생하는 형광 신호를 촬영합니다. 이때, A, T, G, C 각각의 형광 색이 구분되도록 디자인 되어 있어 특정 클러스터가 어떤 염기를 사용했는지 판독할 수 있습니다(물론 다른 방법으로 구분하는 경우도 있었던 것 같습니다). 이렇게 한 염기씩 단계적으로 읽어가며(카메라로 플로우셀 전체를 스캔해가며), 각 클러스터에 존재하는 cDNA 단편들의 염기서열을 읽을 수 있게 됩니다.
여러 클러스터들을 동시에 해독할 수 있게 됩니다. 추가로, index 서열도 위의 영상에서 보듯 index에 맞는 프라이머가 붙어 서열을 읽게 됩니다. 그만큼 어떤 index를 사용했는지 기억하고 그에 맞는 프라이머를 넣어주어야 겠죠. 이러한 illumina의 핵심 기술은 현재 차세대 염기서열 분석(NGS) 분야에서 매우 널리 쓰이는 표준 방식이 되었습니다.
시퀀싱을 진행할 때 권장되는 시퀀싱 깊이(sequencing depth)는 세포 당 최소 약 20,000 read pairs라고 합니다. 이는 세포 하나에서 약 2만 개의 페어엔드 읽기(read 1 / read 2 한 쌍이니까 실제론 4만개 리드 읽기)를 확보한다는 의미입니다. 물론 세포 내 발현 유전자의 다양성을 더 잘 포착하기 위해 세포당 50,000 read 이상으로 더 깊게 시퀀싱하는 경우도 많다고 하며, 이는 세포의 종류(ex. mRNA 함량)와 실험 목표에 따라 달라질 수 있습니다. 만약 mRNA양이 많은 세포주라면 5만 read/cell로 시퀀싱을 해도 시퀀싱 포화도가 30~50%에 불과할 수 있습니다. 물론 그만큼으로도 주요 세포 아형 구별엔 충분할 수 있으나, 희귀 유전자까지 모두 검출하고 싶으면 더 높은 포화도(~90%)에 도달하도록 깊이를 늘려야 한다고 합니다. 그렇게 실험 예산과 목표를 고려하여 적절한 시퀀싱 플랫폼과 런 유형을 선택해 시퀀싱을 마치고 나면, 10X Genomics의 Cell ranger 파이프라인 등을 통해 원시 데이터로부터 세포별 발현 행렬(cell by genes matrics)을 얻을 수 있습니다.
구구절절 설명하긴 했는데, 보통 실험실에서 샘플에 대해 직접 라이브러리를 제작하고 시퀀싱을 하기보다 업체에 맡겨서 '세포별 발현 행렬(cell by genes matrics)'을 얻는 경우가 많은 듯 합니다. 손을 탈 수가 있으니까요. 물론, 이 부분은 실험실마다 다를 것 같습니다. 이제 조직 샘플로부터 얻은 시퀀싱 데이터를 전처리를 해야할 시간입니다. 글이 길어져서 한번 끊고 가겠습니다. 감사합니다!
[45일차] single cell RNA sequencing 기술 프로세스 정리 02 :: 시퀀싱 데이터 전처리 및 다운스트림 분석
안녕하세요, 이번 글에서는 저번 글에 이어 단일세포 전사체 분석 기술의 프로세스를 정리해보도록 하겠습니다. [44일차] 단일세포 전사체 분석 기술 개요 및 프로세스 정리 01 :: sequencing libra
tkmstudy.tistory.com
- 참고자료
1) Sung-Hun WOO, Byung Chul JUNG. The Workflow for Computational Analysis of Single-cell RNA-sequencing Data. Korean J Clin Lab Sci 2024;56:10-20
2) 챗GPT, 딥리서치
3) 10X Genomics, Chromium Next GEM Single Cell 3ʹ LT Reagent Kits v3.1 (Dual Index)