RNA-Seq前处理:mRNA富集还是rRNA去除?
在过去的十年中,RNA测序(RNA-seq)成为差异基因表达、mRNA差异剪接等研究场景不可或缺的重要手段。随着高通量测序技术的不断发展,RNA-seq的研究技术、分析方法也在不断发展。现在RNA-seq用于研究RNA相关的各方面生物学问题,包括单细胞基因表达、RNA翻译、RNA结构、空间转录学、全转录组、RNA-蛋白互作等。对于RNA-seq我们需要决定是否以及如何去富集感兴趣的RNA。总RNA中含有大量的核糖体 RNA (rRNA),约占总RNA 80 – 98%的比例。对绝大多数 RNA-Seq 应用来说,需要去除 rRNA 或富集mRNA,以将测序资源集中在转录组所需的部分并节省成本。
除核糖体 RNA 外,样本还可能含有其他丰富的转录本,例如,血液样本中的珠蛋白 mRNA 可占所有 mRNA 分子的 30 – 80%。如果不除去这些占比很大的globin mRNA,我们测序所获得的大部分reads数将来自这些不需要的 RNA 种类,它们既占用了宝贵的测序空间并限制了测序的样本量。对于富集所需 RNA 或去除不需要的 RNA的方法,我们将在本章中讨论这些方法。
1. Poly(A) 富集
RNA-Seq 中最常用的预处理方法是 poly(A) 分选。Poly(A) 分选用于从总 RNA中“捕获”聚腺苷酸化的 RNA 种类。从而富集成熟的编码 mRNA,为 mRNA-Seq 工作流程提供基础。在此过程中,首先对 RNA 进行变性以去除二级结构并使 poly(A) 尾与磁珠表面上修饰的Oligo(dT) 分子杂交。杂交后,除去无聚腺苷酸化的RNA。磁珠清洗,然后通过提高温度实现mRNA的洗脱(图 2)。
在poly(A)分选的过程中,由于绝大多数的rRNA分子无poly(A)结构,因此可以除去这些 rRNA 分子。通常只会有约 2 – 5% 的reads数mapped到线粒体 rRNA,因为这些线粒体rRNA有 poly(A) 尾并被共同捕获出来。
Poly(A) 富集是一种非常经济高效且快速的预处理方法,可以选择主要编码蛋白质的 mRNA。它可用于所有具有 poly(A) 尾 RNA 的物种(真核生物),以去除不需要的 rRNA 并将测序数据集中在 mRNA 上。
然而,poly(A) 富集有两个主要缺点:
➊首先,它只能用于具有poly(A)-尾RNAs的物种。因此,它仅限于真核生物,不能用于原核生物。然而,真核生物也拥有我们感兴趣的缺少 poly(A) 尾的转录本。它们在 poly(A) 选择过程中,也将与 rRNA 一起被移除。这些转录本包括 microRNA、小核仁 RNA (snoRNA)、转运 RNA (tRNA)、一些长非编码 RNA (lncRNA),甚至是蛋白质编码 mRNA,例如组蛋白 mRNA。因此,对这些类型的 RNA 或原核生物,研究人员通常利用 rRNA 去除而不是 poly(A) 选择。
➋其次,poly(A) 富集需要高质量的 RNA (RIN / RQN > 8)。降解导致转录本的断裂,并且由于对 poly(A) 尾的选择,3' 端被富集,而5' 序列则会丢失,导致对降解的 RNA 样本作为起始材料测序结果会产生强烈的 3' 偏好性。因此,rRNA耗尽或 3' mRNA-Seq 是处理降解 RNA 的首选方法。
2. 文库制备过程中的 Poly(A) 富集
还可以通过在逆转录过程中使用 oligo(dT)在文库制备过程中选择聚腺苷酸化的转录本。通过oligo(dT)进行反转录,cDNA 主要从 mRNA 的 poly(A) 尾部的 3' UTR 开始生成。这消除了通过上述基于磁珠的方法选择poly (A) 的要求。因此,该原理通常用于 3' mRNA-Seq 流程,例如QuantSeq。3'-Seq 的完整工作流程得到了有效缩短,并且由于专注于 3' 末端,它也适用于降解的 RNA。
也可以通过 oligo(dT) 反转录产生全长 cDNA。对于这些流程,逆转录反应针对长片段的生成进行了优化,并且 5' 端通常通过依赖帽的捕获方法或模板置换进行富集。
3. 酶促法去除高丰度转录本——双链特异性核酸酶 (DSN) 处理
双链特异性核酸酶 (DSN) 是一种从堪察加蟹(Kamchatka crab)中分离的一种热稳定核酸酶。该酶对双链 DNA (dsDNA) 具有很强的亲和力,可有效切割,而对单链 DNA (ssDNA) 的酶活性有限。DSN 已用于生命科学领域DNA 拷贝数的均一化,另外,它不仅用于下一代测序 (NGS) 中(1,2),还用于低拷贝数 DNA 的法医分析。
RNA-Seq 实验中不同的 DNA 拷贝数主要是由两个因素的引起的:
➊细胞中转录本的表达水平在几个数量级之间变化:一些转录本可以以每个细胞超过 10,000 个拷贝的方式存在,但其他转录本可能仅以非常低的水平表达,只有 1-2 个拷贝。
总 RNA 样本中最丰富的转录本是 rRNA、tRNA 和管家基因mRNA。此外,组织或样本特异性的过量转录本也属于这一类。
➋ PCR 扩增偏差会导致某些分子的优先扩增,而其他分子的扩增不足,因此也可能成为拷贝数变异的来源。
DSN处理如何去除高风度序列?
在 RNA-Seq 中,DSN 处理可用于部分均一化反映转录本动态范围的cDNA 浓度。这是通过去除高丰度转录本来实现的。DSN 处理通常在 cDNA 第一和第二链合成后进行。当然,当 RNA 模板尚未去除时,也可以在第一链合成后使用 DSN。
DSN 反应利用新合成的 cDNA 分子的杂交特性(图 2)。cDNA 合成后,在反应再次冷却之前,通过在高温下短暂孵育使分子变性。降低温度后,互补的 cDNA 链会重新退火(这个过程称为复性)。由于浓度更高,因此与互补链相互作用的机会更高,因此与低丰度 cDNA 相比,丰富的 cDNA 链重新退火更快、更有效。因此,大多数双链 cDNA 将来自丰富的转录本,而来自中等和低表达转录本的 cDNA 将保持单链。然后通过 DSN 切割双链 cDNA 部分,从而去除所有高丰度的序列,整个pool中的分子被均一化到相似的浓度水平。最后,剩余的 cDNA 分子在 PCR 反应中被扩增以生成可测序的文库(图 2)。
图2 | 使用双链特异性核酸酶 (DSN) 处理酶法去除丰富的序列
DSN 处理应用广泛,特别是用于注释的测序流程,DSN处理被普遍使用。它可用于从特征较少的物种中获取转录组信息,这些物种无法使用使特定探针进行靶向去除高丰度转录本的方法,以及不具有 poly(A) 尾而无法通过 poly(A) 选择富集 mRNA 的物种(3) . 因此,一些 RNA-Seq 试剂盒及常用的去除方法在其工作流程中会使用 DSN 处理。
这种方法的主要缺点是去除是非特异性的,并且针对任何高丰度的序列。如果您感兴趣的转录本属于较高拷贝数类别,则它也可能会受到 DSN 介导的降解。此外,当需要定量信息来评估转录本表达水平的变化时,应特别慎用。根据使用的input量,DSN 处理可能会使浓度均一化,从而无法正确量化表达水平的变化。
4. 基于探针的去除技术
与上述丰富序列的非特异性去除相反,基于探针的去除方法提供了专门针对不需要的序列进行去除的优势。这将目标序列的脱靶移除所造成的附带损害降到最低,并保持了转录本表达模式。这种方法的缺点是它需要对感兴趣的生物体要有足够的认知以设计用于特定序列耗尽的探针序列。基于探针的去除最常用于去除 rRNA 转录本。然而,也可以针对其他丰富的序列进行消耗。我们将在下一节中介绍各种基于探针的技术。
杂交/捕获技术
基于杂交/捕获的去除方法使用一组专门针对 rRNA 序列的亲和探针。探针的数量和位置取决于目标物种的数量、目标组中核糖体 RNA 序列的复杂性以及靶向降解 RNA 的兼容性。为了有效去除降解样品中的 rRNA,目标序列上的探针密度需要更高,因为目标区域的断裂会损害探针在高温下的杂交。探针包含亲和标签,允许使用具有相应结合位点的磁珠进行捕获。因此,探针混合物中包含的探针数量与用于捕获的珠子的结合能力密切相关。增加探针分子的数量,例如,通过使用非常高密度的探针或针对一大群不同的物种为靶标的探针,可能会对去除效率产生反作用,因为它可能会导致磁珠超载。为确保最佳结果,杂交/捕获方法的探针和捕获磁珠应以最佳比例滴定
在第一步中,亲和探针与总 RNA 混合并变性,从而促进探针接近高度结构化的目标序列。杂交在高温下进行,以确保特异性结合并最大限度地减少不希望的脱靶去除效应。捕获磁珠用于从溶液中去除与核糖体 RNA 杂交的探针。最后的纯化步骤去除所有反应成分并回收剩余的 RNA 用于下游应用(图 3)。启衡星生物可以提供任意物种的rRNA去除试剂盒!
图 3 | 使用杂交/捕获的特定探针去除 rRNA。该工作流程改编自Lexogen 的 RiboCop Depletion Kits
杂交/捕获方法不依赖于酶促反应,因此这些方法保留完整的全长转录本以供下游应用。它们特别适用于具有挑战性的应用,例如 RiboSeq 4,并最大限度地减少非特异性 RNA 降解。
在 Lexogen,我们的目标是通过将选择和去除试剂盒与我们创新的文库制备相结合,提供完整的工作流程解决方案。要了解有关我们解决方案的更多信息,可阅读我们微信公众号的相关文章。
RNase H 介导的消耗
RNase H 是一种核糖核酸内切酶,可特异性切割 RNA:DNA 双链体中的 RNA 分子,同时保持 DNA 分子的完整性。它通常用于基于探针法的去除流程,属于特定的酶介导消耗类别。这种去除方法使用与目标分子(通常是 rRNA 和/或珠蛋白 mRNA)杂交的特定 DNA 探针。反应中使用的探针的密度可以变化。通过使用部分重叠或所谓的“平铺式”的探针,甚至可以多次覆盖完整的转录本。对于使用RNase H去除 rRNA ,DNA 探针在高的温度下与 rRNA 杂交。探针结合后,将反应与RNase H一起孵育,RNase H可特异性降解 rRNA。
根据工作流程,也可以使用RNase H (Hybridase™)的热稳定变体,并在 65 °C 或更高的温度下孵育反应。这可以最大限度地减少非特异性杂交(低温孵育反应)来提高耗尽反应的严格性。
RNase H处理后,与DNase孵育反应,去除寡核苷酸探针,然后对反应进行纯化,去除所有酶和反应成分,洗脱留下的RNA样本(图4)。
图 4 | 使用特定探针进行 RNase H 介导的 rRNA 消耗
基于RNase H的降解被广泛使用,因为反应组分和寡核苷酸价格便宜,而且它们的探针数量可以增加以覆盖许多物种。然而,该方法基于降解的性质带来了非特异性去除珍贵转录本的风险,也使其不适用于某些应用。例如,依赖于在耗尽之前添加 DNA 接头的 RNA-Seq 工作流程不应进行RNase H / DNase I 处理,因为这也会降解 RNA-DNA 融合分子。最近的研究结果表明,基于RNase H的方法可能不适合具有挑战性的应用,例如 RiboSeq 4。
CRISPR和 Cas(CRISPR 相关)核酸酶,如 Cas9,近年来作为“基因剪刀”广受欢迎。该系统彻底改变了基因组编辑,具有广泛的应用范围,从提供基本的分子生物学研究工具到个性化医疗解决方案。EmmanuelleCharpentier 和 JenniferDoudna 5, 6的开创性发现获得了 2020 年的诺贝尔化学奖。
天然 CRISPR-Cas 系统在细菌适应性免疫中发挥作用,可在不损害细菌基因组的情况下去除进入的噬菌体 DNA。该机制涉及 Cas 核酸酶对外源 DNA 的特异性切割。从 CRISPR 基因座转录的特定引导 RNA 与 Cas 核酸酶结合,并将酶引导至互补的靶 DNA,然后通过 Cas 介导的切割中和。
该系统可以通过提供特定的导向RNA来靶向任何想要的序列来开发。在RNA-Seq方法中,CRISPR-Cas9与靶向rRNA序列或其他丰富序列的引导RNA一起使用,在文库制备完成后可以方便地对rRNA或其他高丰度转录本的文库片段进行降解。
准备好测序的文库与 Cas9 核酸酶一起孵育,该核酸酶已与特定的 rRNA 向导预复合(图 5)。然后在分子库中切割包含任何目标序列的所有文库。孵育之后是清洗步骤,以去除短的文库片段和被切割的片段。由于此过程去除了大部分文库片段,剩余的分子将通过另一轮 PCR 重新扩增。
图 5 | CRISPR-Cas9 指导文库制备后 rRNA 和丰富序列的消耗
当对于文库构建前不宜进行rRNA去除或其他高丰度转录本的去除的样本,文库制备后的去除是有利的,例如,当处理超低的input或单细胞样本处理。它还可以对文库的混合pool进行耗尽处理,以节省成本。缺点是guide RNA设计相当复杂,需要很强的专业背景。此外,测序文库需要进行两轮PCR,这可能会增加扩增的偏倚。
参考文献:
1 Shagina, I., Bogdanova, E., Mamedov,I.Z., Lebedev, Y., Lukyanov, S., and Shagin, D. (2010) Normalization of genomicDNA using duplex-specific nuclease. Biotechniques.48:455-9. DOI: 10.2144/000113422.
2 Bogdanova,E.A., Shagin, D.A., and Lukyanov, S.A. (2008) Normalization of full-lengthenriched cDNA. Mol Biosyst. 4:205-212. DOI: 10.1039/b715110c.
3 Yi,H., Cho, Y.J., Won, S., Lee, J.E., Jin Yu, H., Kim, S., Schroth, G.P., Luo, S.,and Chun, J. (2011) Duplex-specific nuclease efficiently removes rRNA forprokaryotic RNA-seq. Nucleic Acids Res.39:e140. DOI: 10.1093/nar/gkr617.
4 Zinshteyn,B., Wangen, J. R., Hua, B., and Green, R. (2020) Nuclease-mediated depletionbiases in ribosome footprint profiling libraries. RNA 26: 1481-1488 DOI:10.1261/rna.075523.120.
5 Deltcheva,E., Chylinski, K., Sharma, C. et al. CRISPRRNA maturation by trans-encodedsmall RNA and host factor RNase III. 2011 Nature 471, 602–607 DOI:10.1038/nature09886.
6 Jinek,M., Chylinski, K., Fonfara, I., Hauer, M., Doudna, J.A., and Charpentier,E.(2012) A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity. Science 337:816-821. DOI: 10.1126/science.1225829.