当前位置: 首页 > 新闻中心 > 技术专栏 > DNA文库的均一性为何如此重要?
DNA文库的均一性为何如此重要?
发布时间:2022/09/07 点击数:

棒球卡收集者、CRISPR研究人员和抗体工程师有何共同之处?


他们都在与一个称为赠券收集问题(coupon collector’s problem)的统计难题作斗争。从本质上看,这个问题描述了在收集次数有限的情况下集齐一整套物品的难度。若要理解这个概念,首先可从棒球卡收集者说起。


交易卡的市场规模达到数十亿美元。尽管这些卡片只不过是一些闪闪的长方形纸片,物质价值不到一美分,但一些最稀有的棒球卡在拍卖会上能以数百万美元的价格售出。交易卡市场蓬勃发展,那是因为制造商在依靠赠券收集问题来提升销售额。


它的原理是这样的:假设有100张独特的棒球卡可以收集,而且每包卡片只包含一张独特的卡片。在这种情况下,收集者需要购买的数量要远远超过100包,才能收集到全部100张卡片,因为他们有可能拿到重复的。当您一开始收集时,每一包可能都有一张新卡片供您收藏。但是,每当您获得一张新卡片,下一张卡片是您已看过卡片的几率就会增加。正因为如此,您才有动力购买更多包,直至您集齐全部。


赠券收集问题为我们提供了一种方式来确定集齐所有卡片需要多少次尝试。如果获得每张卡片的可能性相同,则大约需要520包才能完整收集到100张卡片。为了进一步增加吸引力,卡片制造商用一些仅代表部分球员的“常见”卡片来填充卡片池,以此来分配卡片稀有度。同时,他们只为某些球员印刷少量卡片,使得这些卡片变得相当“稀有”。


另一种说法是棒球卡池是非均匀分布的。当这种情况发生时,集齐一整套需要购买的实际包装数量以及随之而来的成本都会显著增加。


一张1909年的霍纳斯·瓦格纳(Honus Wagner)棒球卡在2021年8月的拍卖会上以超过600万美元的价格售出


再回到统计数据,集齐全套所需的样本(包装)数量是由两个关键指标定义的:集合中独特个体(卡片)的数量以及个体的分布(稀有度)。群体中的个体分布越均匀,集齐全套所需的样本数量就越少。


分子生物学中的赠券收集问题

分子生物学家、抗体工程师和遗传学家同样要应对赠券收集问题。


以准备开展大规模CRISPR敲除筛选的研究人员为例。在这些实验中,他们要合成数千条独特的sgRNA并将其转导到细胞内进行基因组编辑。在编辑后,研究人员通常会根据报告基因的信号(如GFP表达)来分离细胞,然后对感兴趣的细胞子集进行测序。如果sgRNA池不是均匀合成的(这意味着某些sgRNA很常见,而其他的许多很罕见),那么研究人员就有麻烦了。在对分选出的细胞群进行测序时,他们测序的大多数细胞可能都带有相同的sgRNA,因此无法为数据集增添更多价值。为了真正捕获群体中的所有sgRNA,研究人员需要花钱对更多细胞进行测序,才能检测“稀有的”sgRNA。


这个原则同样适用于抗体工程师,他们可能需要对包含数十亿个候选抗体的文库进行筛选。如果抗体库分布不均匀,那么他们将不得不花更多的钱来确保所有潜在的候选抗体都出现在他们的数据中。


均一性 vs 中靶率

哪个因素对测序效率的影响更大:中靶率还是均一性?在这份白皮书中,我们在深入分析后探讨了这个问题,并表明均一性的影响要大得多。点击文末“阅读原文”查看我们的白皮书,了解更多信息。


与卡片收集者一样,研究人员在数据集过采样上花费的时间和经费直接取决于他们所筛选的文库的均一性。在特定的过采样比率下,研究人员使用更均一的文库能够获得更多hits。


Twist Bioscience帮您应对赠券收集问题

加州理工学院2020年发表的一篇论文强调了均一性在赠券收集问题中的重要性。研究人员对腺相关病毒(AAV)衣壳库进行筛选,以便找到能够将基因递送到小鼠大脑的变体。这种精确技术的开发是生产有效基因疗法中的关键。为了实现这一点,需要对AAV衣壳进行改造和筛选,使其对感兴趣的细胞类型有高度特异性。


数十亿个候选衣壳最初是以DNA文库的形式生成的,并受到靶向脑细胞的正选择压力。之后鉴定出数千个候选衣壳,并进入第二轮筛选。研究人员对生成第二轮文库的两种方法进行了比较:一是对第一轮阳性样本进行PCR扩增,二是与Twist Bioscience合作,合成包含第一轮阳性序列的寡核苷酸池。


图片改编自Kumar et al., 2020,图2c。来源于Twist寡核苷酸池合成的AAV衣壳库比来源于PCR扩增的同等文库要均一得多。

结果表明,PCR生成的文库高度偏斜,其中少数序列占了池中大部分,而大量序列的出现度很低。相比之下,合成池的分布高度均一。这带来的结果是,PCR生成的文库在第二轮筛选中产生了700多个hits,而Twist合成文库产生了1700多个hits。


图片改编自Kumar et al., 2020。与PCR产生的文库相比,来源于Twist寡核苷酸池的AAV衣壳库表现出的均一性明显更高。图中显示的是洛伦兹曲线,它展示了理论上的完美均一性,其中每个寡核苷酸(oligo)都均等表示(黑线)。


研究人员从来源于寡核苷酸池的文库中鉴定出几种AAV衣壳,它们能够穿过血脑屏障,并靶向脑细胞,而不靶向其他组织。研究人员表示,从寡核苷酸池文库中挑选出用于进一步验证的许多序列都未出现在PCR生成的文库中。


高度均一的DNA文库让研究人员能够在筛选中产生更多hits,从而在整个实验过程中节省时间和经费。Twist Bioscience专注于精确且均一的DNA合成。Twist的硅基平台可同时合成数百万条寡核苷酸,并具有出色的均一性和准确性。这些寡核苷酸可转化为定制的CRISPR文库、蛋白变体文库和靶向捕获NGS组合,用于高保真的筛选实验。使用高度均一的文库可确保将表示数据集所需的过采样量维持在最低限度,这意味着研究人员可以自信地筛选,同时节省资源。


暂无上一篇
返回列表
暂无下一篇