22年来,超过2亿个缺失的完整人类基因组序列首次被破译

22年来,超过2亿个缺失的完整人类基因组序列首次被破译 研究由字母A、T、C和G代表的完整人类基因组的DNA碱…

22年来,超过2亿个缺失的完整人类基因组序列首次被破译

研究由字母A、T、C和G代表的完整人类基因组的DNA碱基(来源:NHGRI)

22年后,研究人员终于从头到尾破译了完整的人类基因组序列。

钛媒体App月1日报道,据科技日报报道,今天凌晨,世界顶级期刊《科学》连发6篇论文,公布了人类基因组测序的最新进展:由美国国家人类基因组研究中心(NHGRI)组成的端粒对端粒(telomer-to-telomer,T2T)联盟科学团队,通过新技术,研究出全球首个完整且无缺口的人类基因组序列,首次揭示了高度相同的分段重复基因组区域及其在人类中的意义。

这是对标准人类参考基因组的“重大升级”,即2013年发布的参考基因组序列(GRCh38)。它在整个染色体上添加了以前隐藏的DNA片段,破译了大约2亿个缺失的DNA碱基对和2000多个新基因——占人类基因组的8%。

这一研究成果意义重大。研究人员揭示的完整人类基因组序列是世界上最复杂的谜题之一。这项研究让人类第一次看到了最完整、最无缝的DNA碱基基因序列。这对人类了解基因组变异的全谱和某些疾病的遗传贡献至关重要,并将促进与癌症、出生缺陷和衰老有关的研究和科学发展。

同时,这也是《科学》杂志141年来首次在同一期发表6篇论文来揭示人类基因组的研究。

圣路易斯华盛顿大学医学院的遗传学家王庭(王婷)表示,这次拥有完整的基因组肯定会改善生物医学研究。“毫无疑问,这是一项重要的成就。”

据《中国科学杂志》报道,人类基因组计划参与者、中科院北京基因组研究所研究员于君表示,如果把人类基因组序列比作一辆非常复杂的汽车,完整的新序列相当于比20年前完成的人类基因组草图增加了更多的部件。

“我们看到了以前从未读过的章节,”本文通讯作者、华盛顿大学霍华德休斯医学研究所(HHMI)研究员埃文·艾希勒(Evan Eichler)说。这是整个行业的大事。
科学论文封面图片

科学封面图片

研究人员到底破译了什么?
人类基因组由60多亿个独立的DNA碱基和大约20000-30000个蛋白质编码基因(整个基因目前还没有统一答案)组成,和黑猩猩等其他灵长类动物的数量差不多,分布在23对染色体上。为了读取数万个基因组,科学家们首先将所有DNA链切割成数百到数千个单位的DNA片段。然后每个片段中的每个碱基都被测序仪读取,科学家们试图按照正确的顺序组装这些片段,就像把一个复杂的拼图拼在一起一样。

2001年2月12日,由6个国家的科学家参与的国际人类基因组计划首次公布了人类基因组图谱和初步分析结果。2003年4月15日,人类基因组序列草图公布。

但由于技术限制,最初的人类基因组计划留下了8%左右的差距。这部分很难测序,由高度重复和复杂的DNA块组成,包括位于染色体中间和末端的功能基因、着丝粒和端粒。

事实上,核心挑战是基因组的一些区域重复重复相同的碱基。重复区域包括着丝粒和核糖体DNA等。过去,一些切碎的碎片不能以正确的顺序组装。就像有同样的拼图。科学家不知道哪些片段在哪里,所以基因组图谱有很大的空白。

大多数细胞包含两个基因组——一个来自父亲,一个来自母亲。当研究人员试图组装所有片段时,来自父母双方的序列可能会混合在一起,掩盖了个体基因组内的实际变异。

如今,研究人员通过新型纳米机器设备和核心技术,实现了新的无间隙版本T2T-CHM13,它由30.55亿个碱基对和19969个蛋白质编码基因组成。增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和近2000个需要进一步研究的候选基因。

这些候选基因中的大部分是失活的,但是其中的115个可能仍然被表达。该团队还在人类基因组中发现了大约200万个额外的突变,其中622个出现在与医学相关的基因中。此外,新的序列已经纠正了GRCh38中的数千个结构错误。
近端着丝粒染色体的显示模式(来源:论文)

近端着丝粒染色体的显示模式(来源:论文)

具体来说,新序列填补的缺口包括五条人类染色体的完整短臂,并覆盖了基因组中一些最复杂的区域。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列,如染色体末端的端粒和在细胞分裂过程中协调染色体分离复制的着丝粒。

此外,新序列还揭示了以前未发现的片段重复,即基因组中复制的长DNA片段,并揭示了关于着丝粒周围区域的前所未有的细节。该区域的可变性可能为人类祖先如何进化提供新的证据。

值得一提的是,这项研究的关键进展其实是使用了新的技术设备——牛津纳米孔技术公司和太平洋生物科学公司制造的快速迭代基因测序机。

早在2017年,美国国家人类基因组研究中心(NHGRI)负责人亚当·菲利普(Adam Phillippy,亚当·费利皮)和加州大学圣克鲁斯分校(UCSC)的卡伦·米加(Karen Miga)就意识到,新的纳米微孔机器具有一次准确读取100万个DNA碱基的能力,这可能为最终解决基因组难题打开大门。

几乎与此同时,由华府大学霍华德休斯医学研究所(HHMI)的埃文·艾希勒(Evan Eichler)领导的研究小组已经证明,利用太平洋生物科学公司的设备技术可以解决更复杂形式的基因变异技术。

因此,三人共同创立了端粒对端粒(telomer-to-telomer,T2T)联盟,利用全球约100名科学家的资源,加快对情侣的研究。

随后,团队连续6个月使用快速迭代纳米孔基因测序机,邀请了数十位科学家组装这些基因片段,并分析结果。最终通过使用设备和技术,实现了长读测序读取,并将长读测序与牛津纳米孔的数据相结合,准确率超过99%,填补了全球遗传学研究的空白。

到2020年夏天,该团队已经整合了两条染色体。在新冠肺炎疫情期间,该团队通过Slack等通讯工具远程工作,获得了另外21条染色体,并从一端或端粒到另一端对每条染色体进行排序。而且,研究人员正在试图组装基因组中最困难的区域,即着丝粒中高度重复的DNA序列。

最终,通过长期研究和团队合作,团队成功对每条染色体进行测序,包括编码用于制造核糖体的RNA的基因的多个拷贝,共计400个拷贝。

2021年6月,这项研究成果首次发表在预印本平台bioRxiv上。经过同行评议,一系列论文已经发表在《科学》杂志上。

研究人员在会后接受采访时表示,下一阶段的研究将对不同人的基因组进行测序,从而全面掌握人类基因的多样性和功能,以及人类与其近亲和其他灵长类动物的关系。

年增长率超过20%,中国百亿基因市场前景广阔。
随着生物技术的不断发展,新的产业层出不穷。研究成果所属的中国基因测序行业是一个百亿级市场,发展前景广阔。

根据钱骥投行的研究统计,早在2019年,基因测序所在的生物制品行业全球市场规模就达到了3172亿元,未来五年有望达到万亿级别。其中,2019年中国基因测序行业市场规模约为149亿元,年增长率超过20%。

近年来,基因测序行业发展迅速,吸引了大量资本和企业。从产业上下游来看,基因测序产业链主要包括三个环节:上游的仪器、中游的服务商和下游的终端应用。涉及的公司包括华大基因、金奎大基因、药明康德,以及苹果、亚马逊、谷歌和微软等互联网巨头。

整个行业看似简单,但上游的基因测序仪和配套试剂是整个产业链的最高壁垒,下游的终端应用也涵盖了广泛的领域,包括人类基因组、人类微生物基因组和医学领域的基础研究领域,以及非医学领域的环境治理、储油检测、农牧业育种等。

事实上,早在几十年前,医学界就曾试图将狒狒的心脏移植给一名患有先天性心脏病的儿童。如今,通过嵌合体、基因编辑甚至合成生物学,已经实现了将猪心移植到人体内。

华大集团CEO殷野曾经说过,其实今天人类已经进入了生命的时代,我们关注的是自己的基因和健康,这样才会把物理世界、信息世界、生命世界融为一体。

在扩大应用场景和进一步加强测序能力的共同推动下,全球基因测序行业市场将持续增长。虽然中国基因产业的市场规模远远落后于全球头部企业,但在国内市场仍占据较大优势。为了提高未来的国际市场份额,需要进一步加强技术研发,未来发展有巨大的想象空间。

今天,基因组序列研究的新成果是研究人员不可或缺的第一步,也是实现商业化的重要一步。

埃文·艾希勒(Eichler)说,“现在我们有了一块罗塞塔石碑(注:公元前196年制造的一种花岗闪长岩石碑,它解读了失传一千多年的埃及象形文字的意义和结构),未来我们可以研究其他几十万个基因组的完整汇编。”

关于作者: 游客

为您推荐

发表回复