二十年前的这个月,第一张人类基因组草图公布。在过去的二十年间,那些最初被认为是“垃圾DNA”的非编码DNA片段被证明在发育和基因调控中起着至关重要的作用。而在一项最新研究中,麻省理工学院的一组研究人员发布了这种非编码DNA的最全面的图谱。
点击看大图
二十年前的这个月,第一张人类基因组草图公布。这一项目带来的主要惊喜是,人们发现只有1.5%的人类基因组由蛋白质编码基因组成。
在过去的二十年间,那些最初被认为是“垃圾DNA”的非编码DNA片段被证明在发育和基因调控中起着至关重要的作用。而在一项最新研究中,麻省理工学院的一组研究人员发布了这种非编码DNA的最全面的图谱。
这张图谱提供了个组织和细胞类型表观基因组标记的深入注释,修饰指示哪些基因在不同类型的细胞中打开或关闭,比以前涵盖的范围有了显著增加。研究人员还确定了控制特定生物学程序的调控元件组,他们发现了与个特定性状相关的约30,种遗传变异的候选作用机制。
这一研究公布在Nature杂志上,目前研究人员已将其所有数据公开,提供给更多科研人员使用。
“我们提供的实际上是人类基因组的作用环路。二十年后,我们不仅有了基因,有了非编码DNA注释,而且还有了模块,上游调节因子,下游靶标,疾病变种,以及对这些疾病变种的解释,”麻省理工学院计算机科学与人工智能实验室,文章通讯作者ManolisKellis说。
表观基因调控
表观基因组位于人类基因组的顶层(构成遗传密码的核苷酸序列)之上。表观基因组由化学标记组成,可帮助确定哪些基因在不同时间和不同细胞中表达。这些标记包括组蛋白修饰,DNA甲基化以及给定DNA片段的可及性。
Kellis说:“表观基因组学直接读取了我们细胞所使用的标记,记住在每种细胞类型以及我们身体的每个组织中开启和关闭的内容。它们充当便利贴,荧光笔和下划线的功能”,“表观基因组学使我们可以窥视每个细胞在每种细胞类型中都标记为重要的分子,从而了解基因组的实际功能。”
绘制这些表观基因组注释可以揭示遗传控制元件,以及不同元件活跃的细胞类型。可以将这些控制元件分组为功能在一起的簇或模块,以控制特定的生物学功能。这些元素中的一些是增强子,与激活基因表达的蛋白质结合,而其他一些则是使基因关闭的阻遏物。
这个新图谱被命名为EpiMap(EpigenomeIntegrationacrossMultipleAnnotationProjects),是基于多个大型图谱联盟(包括ENCODE,RoadmapEpigenomics,andGenomicsofGeneRegulation)的数据,将这些数据组合在一起。
研究人员总共组装了个生物样本,代表了不同的组织和细胞类型,每个样本都标有略微不同的表观基因组标记,因此难以完全整合多个数据集,为此,他们通过组合相似标记和生物样品的可用数据,来填写缺失的数据集,使用由此产生的个生物样品中10,个标记的纲要来研究基因调控和人类疾病。
在EpiMap中,研究人员注释了超过万个增强子位点(仅覆盖每个生物样品的0.8%,总共覆盖了基因组的13%)。他们根据活动模式将它们分为个模块,并将它们与控制的生物过程,调控的调节剂以及介导这种控制的短序列基序联系起来。研究人员还根据一致的活动模式预测了万个控制元件与它们靶向的基因之间的联系,这是迄今为止人类基因组最完整的环路。
疾病联系
自从3年完成人类基因组的最终草案以来,研究人员已经进行了数千项全基因组关联研究(GWAS),揭示了常见的,使携带者容易患有特定的性状或疾病的遗传变异。
这些研究已经产生了大约,个突变,但是其中只有7%位于蛋白质编码基因内,而剩下的93%位于非编码DNA区域。
但是,由于许多原因,非编码突变的行为非常难以确定。首先,遗传变异是成块遗传的,因此很难在每个疾病相关区域的数十个变异体中分析因果变异。此外,非编码突变可以在很长的距离内起作用,有时距离数百万个核苷酸很远,因此很难找到它们的靶基因。它们还具有极强的动态性,因此很难知道它们在哪个组织中起作用。最后,了解其上游调节因子也仍然是一个未解决的问题。
在这项研究中,研究人员解决了这些问题,并为30,多种这些非编码GWAS变体提供候选的机制。研究人员发现,与同一性状相关的突变倾向于在与该性状生物学相关的特定组织中富集。例如,发现与智力相关的遗传突变位于大脑活跃的非编码区,而与胆固醇水平相关的突变位于肝脏活跃区域。
研究人员还发现,某些性状或疾病会受到在许多不同组织类型中活跃的增强子的影响。例如,他们发现与冠心病(CAD)相关的遗传变异在脂肪组织,冠状动脉和肝脏以及许多其他组织中均活跃。
Kellis实验室现正与各种合作者合作,在这些全基因组预测的指导下,在特定疾病中寻求发现。他们正在分析冠状动脉疾病患者的心脏组织,阿尔茨海默氏病患者的小胶质细胞,以及肥胖症患者的肌肉,脂肪和血液,他们基于之前的研究和最新的研究发现预测这些疾病。
许多其他实验室也已经在使用EpiMap数据进行多种疾病的研究。“我们希望我们的预测将在工业界和学术界得到广泛应用,帮助阐明遗传变异及其作用机制,将疗法靶向最有希望的靶标,并帮助加速许多疾病的药物开发。”
参考文献
Regulatorygenomiccircuitryofhumandiseaselocibyintegrativeepigenomics
生物通小通