作者|Ivan Amato
翻译|赵金瑜
校译|于茗骞
生物学家们正在一点一点地破译复杂的3-D和4-D基因组结构,并在探究所有挤在一起的DNA是如何保持有序的。他们的发现可能会导致医学的进步。
眯着眼睛用显微镜观察蝾螈细胞时,19世纪末的生物学家瓦尔特·弗莱明在细胞核深处发现了一种奇怪的物质,它选择性地吸收了他所使用的染色剂。这些东西看起来像一绺羊毛——直到发生了一次细胞分裂。接着,它分裂成了更粗的、分散的线——染色体,即希腊语中“有颜色的物体”。
直到现在,弗莱明的科学后代还在眯着眼睛看,但不一样的是,他们有了更强大的分子成像和分子计算工具。全世界数百名研究人员共同努力,正在拼凑出整个细胞核染色质(我们的DNA及其相关蛋白质)的三维结构。
这个项目旨在回答:我们的DNA是如何在微小的细胞核中如此整齐地把自己包装起来的?当细胞分裂的时候,它如何更紧密地压缩起来?它们又是如何在不同细胞中那个正确的位置和正确的时刻展开,从而精准地控制2万多个基因的活动?
美国国立卫生研究院于2015年发起了一项名为4D Nucleome的全球性研究计划,因为人们越来越意识到,解析基因组的3D结构对于解答基因如何控制人一生中的健康和疾病问题至关重要。再加上研究此3D结构如何随时间演化,人们将获得四维的信息。最近随着该计划第二阶段的启动,这项工作的总资金达到约2.8亿美元,涉及数十个研究项目和数百名科学家。马萨诸塞大学医学院的染色体生物学家乔布·德克尔说:“如果你想了解基因组甚至染色体是如何工作的,你必须了解它的三维结构。”
4D Nucleome的项目负责人、分子生物学家和免疫学研究员阿南达·罗伊说,DNA包装问题引发了一系列的基本问题。想想看,在每个细胞中,大约2米长的双螺旋DNA被压缩20万到25万倍,以适应直径约为8-10微米(1微米=1/1000000米)的细胞核。“这种折叠是如何做到的?” 罗伊问道。“它有什么意义吗?这与人体健康有什么联系?基因组在所有细胞中的折叠方式是否相同?它是如何随时间变化的?”
一些科学家打赌,这些答案将提供新的医学线索。他们认为,通过研究基因组几何结构,他们可以开发新型的治疗方法,即通过调整基因组结构来重建促进健康的基因活动模式。
多亏了高科技成像技术,科学家们发现了在细胞核内,DNA以一种更有序的方式包装。在这个实验中,研究人员研究了人类男性成纤维细胞中的染色质,发现每条染色体的DNA长链紧紧缠绕在一起,位于一个离散的位置。在图B中,所有看到的人类染色体被标记为不同的颜色和编号(包括X染色体和Y染色体)。其他图像展示了不同角度下原子核的样子。来源:A. BOLZER ET AL / PLOS BIOLOGY 2005。
01 遗传字母,绞绕及环
2003年,耗资27亿美元的人类基因组计划完成了对构成了人体的23对染色体的30亿个碱基对(腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶)组成的线性DNA序列的完整测序,彼时科学界欢呼雀跃,这是一项重大的成就,但也有消极的一面。德克尔对此成果欣喜不已,但他也指出,几十年来对基因测序的关注分散了研究人员的注意力,使他们忽视了基因组几何结构的重要性,也忽略了这一几何结构在影响哪种基因活跃与否时可能发挥的作用。
“这是最令人惊奇的事情,”他说。“所有这些DNA都在一个细胞核内。这是一个非常拥挤的地方。可以想象一下,即使你把耳机放在口袋里,每次掏出它的时候都是一团糟。然而细胞核里面的所有东西为什么没纠缠在一起呢?”
如果这取决于DNA本身,基因组就会变成所有扭结的源头。毕竟,把两米长的基因组DNA塞进直径8微米的细胞核,就像把7500米长的蜘蛛丝塞进核桃大小的范围里。
但弗莱明的染色质不仅仅是DNA,而是DNA和蛋白质的紧密组合,尤其是被称为组蛋白的蛋白质。它们一起形成了微小的线轴,上面缠绕着大约150个核苷酸的DNA片段,就像分子尺度的钓鱼线一样。在基因组中,有数以百万计的这种由DNA缠绕成的线轴,称为核小体,相互间由短的、裸露的DNA片段分隔开,看起来就像串在绳子上的珠子。
图:DNA如何被包装进细胞核。完全解开后,一个细胞内的DNA可以延伸约两米——比我们大多数人的身高还要长。一个复杂的分子包装系统负责将所有的物质塞进只有几微米宽的原子核中,科学家们仍在努力完全了解这个系统。这一过程包括将DNA缠绕在一种叫组蛋白的蛋白质上,形成一种叫做染色质的蛋白质-DNA组合。在细胞核内部,每条染色体的链都聚集在一起,就像羊毛线一样,这张图中用不同的颜色来描绘。
核小体的包裹物使核内的DNA压缩了几倍,但不是罗伊所说的25万倍收缩。要达到如此,还需要额外的扭曲。没人知道这一压缩过程到底是怎样的,但可以这样理解,想象用两只手的拇指和食指各捏住一根绳子的末端,然后疯狂地扭曲。
绳子经过多次盘绕和屈曲后,它的长度已经比初始长度短很多了。这种被压缩和屈曲的染色质产生了约700纳米宽的纤维,除其他结构特征外,这与近150年前弗莱明及其同时代人在非分裂细胞中观察到的意大利面条状结构是一致的。
不过,所有的螺旋之间也是有序的。研究人员知道,即使在细胞生命的大部分时间里,当染色体以这些类似意大利面条的形式存在时(而不是细胞分裂时看到的超浓缩、粗短的染色体),每条染色体都以离散的形式分布在细胞核中特定的区域。它们像许多缕羊毛一样紧紧地挤在一起但未缠绕,并在细胞分裂时仍整齐地分开。
单个染色体的DNA也不是随意盘绕的。在每条染色体中,重复多次的是DNA环——通常被称为“拓扑关联结构域(TADs)”,它们对基因组的正常功能(即基因活动的模式)至关重要。
如今,基因组研究人员探索和描绘该模式细节的能力不断增强,这让他们倍受鼓舞。它使他们对分子生物学的理解达到了新的深度,并开辟新的药物途径。
02 基因组,表达你自己
人类基因组计划的令人惊喜的发现之一是揭示了我们的DNA包含大约2万个基因,仅占基因组总长度的1%到2%。致力于研究基因组的3-D和4-D模型的研究人员想知道,其余98%的基因组在做什么,以及如何调控这2%的基因的活动。
需要控制的有很多:关于基因组的最令人困惑的问题之一是,人类不同类型的细胞——从神经元到免疫细胞再到肌肉细胞——具有相同的DNA,但如何又具有不同的生物学特征。
“为什么这些不同类型的细胞(具有相同的DNA),却表现出不同的结构、功能和活动?”加州大学圣地亚哥分校的分子生物学家任兵说道,他是4D Nucleome项目的参与者,也是《细胞和发育生物学年度评论》(Annual Review of Cell and Developmental Biology)中有关3-D基因组结构综述论文的作者之一[1]。事实证明,这种结构是决定哪些基因开启、关闭以及何时何地开关的关键。
TADs可能是这个过程的关键。它们可以由数百万至数万个基因字母组成:在老鼠胚胎干细胞中,大约有2200个TADs,其平均大小接近90万个字母。怀特海德研究所和麻省理工学院的生物学家理查德·杨说,人体的TAD数量可能更接近15000。在每个TAD(杨也将它们称为绝缘基因组域,IGDs)中,存在特定基因以及控制它们的 DNA 片段:启动子、增强子和绝缘子。
TAD的环状结构至关重要,因为它可以将原本隔开的DNA片段聚在一起,否则如果同一段DNA被拉伸,这些片段就会相隔很远。因此,启动子,尤其是增强子,本来可能出现在离它们激活的基因较远的地方,但3D视角下,它们却依偎在一起——这有助于遗传学家们解决一个困扰他们几十年的难题。
但是TADs是如何被创建的呢?休斯顿贝勒医学院基因组结构中心主任、生物物理学家埃雷兹·艾登说,这可能是通过一种叫做“循环挤压”的方法实现的,这个过程的发现是过去几年最重要的成就之一。
事实证明,蛋白质的小团队相互协作,在基因组上由特定的DNA序列划分的位置形成大量的环状结构。蛋白质小组在这些基因组标记处形成类似波洛结的结构,DNA从这些标记处挤出,形成环状结构。任何基因、启动子、增强子或其他调控元件如绝缘子片段,如在一个给定的DNA环内,就能彼此接近,从而实现适当的遗传控制。
与这种基因组结构和控制的动态交织在一起的还有另一个极其复杂的层面:表观基因组,即添加到染色质并影响基因活性的化学标记。其中一些以收紧或松散局部染色质的方式修饰组蛋白——从而膨胀并暴露基因以进行激活,或者将它们卷得更紧并关闭它们。另一些——例如甲基,则可结合在DNA特定片段上,使这些位置上的任何基因都保持关闭。
图:染色体的有序环状对基因活动起决定性作用。包装在细胞核中的DNA看起来像一团乱麻,但在这些缠结之间是有组织的。这个系统的关键是由细胞机制调控的DNA环。内聚蛋白是一种环状蛋白质,可以拉长或缩短环,就像背包上的背带调节器一样。当内聚蛋白沿着DNA滑动形成环状结构时,它可以将远处的增强子和启动子结合在一起,从而启动基因。该过程涉及一种被称为CTCF的蛋白质,它与DNA上的特定点(称为CTCF结合域)结合,并调节内聚蛋白形成的环状结构的大小。
03 基因组的探秘之旅
要揭开基因组的三维结构,我们需要一场观测工具和技术的研讨会。结构洞察方面的一些重大进展通过基于显微镜的成像和被称为染色体构象捕获(3C)的方法实现。
21世纪初, 德克尔帮助开发了3C方法。研究人员用化学方法将基因组中DNA片段在细胞核内相互靠近的地方连接起来。然后,利用DNA测序方法和计算技术,他们绘制出“联络图”,描绘了成千上万——现在甚至是数百万——基因组片段可以接触的地方。从这些图谱中,我们可以看到基因组的三维构造,以及它在细胞生命周期中如何变化以及对激素等刺激的反应。
早期的3C方法仅能显示预先被研究人员选定的DNA片段上的相互接触。从那时起,德克尔和其他人在此基础上开发了越来越强大和全面的技术,有的名字很可爱。其中一个主力是Hi-C。2017年,一个研究小组使用它在老鼠的卵细胞中识别了近200万个独特的接触点。另一个是ChIA-PET(通过配对末端标签进行染色质相互作用分析)。在被称为转录因子的蛋白质附着并帮助启动或关闭基因的位置, 这种技术可以识别启动子和其他基因调节因子之间的相互作用。
其他强大的基因组观察手段则用到了显微镜,被称为FISH,是荧光原位杂交的缩写。科学家们在细胞中加入荧光探针,将其附着在特定的DNA序列上;一旦就位,这些探测器就成了显微镜下可见的微小信标。通过一次次的实验,放置和观察不同基因组位置的信标,科学家们获得了基因组结构的合成图,就像通过圣诞树上的灯光识别出树的形状一样。艾登说:“这样你就可以用3D的方式追踪基因组”,“这一技术是变革性的。”
04 试驾基因组机器
随着有关基因组结构和表达的基础性探究的积累,相关研究的开展如日中天。自然,这一领域的生物医学应用和商业投资开始出现。
“这个领域非常有活力,”任说。“这就像一颗超新星,正在形成新的恒星。” 他以 2019年11月发表在《科学》杂志上的一份报告为例[2],说明了这些超新星后代的样子。在这项研究中,包括任教授在内的26名研究人员记录了对晚发型阿尔茨海默病有关的基因变异(称为风险变异)的研究历程。已经发现的许多导致各种疾病的此类风险因素,通常在不包含基因的那98%的基因组中。但人们并不理解背后的成因。
在这项研究中,任和同事能够通过某种技术识别出染色质更松散、更开放的区域,即可能更具遗传活性的位点。他们比对了四种不同类型脑细胞的模式:神经元、星形胶质细胞、少突胶质细胞和小胶质细胞。研究小组发现,首先,在四种细胞类型之间,更分散和更具基因活性的染色质位置是不同的。他们还发现,即使在控制同一基因时,不同类型的细胞也会使用不同的增强子。
这些由19世纪生物学家瓦尔特·弗莱明绘制的插图显示,在蝾螈细胞分裂之前,遗传物质在细胞核中凝聚。弗莱明创造了“染色质”这个术语来描述他所看到的结构。来源:W. FLEMMING / ZELLSUBSTANZ , KERN UND ZELLTHEILUNG 1882。
最令人兴奋的是,研究人员发现阿尔茨海默氏症的风险变异主要存在于专门用于小胶质细胞的增强子中。也就意味着,这些风险变异很可能改变了增强子对基因活动的控制,从而增加了阿尔茨海默氏症患病风险。
任表示这很有趣,因为小胶质细胞专门负责清除细胞碎片,包括那些在大脑中积累的与阿尔茨海默病有关的蛋白质。长期以来,功能失调的小胶质细胞一直被认为与这种疾病有关,这一发现为该看法增添了可信度。
任补充道,在新工具出现之前,拥有这样的发现是不可能的。“我们现在意识到,增强子的可获得性——意味着染色质是否足够开放——按不同的细胞类型以不同的方式受到高度调控。这就是为什么不同细胞类型有特异性的基因表达。”
任接下来想知道,能否开发出针对严重疾病的药物,诱导异常染色质结构回到健康的、非致病的状态。怀特黑德研究所和麻省理工学院的杨也同样期待。杨确信,基因组中大约6万个增强子序列,以及它们与1.5万个TAD中的2万个基因的空间关系,将是医药创新的下一个重大事件。他参与合作创办了几家公司,从基因组的角度来研发新药。
其中之一,是2016年与哈佛医学院的同事莱纳德·佐恩一起推出的CAMP4(以珠峰登山者开始登顶前的最后一个营地命名)。其目的是识别与特定疾病有关的TADs和其他基因调控元件,然后利用机器学习设计可重新校准出错的基因活动模式的新药物。
杨的另一家公司Omega Therapeutics正专注于从产生TADs(或IGDs)开始的循环压缩过程。目的是设计“控制”分子,可以重新设计TADs的大小和位置,从而改变基因组邻域并以抑制疾病的方式包装或打开染色质。
杨说:“这是关于如何构建生命蓝图的基础科学。”“如果你不把它构建好,一切都会乱套。”
在弗莱明1880年发表的那篇论文中,他创造了“染色质”这个术语。对于他所观察到的遗传物质,当时他所能说的全部就是,染色质能被胺染色,而细胞核中的其他“无色质”则不能。由于当时的工具限制,他和研究伙伴们无法看到细胞核中的更多奥秘。现在,140年过去了,我们有了理想中的工具,研究人员借此能探索基因组更深入的奥秘。
艾登说:“这是我们这一代科学家的任务。”
译名对照表:
瓦尔特·弗莱明 Walther Flemming
乔布·德克尔 Job Dekker
阿南达·罗伊 Ananda L. Roy
组蛋白 histones
核小体 nucleosomes
拓扑关联结构域 topologically associated domains,TADs
《细胞和发育生物学年度评论》 Annual Review of Cell and Developmental Biology
怀特海德研究所 Whitehead Institute
理查德·杨 Richard Young
绝缘基因组域,insulated genomic domains, IGDs
启动子 promoters
增强子 enhancers
绝缘子 insulators
贝勒医学院 Baylor College of Medicine
埃雷兹·艾登 Erez Lieberman Aiden
循环挤压 loop extrusion
表观基因组 epigenome
染色体构象捕获 chromosome conformation capture,3C
荧光原位杂交 fluorescence in situ hybridization
莱纳德·佐恩 Leonard Zon
参考文献:
[1]
[2]
作者简介
Ivan Amato
Ivan Amato是一位科学作家、播客节目和科学咖啡馆主持人,居住在马里兰州海茨维尔。
版权声明
本文授权翻译自Annual Reviews 旗下杂志 Knowable Magazine,点击文末阅读原文可订阅其英文通讯。
Annual Reviews 是一家致力于向科研工作者们提供高度概括、综合信息的非营利性机构,且专注于出版综述期刊。
原文标题“The blueprint for life, neatly folded”,作者Ivan Amato,发布于2021.10.12 Knowable Magazine。链接为。