|
怪异基因频现 |
新一轮DNA研究引发基因身份危机 |
百年诞辰日 基因盼“回家” |
宋雅·普若哈斯卡是德国莱比锡大学的一名生物信息学家。她每天的大部分时间都花在了收集、整理和分析有关基因的信息上。她的工作一刻也离不开基因,因此,她戏称自己被基因“绑架”了。2008年夏天,普若哈斯卡决定要尝试度过一个每天不用再将“基因”时刻挂在嘴边的暑期。但是,令普若哈斯卡失望的是,这样的尝试根本无法实现,因为关于DNA的新一轮大规模研究引发了她和她的同事对基因本来性质的重新思考。
百岁寿辰闹危机
研究人员不再将典型的基因视为对单个蛋白进行编码的DNA片段。因为,对于基因的传统规则来说,存在着太多的例外。研究人员发现,事实上,一些不同的蛋白质也许是由单一的DNA片段产生的。DNA所产生的绝大多数分子甚至也许都不是蛋白质,而是另一种称为RNA的化学物质。人们熟知的DNA双螺旋结构不再为遗传所独享。吸附在DNA上的其他分子能在具有相同基因的两种有机物间产生显著的差异,而且这些分子也能和DNA一起被继承。
换句话说,基因出现了身份危机。
这场危机发生在基因一词诞生100周年的前夕。基因一词是由1909年丹麦遗传学家威尔海姆·约翰森命名的,用来描述父母给下一代传递了什么才使得它们发展出相同的性状。像他那个时代的其他生物学家一样,约翰森并不了解这个无形的因子是什么东西。
在接下来的60年里,科学家们将基因这个词从抽象的概念变为了具体的现实。他们对面包霉菌和细菌,以及果蝇和玉米展开了实验研究。他们发现了如何通过修饰细胞内的分子来改变花、眼睛及其他性状。他们还指出了DNA是一对相互缠绕的链。到上世纪60年代,他们已经对基因作出了令人信服的定义。
他们认为,基因是一个含有制造蛋白质分子指令的特定DNA片段。为了从基因制造蛋白质,细胞不得不读取它,并建立一个单链副本——RNA外转录。接着,这个RNA就会被一簇用于建立蛋白质模板的核糖体分子抓住。
基因也是遗传的基本单位。每次细胞分裂时,它都会复制其基因,然后父母将这些基因中的一些传递给他们的后代。如果你从母亲那里继承了一头红发,或是罹患乳腺癌的潜因,那么你就有可能继承了一个有助于形成这些性状的基因。
基因的这种定义一直运行得相当好。1968年,分子生物学家冈瑟·斯坦特宣称,下一代科学家的工作将是必须找出其中的细节。
越来越多的怪异基因
斯坦特和他同时代的科学家都非常清楚地知道,这其中的某些细节是非常重要的。他们知道,在蛋白质固定到其附近的DNA位时,基因可被关闭或开启。他们还了解到,一些编码RNA分子的基因从来不会变成蛋白质。相反,他们有其他的任务,如帮助建立核糖体内的蛋白质。
但是,这些例外似乎显得并不重要,还不足以引起科学家对基因的定义提出疑问。耶鲁大学的生物信息学家马克·格斯坦说:“生物学的工作方式迥异于数学。如果你在数学找到一个反例,你就必须回过头去重新思考定义。生物学并不如此,当出现一、两个反例时,人们更愿意对其进行处理。”
20世纪80年代和90年代,科学家们发现了越来越多的反例,当一个细胞产生一个RNA转录时,它会把巨大的DNA块切断,只留存一些小残余。(细胞复制的DNA部分称为外显子,被抛在一边的部分称为内含子。)大量非编码的DNA片段存在于这些蛋白质编码区域。人类基因组中的2.1万个蛋白质编码基因只占了整个基因组的1.2%。
2000年,一个国际科学家小组完成了首个基因组——人体细胞中的所有遗传物质的草图。他们确定了许多蛋白质编码基因的位置,但是人类基因组中98.8%的其他基因仍有待探索。
从那时起,科学家们开始在基因组的丛林中不断跋涉,一点一点地描绘着基因组的精妙细节。其中最大的一个项目就是“DNA元件的百科全书”,简称为Encode。数以百计的科学家开始协同作战,以确定人类基因组中每一个DNA片段的功能。去年夏天,他们发表了1%基因组的成果——大约300万个DNA“字符”。遗传代码是以字符形式表示的,就像电影标题“Gattaca”(千钧一发)中的每一个字母都代表着一种称为碱基的分子:G(鸟嘌呤),A(腺嘌呤),T(胸腺嘧啶),C(胞嘧啶)。Encode小组预计到明年就可以得出其他99%基因组的初步结果。
Encode的研究结果显示,至少从传统的基因定义标准看,基因组中充斥着各种怪异的基因。例如,一个单个的所谓基因可以产生一个以上的蛋白质。在一个称为选择性剪接的过程中,一个细胞可以选择不同的外显子组合制作出不同的副本。大约在30年前,科学家就首次发现了选择性剪接的例子,但他们无法确定这种情况到底有多普遍。现在一些研究表明,几乎所有的基因都被剪接。Encode小组估计,蛋白质编码区域平均能产生5.7个不同的副本。不同种类的细胞似乎能从同一基因产生不同的副本。
更为怪异的是,细胞常常将外显子“扔进”来自其他基因的副本中。这些外显子可能来自“遥远的地方”,甚至来自不同的染色体。
因此,Encode的负责人之一、冷泉港实验室的托马斯·金格拉斯认为,“再也不能认为基因是在一个物理位置上的单一DNA片段,在我们所认为的基因组组织方式上,已出现了范式转移”。
遗传的第二通道
研究结果表明,基因组还以另一种方式被组织起来,这种方式给人们提出了一个问题,即重要的基因是怎样遗传的。我们的DNA上镶嵌着数以百万计的蛋白质和其他分子,他们决定着哪些基因能产生副本,哪些则不能。新细胞继承了这些分子和DNA,换句话说,遗传可流经第二个通道。
第二通道的最突出的粒子就是一种叫做柳穿鱼的普通花卉。大多数柳穿鱼植物以镜面对称的方式长有白色花瓣,但是,某些柳穿鱼则长有黄色的五角星。柳穿鱼将这两种花的形式传递给它们的后代。然而,它们花朵之间的差异并不归结为它们DNA中的差异。
相反,这种差异应归结为附着于它们DNA的顶端(cap)模式。这些顶端由碳和氢组成,被称为甲基族。星形柳穿鱼在一个与花朵发育相关的基因上具有一种独特的顶端模式。
DNA不只是被甲基族覆盖,还被轴样的蛋白——组蛋白缠绕着,组蛋白能解开DNA的一股,从而使细胞不能从它制作副本。悬挂在DNA上所有这些分子,统称为表观遗传标记,它们对于细胞形成身体内的最终形式是必不可少的。当一个胚胎成熟时,不同细胞内的表观遗传标记被改变,导致它们发育成不同的组织。一旦表观遗传标记的最终模式被确定,它就会死死地粘附于细胞。当细胞分裂时,它们的后代就会带有同样的一套标记。哈佛大学的布拉德利·伯恩斯坦说:“它们能帮助细胞记住哪些基因要保留,哪些基因从来不被打开。”
相较于基因组,科学家们对这种“表观基因组”知之甚少。2008年9月,美国国立卫生研究院启动了一项1.9亿美元的计划,着手绘制不同组织内DNA上的表观遗传标记。康奈尔大学的埃里克·理查兹说:“从现在开始,我们就可以将基因之外的所有这些变化进行图表化。”
这项研究也许能对癌症及其他疾病的起源提供线索。长久以来,人们已经了解到,当DNA发生变异时,细胞很容易发生癌变。最近的一些研究表明,当表观遗传标记被干扰时,细胞也会更容易发生癌变,因为那些至关重要的基因被关闭了,而那些应当被关闭的基因却被打开了。使这两种变化变得尤为危险的是,它们还能通过细胞传递给它的所有后代。
胚胎开始发育时,已经累积了父母双方DNA的表观遗传标记被剥离。当细胞成为胚胎时,它们增添了一套新的表观遗传标记,该标记与父母拥有的标记具有相同的模式。
这个过程事实上非常微妙。如果一个胚胎受到某种类型的压力,它就可能无法确定正确的表观遗传标记。譬如,1944年,荷兰遭遇了残酷的饥荒。荷兰莱顿大学的科学家最近对60名在那段时间里受孕的人进行了研究。2008年10月,研究人员报告说,这些研究对象至今具有的表观遗传标记仍比他们的兄弟姐妹要少。研究人员得出的结论是,在1944年的饥荒中,孕妇无法给她们的孩子提供表观遗传标记的原材料。
至少在某些情况下,这些新的表观遗传标记可流传给后代。科学家们正在讨论这种情况发生的频次。将在今年《生物学季度评论》上发表的一篇论文中,以色列特拉维夫大学的伊娃·雅布隆斯基和盖尔·拉兹列举了101个案例,这些案例表明与表观遗传标记改变相关的性状可以传承三代。
华盛顿大学的马修·艾姆威和他的同事发现,将怀孕的大鼠暴露于可杀死真菌的一种化学品中,可破坏雄性胚胎精子中的表观遗传标记。由这种胚胎发育成的成年大鼠就会患上精子缺陷症或是其他疾病,譬如癌症。雄性将其已改变的表观遗传标记传给自己的下一代,下一代又将这些标记传给自己的后代。
2007年,艾姆威和他的同事甚至记录到了更为令人惊讶的化学影响。在子宫内曾暴露于化学品环境的雌鼠会避免与那些曾暴露于化学品环境的雄鼠进行交配。科学家们发现,这种偏好将持续至少三代。
当这些实验的结果被一一揭开时,这些代代相传的变化到底有多重要引起了科学家们的分歧。
不死的假基因
表观遗传标记的迷人不仅在于它们的影响,还在于它们是如何在第一个地方被创立的。譬如,要将一个甲基族的顶端放在DNA上,一簇蛋白质就必须被导引到正确的位置。事实上,它们必须由一个能找到它们的RNA分子将他们导引到那里。
这些RNA“导游”,就像核糖体中的RNA分子一样,并不适用于传统的基因概念。这些RNA分子并不引发蛋白质的产生,而是立即开始在细胞内着手自己的工作。在过去的十年里,科学家们发现了一些从不会成为蛋白质的新型RNA分子。科学家们将之称为非编码RNA。2006年,马萨诸塞大学的克雷格·梅洛和斯坦福大学的安德鲁·法尔因发现小RNA分子能通过干扰基因转录造成基因静默而获得了诺贝尔奖。
这些发现让科学家们感到疑惑,我们的细胞到底能制作多少非编码RNA,Encode的早期研究结果给出的答案是:很多。虽然人类基因组中只有1.2%能编码蛋白质,但Encode科学家估计,在人类基因组中能产生RNA转录的可占到惊人的93%。
Encode成员、澳大利亚昆士兰大学的约翰·马蒂克相信,很多的这些转录正做着科学家们尚未了解的重要工作。他说:“我敢打赌这个比例是绝大多数,但无法确定是80%还是90%。当你越过卢比孔河(意即跨越界限)并回过头来看时,你就会发现蛋白质中心论是相当原始的。”
这些RNA编码基因的某些可能会引发罹患某些疾病的风险。作为Encode项目的一部分,科学家们正在确定和癌症等常见疾病相关的DNA中的变异位点。这些变异的三分之一远离任何蛋白质编码基因。对非编码RNA工作机理的了解,将有助于科学家们找到如何使用药物来对抗疾病遗传风险的方法。欧洲生物信息研究所Encode项目的负责人之一伊万·波尔内说:“在接下来的十年里,这将成为一个巨大的研究专题。”
无论非编码RNA有多重要,波尔内还是怀疑,Encode项目发现的绝大多数转录其实并不能做很多的事情。他认为,这不过是摊在桌上的一种假说而已。
Encode的另一名成员、加州大学的大卫·豪斯勒对波尔内的观点表示赞同。他说:“细胞将制作出RNA,并简单地将其一扔了之。”
豪斯勒以进化论作为其观点的基础。如果一个DNA片段对一些重要分子进行了编码,突变往往就会产生灾难性的损害。自然选择将淘汰大多数的突变。但是,如果一个DNA片段不做那么多,它就能在不引起任何损害的情况下发生突变。在数百万年的时间里,与那些不太重要的DNA片段相比,一个重要的DNA片段几乎不会收集突变信息。
人类基因组中,只有大约4%的非编码DNA显示出了经历过强烈自然选择的迹象。其中某些可能含有能控制邻近基因的DNA片段。豪斯勒怀疑,剩下的绝大多数都没有什么功用。他说:“大多数的非编码DNA就是一些多余的东西。”
但是,这些没有用处的多余物和有用DNA之间的界限很难划分。突变使得细胞从基因形成蛋白质成为可能。科学家们把这样的一个无用DNA片段称作假基因。格斯坦和他的同事估计,人类基因组中存在1万个到2万个假基因。它们中的大多数实际上是死的,但也有少数仍能制造出具有重要功能的RNA分子。格斯坦将这些具有功能的假基因戏称为“不死族”。
基因组中的外来客
然而,基因组中的许多多余物并非来自死亡的基因,而是来自入侵的病毒。病毒反复地感染人类的远祖,并将其DNA添加到代代相传的遗传物质中。这些病毒一旦侵入人类基因组,它们有时就会制作自身的新副本,这些副本则被粘贴到基因组的其他位置。经过许多代以后,它们发生变异,然后就会失去移动的能力。豪斯勒说:“我们的基因组里充斥着这些小病毒的腐烂尸体,这些病毒以我们的基因组为家已经数百万年之久了。”
当这些相当数量的病毒DNA四处跳跃时,在人类基因组中它们就会造成很大的损害。它们能够干扰基因,使其停止制作重要的蛋白质。数百种遗传疾病就跟这些跳跃密切相关。非编码DNA在基因组中的最重要工作之一是阻止这种病毒DNA的快速蔓延。
当然,这些入侵者中的某些也已进化成有用的形式。某些病毒DNA片段经过进化后能制作出我们细胞使用的RNA基因。其他片段则已进化到我们的蛋白质能附着和打开附近基因的位置。
在这个入侵病毒、不死的假基因、不断调整的外显子和表观遗传标记的丛林里,传统的基因概念还能存续下去吗?这是一个开放性的问题,今年3月,普若哈斯卡准备在圣塔菲研究所举行的会议上提出这个问题。
在《美国科学家》杂志上,格斯坦和他的研究生迈克尔·谢林豪斯提出,为了定义一个基因,科学家们必须从RNA副本开始,并回溯到DNA。被用来制作副本的任何外显子都将构筑一个基因。普若哈斯卡认为,一个基因应当是隐藏在遗传性状背后的最小单位。它可能不只包括一个外显子的集合,还包括一起被继承的位于其上的表观基因标记。
这些新的概念正在使基因远离DNA的物理片段,回到一个更为抽象的定义。金格拉斯说:“这几乎是回到了这个术语最初表达的意思。”在百年诞辰之际,基因正急着“回家”。
●背景链接
1.基因一词的由来
丹麦植物学家和遗传学家威尔海姆·约翰森1909年“创造”了“Gene(基因)”一词。19世纪80年代后期,荷兰植物学家德·弗里斯对植物遗传和进化论的相关问题产生浓厚兴趣,1900年,他按照达尔文命名泛生论时所用的词,把他提出的决定“单位性状”的遗传称为“泛生子”(pangene)。德·弗里斯认为生物的性状由许多单位性状组成,这些单位性状在变异上是相对独立的。这为人们接受孟德尔学说创造了一部分条件,也是颗粒式遗传的基本概念之一,即这种“颗粒”是功能的单位,是重组的单位,是变异的单位。
1909年,约翰森觉得应该创造一个专门名词来称呼这个“颗粒”,这个词应该字母不多、音节很少,以有利于作为词干构成许多别的新词。他选定的是把德·弗里斯从达尔文pangenesis衍生出的pangene缩短而成gene。“gene”源于希腊文字“genos”,意思是“birth(出生)”。
2.关于威尔海姆·约翰森
1857年2月3日,威尔海姆·约翰森出生于哥本哈根,父亲是一名军官。15岁时,约翰森开始在一位药剂师手下当学徒,1879年通过了药剂师考试。1881年,约翰森来到嘉士伯实验室化学部,对植物种子、块茎和花蕾的休眠和发育新陈代谢进行了研究。1892年,约翰森受聘成为哥本哈根农业学院的讲师,并最终成为植物学和植物生理学教授。
约翰森最为著名的研究是关于红草豆的实验。约翰森发现,由一粒种子产生的连续世代的个体具有相同的遗传单位,他称之为“纯系”。大约在1905年,他证明了大小相同的种子可以长出大小不同的植株。他据此认为,植物的外表特征即“表型”虽然不同,但具有相同的遗传单位,也就是保存了共同的“基因型”。然而,他创造的“表型”和“基因型”在当时并没有被广泛接受,因为那时人们普遍认为蛋白质是导致植物表观结构和遗传特性的原因,因此所有的特征似乎可以归结为单一分子。直到进入20世纪40年代和50年代,分子生物学发现遗传物质从化学上来说不同于蛋白质时,表型和基因型的区别才被实验证明确实存在。
3.基因概念
基因是指携带有遗传信息的DNA或RNA序列,也称为遗传因子,是控制生物性状的基本遗传单位,通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现。
4.基因的特点
基因有两个特点,一是能忠实地复制自己,以保持生物的基本特征;二是基因能够“突变”,突变绝大多数会导致疾病,另外的一小部分是非致病突变。非致病突变给自然选择带来了原始材料,使生物可以在自然选择中被选择出最适合自然的个体。
5.基因的类别
基因分为结构基因和调节基因。凡是编码酶蛋白、血红蛋白、胶原蛋白或晶体蛋白等蛋白质的基因都称为结构基因;凡是编码阻遏或激活结构基因转录的蛋白质的基因都称为调节基因。但是从基因的原初功能这一角度来看,它们都是编码蛋白质。
6.基因变异
基因变异是指基因组DNA分子发生的突然的可遗传的变异。从分子水平上看,基因变异是指基因在结构上发生碱基对组成或排列顺序的改变。基因虽然十分稳定,能在细胞分裂时精确地复制自己,但这种稳定性是相对的。在一定条件下基因也可以从原来的存在形式突然改变成另一种新的存在形式,就是在一个位点上,突然出现了一个新基因,代替了原有基因,这个基因叫做变异基因。于是后代的表现中也就突然地出现祖先从未有的新性状。
7.基因诊断
通过使用基因芯片分析人类基因组,可找出致病的遗传基因。癌症、糖尿病等,都是遗传基因缺陷引起的疾病。医学和生物学研究人员正在研究数秒内鉴定出导致癌症等突变基因的基因诊断技术。
8.基因重组
由不同DNA链的断裂和连接而产生DNA片段的交换和重新组合形成新DNA分子的过程。
9.基因疗法
人为地有目的地对人体DNA或RNA进行处理,以达到治疗疾病的目的。(聂翠蓉整理)