基因这个词已经在我们的日常生活当中耳熟能详了,基因这个概念也已经有了1个多世纪的历史,人类基因组测序计划也已经取得了轰轰烈烈的成果,但是,人到底拥有多少个基因呢?这个答案却似乎越来越渺茫了,为什么呢?因为归根结底人们发现,问题出在我们还没有真正明白基因到底是什么。
基因是什么?
19世纪中叶,当孟德尔在他的200平米的修道院花园里种植杂交豌豆,同时日夜琢磨豌豆的性状时,就已经开始形成了基因的概念。在他看来生物的任何一个性状,都对应着生物体内一个神秘的基因,而且这个基因可以一代一代地遗传下去。显然基因对于孟德尔来说,完全是一个抽象概念,当时并没有任何事实可以说明基因是什么。
到了20世纪的前30年,摩尔根通过对果蝇作大量的遗传学实验,基本肯定基因就藏在生物细胞的染色体里面,从而极大地促进了现代遗传学的发展。然后人们自然会问,基因到底是由染色体内的什么分子组成的呢?当时发现染色体的大部分是核糖核酸,还有些蛋白质。鉴于已知核酸的结构组成十分单调,很多人倾向于认为基因是由蛋白质组成的。一直到有人用确凿的实验表明,能够携带遗传信息的,只能是核酸,才让世人的注意力集中到一度被认为无用的核酸上面来。
问题是核酸只是4种核苷酸的聚合物,很难想像这样单调的结构能够用来纪录如此复杂的生命现象,因此揭示DNA和RNA的结构成为当时最吸引人的工作。到20世纪40年代末和50年代初,以弗兰克林、威尔金斯和鲍林为首的化学家们利用对核酸晶体进行X射线衍射,初步知道了核酸的螺旋结构,然后到1953年2月28日,沃森和克里克用搭积木的方式最终摆弄出了正确的DNA双螺旋结构,从而基因在哪里的问题,也得到了最终的答案:基因就隐藏在DNA长长的双螺旋核苷酸序列中!
看起来基因是什么的问题也似乎有了答案:基因就是一段DNA序列嘛。然而这个答案基本没有什么意义,因为我们还是不知道什么样的DNA序列段落可以称为基因。
在30年代,比德尔和泰特姆就曾经提出一个基因的很有洞察力的定义:一个基因和一个蛋白质一一对应。显然这是一个生物学上非常有意义的定义,也是一个无比清晰的定义。首先因为蛋白质是生命的基本建筑单位,正是蛋白质的多样性决定了生命的多样性和复杂性,我们完全可以大胆假设,只需要能够遗传蛋白质的信息,就足够生命重构一个崭新的个体;再者一个蛋白质是可以很清楚地确定出来的,然后再看这个蛋白质是由哪些DNA序列决定的,那不是就可以把那些相关DNA序列定义为一个基因吗?
这个定义几乎成了现代分子生物学的教条,因为它成功地指导了5﹑60年代以来分子生物学的飞速发展。首先是克里克发现了由DNA决定氨基酸的遗传密码,即DNA的4种核苷酸的序列与组成蛋白质的20种氨基酸的对应法则,这样就能够做到由蛋白质的氨基酸序列翻译出相应的核苷酸序列;或者反过来由核苷酸序列翻译出相应的蛋白质氨基酸序列,如果这个核苷酸序列确实对应着一个蛋白质的话。
随后法国分子遗传学家莫纳德发现,基因不只是一些可以翻译为氨基酸序列的表达信息的DNA段落,还有一些序列段落是用于指导和控制基因本身的复制与表达的功能性序列段,它们和信息性段落结合在一起,才构成一个完整的基因。例如标记一个基因的开始和结尾的部分,以及标记基因在什么条件下应该被表达的部分,这些都是一个基因获得完整功能所不可或缺的。于是人们通过总结这样的功能性序列部分的编码规律,开始逐渐对于基因的结构有了一些初步的认识。
搜索基因
当人们开始获得大量测定DNA序列的能力的时候,要根据我们对基因的归纳定义用手工的办法从动辄几十万个核苷酸序列里面寻找基因,有点令人望洋兴叹。于是人们想到了利用计算机来作这种费劲的工作,即首先把人们已知的对于基因结构的知识归纳起来,形成一些判别标准,然后把这些判别标准翻译为计算机程序,这样只要把从测序实验室获得的DNA序列输入计算机,就可以自动告诉我们这个序列里面是否存在﹑以及存在那些段落是满足我们对于基因的归纳定义的,这样的程序被称为基因搜索程序。
第一个这样的程序被称为“基因塑造者”,是1990年由美国新墨西哥州立大学的菲尔德和索德兰德编制的,它的最初目的是想从一种线虫的DNA序列里面搜索基因。然后马上有人把这个程序加以改编,用于搜索人类基因。随着分子生物学家把越来越多的判别标准加入程序,而数学家也设计了越来越精巧的算法,从这里引申出来的工作在不到10年的功夫里,就发展为一个崭新的称为生物信息学的领域。
另外一种搜索基因比较成功的程序思路是,拿新得到的DNA序列直接和已知的基因DNA序列进行对比,由于不同物种之间,特别是亲缘物种之间,相同功能的蛋白质的同源性非常高,因此其DNA序列的相似性也很高,这样就能够高效地确定出新DNA序列里面的基因来。
这两种思路各有其缺陷,第一种思路常常把一些看起来很象基因的序列段落判定为基因,但经过分子生物学实验检验却发现不是基因;而第二种思路只能搜索到和已知基因具有相当相似性的基因,从而根本不可能找到新的基因。当然这两个思路的共同缺陷是,如果某个真实的基因,既不能够被已知的对基因的归纳定义所概括,又不和任何已知的基因类似,那么所有这些程序都无法把它甄别出来。
当然,这个缺陷是运用计算机处理DNA序列的固有缺陷,因为只要我们无法获得一个关于基因的完备定义,就不可能指望计算机能够帮我们无遗漏地鉴别出基因来。而问题正好出在我们迄今无法给出基因的完备定义,相反,基因到底是怎么组成的,倒是一个越来越令人困惑的问题。
善于捉迷藏的基因
首先人们发现,在一个DNA序列里面,存在某些片断属于某个基因,这样的片断被称为外显子;而间杂的那些片断与任何基因根本没有关系,这样的片断称为内含子。例如人的甲状腺球蛋白基因,总长是10万个核苷酸对,但这10万个核酸序列里面,间杂了40多个内含子段落,这样剩下真正属于基因的核苷酸对,其实只有约8500个。那么对于到底如何在一个连续的DNA序列里面甄别出内含子和外显子的起始点与终止点,就只有依靠大量收集已经在实验室获得证实的样本,作为归纳的基础,不幸的是这样的归纳并没有揭示太强的规律出来,这就等于拒绝了我们精确地定义基因。
分子生物学家常常发现一些基因比预料的短很多,而有时一个基因能够编码两种蛋白质,还有些DNA序列很象基因,但实际上是编码RNA,因此除非进行大量彻底而费时的分子生物学判别实验,一般会难以判断一段DNA序列究竟是一个能够编码两个蛋白质的基因,还是存在重叠序列的两个不同基因。这种情况实际上宣告了一个基因对应一个蛋白质的教条已经过分简单和粗略了。
还有更加糟糕的情况是,常常在基因组里面发现某些部分根本无法理解,既不能判断其为无用的垃圾序列,也无法判断其中是不是包含真正的基因,因为运用已知的一切程序和实验方法都无法从其中搜索到基因。但很多人相信,其中有可能隐藏了真实的基因,只是这些基因具有我们闻所未闻的特征而已。
不过,尽管基因是如此地喜欢隐藏自己,甚至把自己的面目搞得神秘莫测,科学家们还是尽力地去捕捉其蛛丝马迹。在1991年,席德就在搜索程序里面引入动态规划算法,专门用于从内含子以及非编码区当中识别外显子。从1994年开始,萨尔兹伯格等人通过引入更多的判定规则,而发展了一系列的搜索软件。而格林等人则通过大量地在不同物种之间进行比较,不止是比较基因的序列,同样也比较其他的特征性序列,从而也获得了不少新知。
不过在1996年,当这种依靠比较来搜索基因的方法极度盛行的时候,MIT的伯格却从语言学家那里获得启发,因为他意识到从DNA序列当中搜索基因的问题,类似于语言学家从一种语言的文本当中搜寻各种语法特征的问题,因此他在搜索程序的设计当中,引入了一种称为隐马柯夫模型的统计方法,这种方法让程序学习已知基因的特征,而自动统计归纳出一系列的模式,然后再运用这些模式去预测和搜索新的基因。他把自己的这个程序称为“基因扫描”,推出后一举获得了极大的成功,目前已经成为一个标准程序。不过“基因扫描”有些料敌从宽,用它搜索得到的人类基因达到45000个,比大多数人所认为的数目整整多了一倍。
此外,还有很多其他的基因搜索程序,使用了各自独特的手段和策略来捕捉狡猾的基因。例如一个称为“基因智慧”的程序,利用蛋白质常常构成一些具有很高相似性的群体的特征,把待鉴别的DNA序列翻译为氨基酸序列,再把这个氨基酸序列和已知的蛋白质氨基酸序列进行比较,看它和哪些群体比较接近,只要不是完全孤立,就可以估计该DNA序列是不是编码了一个真实的蛋白质。
随着获得了整个基因组的全部序列的物种越来越多,干脆在整个基因组之间进行对比是非常有意义的,这样不仅能够有望发现物种间进化的秘密,也有助于相互参考﹑发现和确定新的基因,因为物种之间的相关蛋白质也应该具有进化关系。这个新的可能性是目前搜捕基因最热门的途径,也预示着人类和基因之间玩猫捉老鼠的游戏在进入一个新的高潮。
迷雾中的人类基因
正是由于人类和基因之间的游戏如此复杂,使得我们对于人类基因数目的估计一直起伏不定,充满争议。由于在整个人类基因组的DNA序列当中,一般预计属于外显子的部分,只有2%,而这2%的序列被淹没在其他98%的杂乱信息当中,因此可以想像搜捕基因的难度有多大。
几年前最好的估计是人类具有10万个基因,而当人类基因组计划完成后,一下子下降为3万个基因。运用目前最流行的4种基因搜索程序对人类基因组全序列进行搜索,“基因智慧”的结果是24500个,“双生扫描”的结果是25600个,“基因身份证”的结果是32400个,“基因扫描”的结果是45000个,而最近更多的人则倾向于是2万个基因。
但即使是在已经被搜索出来的基因当中,还仍然存在一定比例的伪基因需要逐一剔除。有人估计,在目前一般确认的24500个人类基因当中,至少还包含了3000个伪基因尚待剔除。显然这对于“机关算尽”的人类来说,实在是一个相当艰巨的任务,因此越来越多的从事基因搜索的科学家们决定暂时中止单纯的搜索研究,还是让人类的基因数目继续保持神秘吧,因为不得不承认,我们仍然需要回到分子生物学的实验室里面,更加深入地去探究,基因到底是什么。
本文由奇点天文作者上传并发布,奇点天文仅提供文章投稿展示,文章仅代表作者个人观点,不代表奇点天文立场。
科学家必须在庞杂的经验事实中抓住某些可用精密公式来表示的普遍特征;由此探求自然界的普遍原理。
科学是一种强大的智慧的力量;它致力于破除禁锢着我的神秘的桎梏。
真正的科学不知道同情;也不知道厌恶;它的惟一目的就是真理。
科学的惟一目的是减轻人类生存的苦难;科学家应为大多数人着想。
科学家不创造任何东西;而是揭示自然界中现成的隐藏着的真实;艺术家创造真实的类似物。
科学的惟一目的是减轻人类生存的苦难;科学家应为大多数人着想。
科学是人类的共同财富;而真正的科学家的任务就是丰富这个令人类都能受益的知识宝库。
天才是不足恃的;聪明是不可靠的;要想顺手拣来的伟大科学发明是不可想象的。
社会主义是科学和文化的社会。要成为社会主义社会的当之无愧的成员;应当努力地和好好地学习;获得很多的知识。
任何时候;我也不会满足;越是多读书;就越是深刻地感到不满足;越感到自己知识贫乏。科学是奥妙无穷的。
科学要求一切人不是别有用心而心甘情愿地献出一切;以便领受冷静的知识的沉甸甸的十字勋章这个奖赏。
独立思考能力;对于从事科学研究或其他任何工作;都是十分必要的。在历史上;任何科学上的重大发明创造;都是由于发明者充分发挥了这种独创精神。
如果学习只在于模仿;那么我们就不会有科学;也不会有技术。
在学习中
社会主义是科学和文化的社会。要成为社会主义社会的当之无愧的成员