理论教育 微生物基因组学:大小与复杂程度的差异

微生物基因组学:大小与复杂程度的差异

更新时间:2025-01-02 理论教育 版权反馈
【摘要】:不同的生物体,其基因组的大小和复杂程度各不相同。一般来说,大多数DNA病毒的基因组为双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。这种现象在其他的生物细胞中仅见于线粒体和质粒DNA,所以也可以认为是病毒基因组的结构特点。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0kb,其中不翻译的部分约为1.0kb,该区同样也是其他基因表达的调控区。

基因组(genome)是一个细胞或者生物体所携带的一套完整的单倍体序列,包括编码序列和非编码序列在内的全部DNA分子。基因组又可分为核基因组(nuclear genome)、线粒体基因组(mitochondrial genome)和叶绿体基因组(chloroplastic genome)。核基因组是单倍体细胞核内的全部DNA分子。线粒体基因组则是一个线粒体所包含的全部DNA分子。叶绿体基因组则是一个叶绿体所包含的全部DNA分子。

不同的生物体,其基因组的大小和复杂程度各不相同。一般来讲,进化程度越高的生物体其基因组越复杂。本章主要介绍病毒、细菌真核细胞染色体基因组的结构和功能。另外,对染色体外遗传因子如质粒和线粒体DNA的结构和功能也分别做一介绍。

一、病毒基因组的结构和功能

病毒是最简单的非细胞结构生物。完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA,有些病毒的外壳蛋白外面还有一层由宿主细胞构成的被膜,被膜内含有病毒基因编码的糖蛋白。病毒不能独立地复制,必须进入宿主细胞中借助细胞内的一些酶类和细胞器才能复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸酶的破坏。

1.病毒基因组的结构特点

(1)病毒的基因组很小 如乙肝病毒DNA只有3kb,所含信息量也较小,只能编码4种蛋白质;痘病毒的基因组为300kb,可以编码几百种蛋白质,不但编码病毒复制所涉及的酶类,甚至编码核苷酸代谢的酶类,因此,痘病毒对宿主的依赖性较乙肝病毒小得多。

(2)病毒基因组可以由DNA或RNA组成病毒基因组的DNA或RNA可以是单链或双链的,可以是闭环分子,也可以是线性分子。如乳头瘤病毒是一种闭环的双链DNA病毒,而腺病毒的基因组则是线性的双链DNA;脊髓灰质炎病毒是一种单链的RNA病毒,而呼肠孤病毒的基因组是双链的RNA分子。一般来说,大多数DNA病毒的基因组为双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。

(3)多数RNA病毒的基因组是一条RNA,但也有多条的RNA如流感病毒的基因组由8条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息;而呼肠孤病毒的基因组由双链的节段性的RNA分子构成,共有10个双链RNA片段,同样每段RNA分子都编码一种蛋白质。

(4)基因重叠现象普遍基因重叠是指同一段DNA片段能够编码两种甚至三种蛋白质分子。这种现象在其他的生物细胞中仅见于线粒体和质粒DNA,所以也可以认为是病毒基因组的结构特点。这种结构使较小的基因组能够携带较多的遗传信息。重叠基因是1977年Sanger在研究ϕχ174时发现的。ϕχ174是一种单链DNA病毒,宿主为大肠杆菌,因此,又是噬菌体。图6-1以A、B、C等标记基因,未标记的为调控序列。它感染大肠杆菌后共合成11个蛋白质分子,总分子质量为25×104u左右,相当于6078个核苷酸所容纳的信息量。而该病毒DNA本身只有5375个核苷酸,最多能编码总分子质量为20×104u的蛋白质分子。Sanger在弄清ϕχ174的11个基因中有些是重叠基因之前,这样的矛盾长时间无法解决。重叠基因有以下几种情况:

①一个基因完全在另一个基因里面。如基因A和B是两个不同基因,而基因B包含在基因A内。同样,基因E在基因D内。

②部分重叠。如基因K和基因A及C的一部分基因重叠。

③两个基因只有一个碱基重叠。如基因D的终止密码子的最后一个碱基是基因J起始密码子的第一个碱基。这些重叠基因尽管其DNA大部分相同,但是由于将mRNA翻译成蛋白质时的读框不一样,产生的蛋白质分子往往并不相同。有些重叠基因读框相同,只是起始部位不同,如SV40 DNA基因组中,编码三个外壳蛋白的VP1、VP2、VP3基因之间有122个碱基的重叠,但密码子的读框不一样。

图6-1 噬菌体ϕχ174基因组结构

(5)病毒基因组大部分是用来编码蛋白质的,只有非常小的一部分不被翻译 这与真核细胞DNA冗余现象不同。如在ϕχ174基因组中不翻译的部分只占217/5375,G4 DNA中占282/5577,都不到5%。不翻译的DNA序列通常是基因表达的控制序列。如ϕχ174基因组的H基因和A基因之间的序列(3906~3973),共67个碱基,包括RNA聚合酶结合位点、转录的终止信号及核糖体结合位点等基因表达的控制区。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0kb,其中不翻译的部分约为1.0kb,该区同样也是其他基因表达的调控区。

(6)病毒基因组DNA序列中功能上相关的蛋白质基因或rRNA基因往往簇集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元 它们可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA,然后再加工成各种蛋白质的模板mRNA。如腺病毒晚期基因编码病毒的12种外壳蛋白,在晚期基因转录时在一个启动子的作用下生成多顺反子mRNA,然后再加工成各种mRNA,编码病毒的各种外壳蛋白,它们在功能上都是相关的。ϕχ174基因组中的D-E-J-F-G-H基因也转录在同一mRNA中,然后再翻译成各种蛋白质,其中J、F、G及H都是编码外壳蛋白的,D蛋白与病毒的装配有关,E蛋白负责细菌的裂解,它们在功能上也是相关的。

(7)除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次,反转录病毒基因组有两个拷贝。

(8)病毒基因组中的内含子噬菌体的基因是连续的;而真核细胞病毒的基因是不连续的,具有内含子。除了正链RNA病毒之外,真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。更为有趣的是,有些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是外显子。如SV40和多瘤病毒的早期基因就是这样。SV40的早期基因即大T和小t抗原基因都是从5146开始反时针方向进行的,大T抗原基因到2676位终止,而小t抗原到4624位即终止了,但是,4555~4900一段346bp的片段是大T抗原基因的内含子,而该内含子中4624~4900的DNA序列则是小t抗原的编码基因。同样,在多瘤病毒中,大T抗原基因中的内含子则是中T和t抗原的编码基因。

2.RNA噬菌体的基因组结构与功能

目前研究最清楚的大肠杆菌RNA噬菌体是MS2、R17、f2和Qβ。它们的基因组较小,只有3600~4200个核苷酸,包含4个基因。MS2、R17和f2具有几乎一样的基因组结构。在4个基因中有2个基因编码噬菌体的结构蛋白,其中编码A蛋白的基因长1178个核苷酸。A蛋白(称为成熟蛋白)的功能是使噬菌体能识别宿主,并使其RNA基因组能进入宿主菌,每个噬菌体一般只存在1分子的A蛋白。另一个结构蛋白基因长399个核苷酸,编码外壳蛋白以构成病毒颗粒,每个噬菌体有180个分子。基因组的其他部分编码RNA复制酶和一个溶解蛋白。编码溶解蛋白的基因与外壳蛋白和复制酶的基因有部分重叠,但读框与外壳蛋白的读框不一样。在MS2、R17、f2基因组内有许多二级结构,RNA分子内碱基的自我配对,可能对防止RNase降解有一定作用。另外,在编码基因的5′端和3′端各有一段非翻译序列,该序列对稳定RNA分子也有一定作用。

另一种RNA噬菌体Qβ的基因组略大,与上述RNA噬菌体的基因组有以下不同:①没有独立的溶解蛋白基因,但结构蛋白A2(或称成熟蛋白)即具有溶解蛋白的功能;②还编码另一种外壳蛋白A1。

二、细菌基因组学

细菌基因组的结构特点在许多方面与病毒的基因组相似,而在另一些方面又有其独特的结构和功能。

1.细菌染色体基因组结构的一般特点

(1)基因组通常仅由一条环状双链DNA分子组成细菌的染色体相对聚集在一起,形成一个较为致密的区域,称为类核(又称拟核,nucleoid)。类核无核膜,与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋。染色体DNA通常与细胞膜相连。细胞膜可能发挥着固定染色体的作用;另外,在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚。

(2)具有操纵子结构其中的结构基因为多顺反子 即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因即调节子所调控。

(3)结构基因单拷贝和rRNA基因多拷贝在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝,但是编码rRNA的基因rrn往往是多拷贝的,这样可能有利于核糖体的快速组装,便于在急需蛋白质合成时细胞可以在短时间内大量生成核糖体。

(4)非编码序列少和病毒基因组相似,细菌基因组上不编码的DNA部分所占比例比真核细胞基因组少得多。

(5)具有编码同工酶的同基因 例如,在大肠杆菌基因组中有两个编码分支酸变位酶的基因、两个编码乙酰乳酸合成酶的基因。

(6)无基因重叠现象 和病毒基因组不同的是,在细菌基因组中编码序列一般不会重叠,即不出现基因重叠现象。

(7)具有各种功能的识别区域 如复制起始区OriC,复制终止区TerC,转录启动区和终止区等。这些区域往往具有特殊的序列,并且含有反向重复序列。

(8)在基因或操纵子的终末往往具有特殊的终止序列这些特殊的终止序列可使转录终止和RNA聚合酶从DNA链上脱落。例如,大肠杆菌色氨酸操纵子后尾含有40bp的GC丰富区,其后紧跟AT丰富区,这就是转录终止子的结构。终止子有强、弱之分,强终止子含有反向重复序列,可形成茎环结构,其后面为polyT结构,这样的终止子无需终止蛋白参与即可以使转录终止。而弱终止子尽管也有反向重复序列,但无polyT结构,需要有终止蛋白参与才能使转录终止。

2.大肠杆菌染色体基因组的结构和功能

大肠杆菌染色体基因组是研究得最清楚的基因组。估计其基因组含有3500个基因,75个操纵子。已知基因中8%的序列具有调控作用。大肠杆菌染色体基因组中已知的基因多是编码一些酶类的基因,如氨基酸、嘌呤、嘧啶、脂肪酸维生素合成代谢的一些酶类的基因,以及大多数碳、氮化合物分解代谢的酶类的基因。除了有些具有相关功能的基因在一个操纵子内由一个启动子转录外,大多数基因的相对位置是随机分布的。如控制小分子合成和分解代谢的基因,糖酵解酶类的基因等。

在已知转录方向的50个操纵子中,27个操纵子按顺时针方向转录,23个操纵子按反时针方向转录,即DNA两条链作为模板指导mRNA合成的概率差不多相等。在大肠杆菌染色体基因组中,差不多所有的基因都是单拷贝基因。另外,由于大肠杆菌细胞分裂极快,可以在20min内完成一次分裂,因此,携带多拷贝基因的大肠杆菌并不比单拷贝基因的大肠杆菌更为有利;相反,由于多拷贝基因的存在,使E.coli的整个基因组增大,复制时间延长,因而更为不利,除非在某种环境下,需要有多拷贝基因用来编码大量的基因产物,例如,在有极少量乳糖或乳糖衍生物的培养基上,乳糖操纵子的多拷贝化可以使大肠杆菌充分利用乳糖分子。但是,一旦这种选择压力消失,如将大肠杆菌移到有丰富乳糖的培养基上,多拷贝的乳糖操纵子便没有存在的必要。相反,由于需要较长的复制时间,这种重复的多拷贝基因会重新丢失。

大肠杆菌染色体基因组中,大多数rRNA基因集中于基因组的复制起点oriC的位置附近。这种位置有利于rRNA基因在早期复制后马上作为模板进行rRNA的合成,以便进行核糖体组装和蛋白质的合成。从这一点上看,大肠杆菌基因组上的各个基因的位置与其功能的重要性可能有一定的联系。

3.乳酸菌基因组学

乳酸菌是一群微好氧、大多数G+C含量比较低、能够发酵碳水化合物产生乳酸的G +菌。乳酸菌以同型发酵或者异型发酵的方式,产生乳酸以及乙醇、二氧化碳等一些副产物。乳酸菌广泛地分布于自然界,与人类关系密切:能够加速食品的酸化,并且产生风味物质,增加食物的营养以及改善食品的质地,在食品生产中扮演着极其重要的角色,执行发酵乳品、肉类和蔬菜中的主要生物转化过程;乳酸菌也是生产酒、咖啡、青储、可可饮料、酵母和多种传统发酵食品的关键因素;一些乳酸菌是机体重要的益生菌,对于维持胃肠道微生态平衡,抑制肠道内病原菌生长,提高机体免疫力有积极功效;一些乳酸菌被广泛用于轻工业、医药及饲料工业等许多行业中。乳球菌属(Lactococcus)、肠球菌属(Enterococcus)、酒球菌属(Oenococcus)、片球菌属(Pediococcus)、链球菌属(Streptococcus)、明串珠菌属(Leuconostoc)、乳杆菌属(Lactobacilus)是重要的工业菌。

(1)乳酸菌基因组学2001年,第1株乳酸菌即乳酸乳球菌乳酸亚种(Lactococcus lactis subsp.lactis)IL1403基因组测序的完成,揭开了乳酸菌基因组学研究的新篇章。截至2016年1月,NCBI基因组数据库中已完成全基因组测序的乳酸菌菌种超过300个。乳酸菌基因组学研究,为从分子水平上揭示乳酸菌的多样性和进化历程,解析生理和代谢机制,挖掘重要性状相关的功能基因,进而加速优良菌种的选育和改造,高效利用乳酸菌,提高发酵工业化控制水平等提供了依据。

乳酸杆菌目的乳酸菌基因组相对较小,一般为2Mb左右,平均2000个基因。其中,植物乳杆菌(L.plantarum)WCFS1的基因组最大,为3.31Mb。放线菌门的乳酸菌基因组相对较大,一般在2Mb以上,其中扩展短杆菌(Brevibactium linens)基因组为4.2Mb。放线菌门的乳酸菌的基因组GC含量高,一般在60%以上。不同种之间基因数目从1600~3000个不等。基因数目呈现的差异表明乳酸菌处于一个动态的进化过程之中。所有的乳酸菌都含有假基因,假基因数目20~200个。乳酸菌中含有转座因子——插入序列(IS),大小一般在750~2500bp,数量由0.2%到5%,说明有较高的遗传可塑性。许多乳酸菌,尤其是乳球菌中,含有多种质粒,大小从1.9~130kb不等。质粒编码的基因占总基因数目的0%~4.8%(表6-1)。

表6-1 常见乳酸菌的基因组特征

乳酸乳球菌主要用作干酪的发酵剂。IL1403基因组为2.36Mb,G+C含量为35.4%,预测含有2310个基因,平均每个基因长度为879bp。编码区占基因组的86%,RNA为1.4%,非编码区为12.6%。基因组中含有6个rRNA操纵子、62个tRNA基因。该基因组含有6种不同的插入序列,总计长度为42kb。插入序列随机分布于染色体中,该菌株可能是两个亲缘关系相近的基因组发生基因重组的产物。该基因组涵盖了6个原噬菌体,其中pi1~pi3编码蛋白质49~60个。另外3个分子质量较小(11~15kb),编码蛋白质16~23个之间,由于缺乏编码噬菌体结构的相关基因,可能作为其他噬菌体的辅助噬菌体。乳酸乳球菌在厌氧条件下,通过糖酵解途径将糖转化成乳酸。在基因组中发现了葡萄糖转化成丙酮酸过程中所需要的全部基因,无三羧酸循环、糖异生以及回补反应相关的酶类。有趣的是,厌氧生活的乳酸乳球菌基因中含有好氧呼吸所必需的基因,暗示了遗传信息从乳球菌属到革兰阴性的肠细菌沙门菌属和埃希菌属的水平转移。

嗜酸乳杆菌(L.acidophilus)属于同型乳酸发酵菌。该菌NCFM菌株是一株已被广泛应用的商业化菌株,广泛应用于液态乳、酸乳、固态液化食品、婴幼儿食品和果汁中,是公认的最具经济价值的益生菌。嗜酸乳杆菌NCFM基因组1.99Mb,G+C含量34.71%,预测含有1864个基因。在基因组发现了9个与噬菌体整合相关的整合酶基因,但是未发现任何完整的噬菌体。预测它有9个双组分信号转导系统,其中一些与细菌素的合成和耐酸性有关。与其他的嗜酸菌相比,嗜酸乳杆菌缺乏大多数维生素和氨基酸的生物合成能力,但是编码了大量的转运蛋白,具有强的发酵能力。

(2)乳酸菌功能基因组学 已经确定了大量重要性状相关基因,如糖类代谢基因、细菌素合成基因、黏膜结合蛋白基因、脂多糖合成基因等。

①糖代谢相关基因:乳酸菌对各种碳水化合物及相应物质具有很强的分解能力,在发酵过程中偶联的底物水平磷酸化产生的ATP是主要的能量来源。大多数乳酸菌均具有糖代谢相关基因,如糖酵解下游3-磷酸甘油酸转化为丙酮酸的基因、丙酮酸转化为乳酸和丁二酸的基因、磷酸戊糖途径的关键酶基因、甘露糖磷酸转移酶系统的关键酶基因等。与其他乳酸菌相比,植物乳杆菌对生长环境中多种糖源具有更强的适应性,这主要是由于其含有大量糖转运蛋白,大部分是磷酸烯醇式丙酮酸(PEP)依赖型的己糖磷酸转移酶(PTS)。除此以外,还发现了近30个其他糖转运系统相关的转运蛋白。

②黏膜结合蛋白基因:许多肠道乳酸菌中含有编码黏膜结合蛋白(MUB蛋白)的基因,编码细胞外蛋白,与乳酸菌的黏附性能相关,在乳酸菌与宿主胃肠道的交互作用中起着非常重要的作用。目前在植物乳杆菌、嗜酸乳杆菌、沙克乳杆菌、约氏乳杆菌、乳酸乳球菌乳脂亚种、短乳杆菌等乳酸菌基因组中发现了黏膜结合蛋白,这些蛋白的大小从1000~4300个氨基酸不等;并且这些蛋白的黏膜结合区域大小也不尽相同,从100个氨基酸到200个氨基酸不等。一个黏膜结合蛋白可含有1个或多个黏膜结合区域,最多可达到15个。预测嗜酸乳杆菌NCFM基因组中含有13个黏膜结合蛋白,其中LBA1392与罗伊乳杆菌已经定性的黏膜结合蛋白具有25%的同源性,并且大小相似。

(3)乳酸菌比较基因组学

①应用于细菌协作研究:德氏乳杆菌保加利亚亚种和嗜热链球菌在牛乳发酵过程中彼此促进生长并产生酸化。德氏乳杆菌保加利亚亚种具有一种胞外细胞壁结合蛋白酶,可以降解牛乳蛋白;通常嗜热链球菌不具有此类蛋白酶。前者分解牛乳蛋白为后者提供肽和氨基酸;同时嗜热链球菌产生的甲酸和二氧化碳将促进德氏乳杆菌保加利亚亚种的生长。比较基因组学研究发现,还存在着其他的因素在二者协作上扮演着重要角色。德氏乳杆菌保加利亚亚种基因组序列编码了一整套合成叶酸的基因。叶酸是许多代谢反应的辅助因子,也是人类所需的重要维生素。然而,该菌没有产生叶酸的组成成分对氨基苯甲酸(PABA)的途径。而嗜热链球菌拥有合成PABA和叶酸所必需的酶。因此,二者共培养时,可以产生较高水平的PABA和叶酸。

聚胺参与多种细胞生化反应,对于抗氧化压力具有重要作用。在德氏乳杆菌保加利亚亚种基因组中发现了两个ABC转运系统负责腐胺和亚精胺的吸收,同时发现了2个编码鸟氨酸脱羧酶(催化鸟氨酸转化为腐胺)的基因。但是该菌没有产生鸟氨酸的必要基因。嗜热链球菌也有一个ABC转运系统,专门吸收腐胺和亚精胺;同时嗜热链球菌含有鸟氨酸合成基因,但不含有编码鸟氨酸脱羧酶的基因。因此,推测在发酵过程中,二者相互交换鸟氨酸和腐胺,相互得利。

已预测了有限数量的细胞壁蛋白和细胞外蛋白,可能其中一些蛋白参与了两个菌之间的联系。从发酵的角度来看,存在于两个菌中的胞外多糖基因簇表现出高度的不同。这些菌株中胞外多聚糖基因簇的变化,可能对酸乳的质地特性有一定的影响。

②应用于细菌进化研究:乳酸杆菌属是乳酸杆菌科中最大的一个属,包括了100多个种。比较基因组学为研究乳杆菌进化提供了新的途径。对来自乳杆菌属的唾液乳杆菌、植物乳杆菌、嗜酸乳杆菌、约氏乳杆菌和沙克乳杆菌等5个种的乳酸菌基因组进行比较,基于整个基因组序列建立的系统发育进化分析,表明唾液乳杆菌与植物乳杆菌亲缘要近于沙克乳杆菌。对嗜酸乳酸菌群中的嗜酸乳杆菌、约氏乳杆菌、格氏乳杆菌、德氏乳杆菌保加利亚亚种、沙克乳杆菌等5种乳酸菌基因组进行比较研究,发现约氏乳杆菌与格氏乳杆菌、嗜酸乳杆菌以及德氏乳杆菌保加利亚亚种在蛋白质序列和基因组同线性等方面显示出极高的相似性,相比而言与沙克乳杆菌基因组的相似性较低。嗜酸乳酸菌群中各种乳酸菌之间的相似性呈阶梯式降低,表明在该群中存在着垂直进化的因素。

4.病原细菌基因组学

细菌基因组研究加快了重要致病基因发现的速度,同时通过发现致病性细菌的特异DNA序列,提高了临床诊断的效率和准确性,并可促进新药的发现和疫苗开发,也为人类认识遗传性疾病的机制提供了线索。病原细菌的比较基因组学研究可以揭示某些控制病原菌以人为宿主的专一性基因,促进疫苗和特异性药物的开发;还可以得出某些特定功能所必需的基因,从而进一步了解细菌与宿主和环境之间的相互关系。

(1)流感嗜血杆菌基因组特征无毒力的Rd株基因组大小为1.8Mb,G+C含量为38%,与人类基因组十分接近。在整个基因组中共鉴定出1743条预测编码序列,其中736条没有检索到同源匹配序列,389条未找到对应蛋白,347条在数据库中存在假设蛋白,1007条预测编码区确定了功能。

(2)结核分枝杆菌基因组特征结核分枝杆菌(Mycobacterium tuberculosis)H37Rv菌株全基因组序列约4.41Mb,有3924个开放阅读框架,4000个基因,G+C含量高达65.6%,以GTG为起始密码子的为35%。此外,富含G+C的密码子编码的氨基酸如Ala、Gly、Pro、Arg和trp较多,富含A+T的密码子编码的氨基酸如Asn、Lys、Phe和Tyr较少。G+C含量作图发现整个基因组的G+C含量分布极不均一,说明可能存在水平转移。几个高G+C含量区域属于PGRS(polymorphic G+C rich sequence),A+T含量高于平均值的区域主要编码聚乙酰类合成酶和跨膜蛋白。在3924个开放阅读框中,约40%有功能,44%可能有功能,16%为孤儿序列(与数据库序列无明显相似性)。基因有广泛的功能冗余,序列高度保守,可能和结核分枝杆菌的DNA修复机制忠实有关。

结核分枝杆菌的异柠檬酸盐裂解酶基因(icl)是使菌在小鼠中持续存活的关键基因。该基因的产物在细菌利用脂肪酸作为碳源的代谢中十分重要。当结核分枝杆菌感染机体由急性转入持续感染后,转为利用脂肪酸为碳源这一代谢旁路。这是将细菌的表型与宿主免疫系统作用相联系的首次报告。另一与细菌持续存活相关的基因pacA编码环丙烷合成酶,是形成α-分枝酸盐的关键:α-分枝酸盐是分枝菌酸末端形成碳环的结构,是覆盖分枝杆菌胞体表面的组分。在测序中还发现了两类不大相关的富含Gly的酸性蛋白,N-端高度保守,富含Pro-Glu和Pro-Pro-Glu基序,分别被称作PE家族和PPE家族,具有高度多态性,可能是在复制时改变了链剪切的结果,通过改变表达蛋白的类型,提供给宿主免疫系统一个活动的靶子,从而逃避免疫系统。

(3)幽门螺旋杆菌基因组特征 幽门螺旋杆菌(Helicobacter pylori)只有一条环状染色体,大小分别是26695株为1.66Mb,J99株为1.64Mb。J99菌株有1495个ORF,占全基因组的91%,其中89个ORF在26695株中不存在,并且J99株比26695株少95个ORF。全基因组约2/3为功能基因,1/5基因功能未知,1/4基因为特有基因。幽门螺旋杆菌基因组的特有基因及毒力相关基因等通常在基因组上呈簇连续排列;有些基因虽然在染色体上非连续排列,但编码的蛋白质具有相似的结构域特征并组成重要的功能群;双核苷酸重复在启动子区域的出现,显示幽门螺旋杆菌以一种特殊的机制调控基因的表达。与其他细菌不同,幽门螺旋杆菌的rRNA位点并不相邻,提示可能是由一种复杂机制所调控。在J99基因组中发现有与枯草杆菌相同的gatABC基因,还发现菌株特异的DNA修饰/限制基因,其G+C含量比其他基因低,提示这些基因可能是通过“横向”途径获得的。至少有40个基因与鞭毛的结构形成、鞭毛蛋白的分泌、组装和调控有关。(www.daowen.com)

(4)霍乱弧菌基因组特征 霍乱弧菌EL Tor N16961株有2个环状染色体,分别为2.96Mb和1.09Mb;共编码3885个ORF,在大的染色体上编码绝大多数已知起主要作用的基因,如DNA转录、转译、合成细胞壁的基因,及与致病性有关的基因;小染色体上带有在质粒中发现的宿主嗜好基因和基因捕获系统,推测小染色体起源于该菌祖先从外界捕获的一个巨大质粒。霍乱弧菌的基因组提供了在环境中自由存在的微生物如何转为对人有强致病性细菌的研究起点,分析这一细菌基因组将为细菌如何对环境因素应答而进化,及其演变的过程提供重要资料。

(5)肺炎链球菌基因组特征 肺炎链球菌TIGR4株基因组2.16Mb,G+C含量39.7%。推测有2236个编码基因,其中1081和1155个基因分别位于DNA复制起点的左、右两侧,其中左侧857个和右侧916个基因的转录方向与DNA的复制方向一致。在2236个编码基因中,64%的功能已经明确,16%的编码基因在其他细菌中能找到同源序列,但功能不清,余下的则为孤儿基因(无同源家族)。肺炎链球菌有1219种推测蛋白在低G+C含量的G +菌中有同源性,其中与乳酸乳杆菌的同源性最高。肺炎链球菌不同菌株之间的毒力岛不同,导致了株间的不同毒力和抗原性。

(6)钩端螺旋体基因组特征 螺旋体是一种在进化和形态上均比较独特的微生物。与苍白密螺旋体和伯氏疏螺旋体相比较,钩端螺旋体基因组较大,且能够在环境中独立生存,因此,对钩体基因组的研究更具有重要的科学意义。由致病性钩体引起的钩体病是一种全球性自然疫源性疾病。我国是受钩体病危害严重的国家之一。钩端螺旋体(Leptospira)包含大小两个染色体,全长4.33Mb,G+C含量36%,含有4768个基因,其中4360个基因位于大染色体(CⅠ),367个基因位于小染色体(CⅡ)。大多数与生长、变异相关的基因位于CⅠ,但某些重要基因仍定位于CⅡ,表明CⅡ是基因组的重要组成部分,而非由基因转移所致。钩体编码rRNA和tRNA的基因数量极少(只有4个rRNA和37个tRNA),可能是其生长缓慢的重要原因之一。钩体基因组的研究进一步证实了钩体在进化上是一个比较特殊、古老的微生物。与其他能够培养的细菌相比,钩体基因组所编码的蛋白质的更高比例具有真核蛋白质的结构特征,初步提示基因的水平转移可能是钩体获得致病性的原因。钩体基因组所编码的基因在排列顺序上更加分散,整个基因组中分布有包括IS1500和IS1501家族成员的多于30个拷贝的插入序列,说明基因组具有可塑性。

5.口腔细菌基因组学

人体口腔的细菌种类和数量繁多,对口腔疾病的发展发挥重要的作用。此外,口腔细菌还可能与中风、消化系统癌症等疾病有一定的关系,甚至影响着人体的味觉。口腔细菌基因组学研究对口腔和其他相关疾病的病理机制、预防控制等具有较大意义。

(1)牙龈卟啉单胞菌基因组特征 牙龈卟啉单胞菌(Porphyromonas gingivalis)、齿垢密螺旋体(Treponema denticola)和具核梭杆菌(Fusobacterium nucleatum)与牙周疾病高度相关。牙龈卟啉单胞菌W83测序证实了已知的毒力因子,如半胱氨酸蛋白酶和其他的蛋白酶。在基因的组装阶段,当大量潜在的可插入序列(IS)正确地连接在一起便产生一个克隆重叠群。这些IS或IS片段与毒力因子相关。在W83菌株中至少有96个完整的IS或IS片段拷贝,这些IS片段属于12个家族。在许多临床或实验菌株中广泛存在IS片段。牙龈卟啉单胞菌的序列揭示了一些在其他黄杆菌和类杆菌属中存在的毒力因子的编码基因,包括一些免疫反应性表面蛋白是由bat操纵子编码的蛋白质,此外还能够通过转座子Tn5520与类杆菌进行基因交换。

(2)齿垢密螺旋体基因组特征 齿垢密螺旋体不仅是牙周炎的致病菌,也与苍白密螺旋体(Treponema pallidum)有亲缘关系。包括主要表面蛋白在内的几种表面蛋白是主要的毒力因子。齿垢密螺旋体利用氨基酸和多肽作为碳和氮的主要来源。齿垢密螺旋体基因组的蛋白质相应物中,14%由齿垢密螺旋体基因编码,而64%则与苍白密螺旋体同源,但这些同源对应物大多是在蛋白质水平,而DNA序列相差甚远。齿垢密螺旋体的基因组比苍白密螺旋体基因组大得多。主要差别是苍白密螺旋体缺少限制-修饰系统,从而影响插入序列结构或噬菌体。但基因组大小的差异并不是苍白密螺旋体在进化中减少的唯一原因,一些种属间转移基因可能对生物膜中的生存至关重要,苍白密螺旋体丢失了部分代谢和转运中的基因,使其更加依赖宿主来获取营养物质,所以其不能适应人体生物膜结构。

(3)具核梭杆菌基因组特征 具核梭杆菌ATCC25586菌株有一个环状的染色体,约2.17Mb,G+C含量为27%,大大低于口腔内其他细菌,不含有质粒(在ATCC10593中含有3个质粒)。和牙龈卟啉单胞菌一样,具核梭杆菌可利用氨基酸和多肽生长。具核梭杆菌是正常或牙周病相关牙菌斑的重要结构成分,是粘接桥生物,其表面蛋白的作用包括黏附及和其他细菌的共聚集。在分析ATCC25586基因组的结构时,认为外膜蛋白是可能的共聚集蛋白、毒力因子和候选疫苗。

(4)中间普雷沃菌基因组特征 中间普雷沃菌(Prevotella intermedius)可与具核梭杆菌、微小消化链球菌(Peptostreptococcus micros)形成复合物。已找到中间普雷沃菌包括与凝血、溶血和血红蛋白结合活性等相关的毒力因子。从口内或口外感染病灶取得的中间普雷沃菌临床株对抗生素均有抗性,这是牙周炎致病菌中的耐药菌之一,提示这种微生物可能是天然的抗生素抗性基因库,也可能是一个潜在的传播抗性基因的来源。中间普雷沃菌也含有一些牙龈卟啉单胞菌的免疫反应性表面蛋白和蛋白酶同源基因。牙龈卟啉单胞菌的一个插入序列ISPg3在中间普雷沃菌的蛋白质和核酸水平均有同源物,提示这两种细菌间的基因交换。

(5)伴放线放线杆菌基因组特征 伴放线放线杆菌(Actinobacillus actinomycetem-comitans,Aa)是一种兼性厌氧菌,与青少年牙周炎密切相关,已证实许多毒力因子,包括表面蛋白外毒素和其他促进侵袭性或破坏宿主防御系统的蛋白质,有抑制宿主组织修复的作用。测序的细菌HKI651是一个临床分离株,已知88个克隆重叠群的序列,预期的蛋白质与其他微生物有高度同源性,接近43%的基因与嗜血流感杆菌有同源性,与巴氏杆菌有41%同源性。在基因序列上,巴氏杆菌(Pasteurella)和Aa的基因序列高度保守,与嗜血流感杆菌基因组也有同源性。16S rRNA序列分析表明,Aa与嗜血流感杆菌有近的亲缘关系。

(6)变形链球菌基因组特征 变形链球菌(Streptococcus mutans)UA159菌株只有1个环状染色体,基因组2.03Mb,共编码1963个ORF,其中63%具有可推测功能,21%与其他细菌的基因有同源性,但功能未知,16%为变形链球菌所特有,基因平均长885bp,G+C含量为36.82%,基因编码区的G+C含量为37.54%,共有65个tRNA操纵子,5个rRNA操纵子。测序结果揭示变形链球菌可代谢多种糖,合成所需的各种氨基酸,合成蛋白酶、肽酶以及其他外酶,同时ORF中的15%用于编码各种转运系统,这些均说明变形链球菌可由宿主获取营养物质。变形链球菌UA159基因组全序列的测定对防龋药物的筛选、预防和治疗性疫苗的设计将产生重要的影响。

三、线粒体DNA的结构和功能

线粒体是真核细胞内重要的细胞器,是能量生成的场所,还参与脂肪酸的合成及某些蛋白质的合成。多年来的研究发现线粒体有其自己的一套遗传控制系统,同时也受到细胞核染色体DNA的控制。mtDNA与质粒DNA一样,也是双链的超螺旋环状分子(原生动物中的草履虫及四膜虫的mtDNA是双链线性分子)。碱基的组成也是A、T、G和C。mtDNA的分子质量多在(1~200)×106u。一般来说,动物mtDNA较小,约为10×106u;植物的mtDNA较大,为(70~200)×106u。mtDNA的复制属于半保留复制,可以是θ形复制,或滚环复制。另一种比较突出的特点是所谓mtDNA的D环复制,即两条DNA链不同时开始复制,而是一条在前,一条在后,因而在复制过程中生成D环。

1.线粒体基因组的表达特点

(1)线粒体基因组线粒体是生物氧化的场所,呼吸链中的某些蛋白质或酶的编码基因就在mtDNA上。线粒体还编码自己的rRNA、tRNA、核糖体基因。现在已知线粒体的基因组至少含有如下基因。(a)tRNA基因:啤酒酵母的mtDNA有24个tRNA基因,粗糙脉孢菌的mtDNA有40个tRNA基因;(b)rRNA基因:在人类mtDNA中有一个拷贝的16S及12S rRNA基因;(c)细胞色素氧化酶基因:细胞色素氧化酶有7个亚基,其中3个亚基由mtDNA编码,4个亚基由细胞核DNA编码;(d)ATP酶基因:ATP酶分子质量为340ku,含有10个亚基,其中4个亚基由mtDNA编码;(e)细胞色素还原酶(b,c复制物)基因:此酶有7个亚基,其中一个亚基由mtDNA编码;(f)另外,还有一些抗药性基因也在mtDNA上。

(2)线粒体密码子系统在蛋白质合成时,mRNA上的密码子和tRNA上的反密码子是对应的。已知道20种氨基酸有61种对应的密码子,按照摆动学说,最少需要32种tRNA才能完全识别mRNA中的61个密码子。但在线粒体中,tRNA的种类显然小于此数(如人的mt mRNA只有22种);而且,已有实验证明,无细胞质tRNA进入线粒体参与其蛋白质的形成过程。这些事实表明在线粒体基因表达过程中的密码子系统与通用的密码子系统不一样(表6-2)。在线粒体tRNA的反密码子方面,也有其独特的地方。首先,由于密码子的简并性(degeneracy),如果密码子前两位碱基一样,则最后一位(3′位)的碱基无论是嘌呤(A,G)或嘧啶(C,T),这样组成的密码子都编码同一样氨基酸。对于这样的密码子,mt tRNA的反密码子5′摆动位上的核苷酸如果为U,则可以与上述密码子3′位的4种核苷酸配对,因而,一个tRNA可以识别4种密码子。但是,如果密码子3′位由嘌呤碱基组成的密码子与由嘧啶碱基组成的密码子编码不同的氨基酸,这时,mt tRNA反密码子上5′位的U经过修饰识别3′位由嘌呤碱基组成的密码子,而不再识别3′位由嘧啶碱基组成的密码子,这样,便可以防止错误翻译的发生。其次,mt tRNA在结构上与细胞质tRNA也有区别。如GTφCRA(R代表嘌呤)序列在大多数mt tRNA中不存在。D环和TφC环中一些保守的核苷酸也发生了变化。最突出的是tRNA-Ser的结构,该tRNA缺乏D臂。这些结构上的差异表明mt tRNA三维结构以及与mt核糖体的作用方式与细胞质tRNA不一样。

表6-2 线粒体遗传密码的特殊性

(3)线粒体DNA的双重遗传控制线粒体除具有DNA外,还有自己的蛋白质合成系统,如tRNA、rRNA、核糖体等。这些成分与细胞质的相应组分不同,而与细菌的比较相似。此外,mtDNA的复制和转录都是以自己的聚合酶来完成的。mtRNA聚合酶只是一条简单的多肽链,这也与真核细胞的酶不同,而且此细菌性质的酶对原核细胞转录酶抑制剂利福平敏感。蛋白质合成时,线粒体核糖体上的蛋白质合成也受细菌蛋白质合成抑制剂如氯霉素、链霉素的抑制。这些情况说明线粒体的许多组分是自主的,不受细胞核的控制,而且在许多方面与原核生物相似。另一特点是参与呼吸链的一些酶成分是受双重遗传控制的,即部分亚基为细胞核基因所编码,另一些亚基则是mtDNA编码的。根据线粒体的这些特点,Margulis提出了线粒体形成的内共生学说。在进化过程中原始的厌气细菌吞噬了原核生物(如细菌、蓝绿藻等)形成共生关系。寄主为共生者提供营养和保护,共生者为寄主提供能量生成系统。最终,共生者演化成细胞的组成成分——线粒体。

2.真菌线粒体基因组

真菌线粒体基因组均为闭合环形双链DNA。基因组的大小依据不同种类的真菌而异,为10~80kb,差别较大。真菌线粒体基因组通常包括11个编码呼吸链亚基的基因(coxl-3、cobnadl-6和nad4L)、3个编码ATP合成酶复合物亚基的基因(atp6、atp8和atp9,尽管后者在一些子囊菌线粒体DNA中要么没有要么是假基因)、两个编码核糖体RNA的基因(rnsrnl)和若干tRNA基因。接合菌门和子囊菌门成员编码全套线粒体tRNA,足以翻译所有密码子使用密码,但担子菌中的一些种类,如裂褶菌,则缺乏识别酪氨酸的tRNA密码子。真菌基因组整体富含A+T核苷酸,一般占到总量的60%~80%。多数真菌线粒体基因组含有内含子,但是也有青霉属等少数类群,其线粒体基因组完全由外显子构成。在分布上,内含子插入许多不同的线粒体基因中,对蛋白质编码基因特别是coxlcob有强偏爱。真菌线粒体tRNA基因中没有发现内含子,rRNA中发现的相对较少。其他基因如nad6、cox2或atp9很少含有内含子。这种现象表明,内含子喜欢存在于物种间高度保守的序列区。多数真菌的线粒体基因使用标准翻译密码子,但是在小壶菌目和壶菌目中,许多UAG终止密码子被翻译为亮氨酸。据研究者推测,最有可能的是普通翻译密码子是真菌线粒体里的一个祖先性状,与植物和许多原生生物共享;但UAG密码子转化为特殊的亮氨酸极有可能发生在小壶菌目-壶菌目分支的祖先中。值得注意的是,有研究报道在某些真菌,如长雌异水霉(Allomyces macrogynus)的线粒体基因组中发现了一个编码核糖体蛋白的基因。研究者据此认为,核糖体蛋白编码基因可能在其他低等真菌线粒体中出现是一个祖先特点。这一特征在真菌与动物于进化过程中走上不同道路后,则逐步发生了分化。

真菌线粒体基因组大小变化是线粒体进化研究的一个重要方面。真菌类群线粒体基因组尺寸变化很大。其中,以物种间和物种内线粒体基因组变化较典型。真菌物种间线粒体基因组大小变化广泛,其变化范围从10kb到100kb之多。这些物种之间线粒体基因组大小的变化强烈程度受到基因间隔区长度和组成的影响,也受到内含子含量(0%~30%)和大小(0.15~4.0kb)的影响。据统计分析,发现在双孢蘑菇线粒体基因组(135005bp)中存在着46个内含子,其基因组较大,而在裂褶菌线粒体基因组(49704bp)中不存在内含子,其线粒体基因组相对较小。同时,在对其他真菌物种线粒体基因组的统计研究中也发现内含子影响线粒体基因组大小的现象,如对Podospora属(80~102kb)两个种的比较,发现种间线粒体基因组大小因内含子插入不同而存在差异。此外,在啤酒酵母和粟酒裂殖酵母的线粒体基因组中,虽然它们都有相同数量的编码基因,但是它们的线粒体基因组大小差别很大(分别为85778bp和19431bp)。这两个酵母物种间线粒体基因组大小差异也受到内含子数量(分别为12个、3个)的影响。同一真菌物种不同菌株之间基因组大小不同。这种差异的存在主要受内含子大小的影响。蛹虫草的3个菌株线粒体基因组尺寸变化很大(29478~33277bp)。从3个蛹虫草菌株线粒体基因组中检测到8个内含子,其中7个内含子显示出存在或缺失的变化,并且蛹虫草物种内线粒体基因组大小的变化由内含子的存在或缺失造成。此外,在其他真菌的线粒体基因组中也发现类似的情况。另外,除了真菌种内存在线粒体基因组变化外,属内也有线粒体基因组大小变化的现象,如禾生球腔菌(Mycosphaerella graminicola)18000~109000bp,粗糙脉孢菌19000~109000bp,柄孢壳菌(Podospora anserina)80000~102000bp。

四、真核微生物基因组学

真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。真核生物基因组存在重复序列,重复次数可达百万次以上。基因组中不编码的区域多于编码区域。大部分真核基因含有内含子,因此,基因是不连续的。真核生物基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。

1.酿酒酵母基因组学

酿酒酵母是模式真核微生物,对其遗传、生理、生态等进行了大量深入的基础研究。1996年,酿酒酵母完成了全基因组的测序工作。这是人类测序的首个真核生物,也标志着酿酒酵母基因组学全面发展时代的到来。

(1)酿酒酵母全基因组的序列信息1996年完成了第一个真核生物——酿酒酵母全基因组的测序工作,标志着酿酒酵母基因组学全面发展时代的到来。酿酒酵母基因组由16条染色体组成,大小为12.052Mb,共有6275个基因,基因组全长13030000bp。基因组中共有5885个蛋白质编码基因,平均长度是1450bp,共483个密码子。最长的开放阅读框(open reading frames,ORF)位于酿酒酵母的第12号染色体上,是一个未知功能的ORF,约有4910个密码子。另有275个编码tRNA的基因和40个编码snRNA(small nuclear RNA)的基因,广泛分布在16条染色体上;位于12号染色体的长末端上约有140个编码rRNA的基因。此外,酿酒酵母中约4%的编码基因(大多数为tRNA基因)有内含子,通常这些内含子位于靠近rRNA基因的起始部分,缺失突变体的覆盖率达到90%。根据酿酒酵母基因组数据库(Saccharomyces Genome Database,SGD;http://www.yeastgenome.org)的报道,酿酒酵母基因在各染色体上分布的大致情况见表6-3。

表6-3 酿酒酵母染色体数据简况

许多酿酒酵母染色体由交替的G+C含量高和G+C含量低的区段所组成,G+C含量的分布变化通常与这些染色体上的基因密度分布变化相一致。例如,在3号染色体,碱基组成的周期性变化与染色体臂上的基因重组频率的变化相一致。G+C富集区就是染色体臂中部重组频率高的区域,A+T富集区又与重组频率低的端粒和着丝粒区域序列对应。4个最小的染色体(1号,3号,6号和9号)表现出的平均重组率超过整个基因组水平的1.3~1.8倍。

(2)酿酒酵母结构基因组学的研究 随着酿酒酵母全基因组测序的完成,酿酒酵母结构基因组学的研究进入一个全新的发展时期,其研究的内容主要是通过构建酿酒酵母基因组高分辨率的遗传图谱、物理图谱、序列图谱以及基因图谱,来测定蛋白质的组成和结构。最初的研究主要利用DNA多态性及分子标记等手段来建立遗传连锁图谱、确定遗传标志间的物理距离,并采用全基因组鸟枪法策略完成全基因组测序;同时利用实验方式(如X射线晶体学、核磁共振谱学和电子显微学)来测定蛋白质结构,并结合同源建模等计算方式来推测蛋白质结构。近年来,计算机信息技术和互联网的发展使得在结构基因组学的研究过程中,对大型数据的收集、存储、处理和分析成为可能。酿酒酵母结构基因组学的研究从单一的实验方法走向利用快速、高通量技术构建庞大的代谢通路和基因图谱的方向,即从宏观上探讨复杂的生命活动规律,为高等生物基因组学研究提供模型,并且日益显现出强大的生命力。在前面研究的基础上,2010年Brenda和Charles等与其研究团队通过SGA(synthetic genetic array)方法,构建了一张基因组规模的酿酒酵母相互作用图谱,涵盖75%的酿酒酵母基因,大规模地解释了遗传水平上基因的相互作用和基因功能,通过与该图谱比对,研究人员就可以很快地找到某个未鉴定基因的功能,是酿酒酵母功能基因组学发展过程中的一大突破。

(3)酿酒酵母功能基因组学的研究 功能基因组学以高通量、大规模统计及计算机分析为特征,在基因组水平上全面分析基因的功能,使得基因组研究从静态地对单一基因或蛋白质的研究转向动态地对多个基因或蛋白质同时进行及其相互之间作用的系统研究中。近年来,巨大的数据信息促进了酿酒酵母功能基因组学的迅速发展。酿酒酵母功能基因组学主要通过计算机网络、数据库和应用软件等手段,综合地对酿酒酵母核酸和蛋白质序列进行分析,并解读其在功能与结构上所表达的生物信息。目前其主要的研究内容有:高通量地注释酿酒酵母基因组的所有编码产物的生物学功能;注释所有预测基因的功能;结合生物学实验,构建在生物体内各基因相互调节的网络。这些研究内容具体体现在相应的高通量生物技术手段的广泛应用中,如DNA点阵、基因重组、基因芯片和蛋白质芯片技术等。

酿酒酵母功能基因组学的研究正日益向工业化方向发展。通过对酿酒酵母基因突变体的系统鉴定,发现基因序列微小的改变能导致相应的基因功能的改变,因此研究基因组水平上基因序列的差异性,找出突变基因,可以在实验上指导优良新型菌株的构建,这一技术现已被应用到现代乙醇发酵工业生产中,从功能基因组学的角度研究酵母乙醇发酵功能,对提高工业生物乙醇的生产效率具有重要的意义。

(4)酿酒酵母最小基因组的研究 酿酒酵母最小基因组是指将其基因组所有明显丰余基因进行删减,在删减之后酿酒酵母依然能在实验条件下生长的最小基因组数目。酿酒酵母基因组具有高度紧密性,相比其他的高等真核生物基因,其基因间隔区更短,酿酒酵母每隔2kb的长度就存在一个可以编码蛋白质的基因,而线虫为6kb,人类基因组为30kb。也就是说,整个酿酒酵母的基因组中,高达72%的核苷酸顺序是由ORF所组成的,且基因中的内含子较为稀少。这些优势使构建酿酒酵母最小基因组在基因组水平上成为可能。同时,酿酒酵母既具有原核生物生长快、遗传操作简单的特点,又有哺乳类细胞的翻译后加工和修饰功能,如二硫键的正确形成、前体蛋白的水解加工、糖基化作用等,用来生产来源于真核生物的生物活性蛋白有很多优点,这使建立酿酒酵母最小基因组在实验操作上成为可能。

未知基因的功能可以通过生物外源基因,如人类cDNA,与酿酒酵母中功能已知基因缺陷型的互补实验来识别,但是酿酒酵母基因组中存在的大量重复序列会影响到互补克隆。为了解决这一缺陷,建立酵母最小基因组成为了一条新的研究途径。科学家将人类或病毒的DNA序列与酿酒酵母最小基因组中所保留的基因进行完全替换,发现替换后的表型将完全取决于外源基因,这不仅使酿酒酵母成为其他生物未知基因的筛查工具,也构建了一种新的筛选抗癌和抗病毒药物的研究模式。Winzeler等用PCR技术介导基因中止能够非常精确地定向中止特定的基因功能,同时将特定序列标签标记在被中止的基因上,从而实现对酵母基因组大规模的删除。通过这种方法,酿酒酵母基因组中有2026个开放阅读框可以被删除,其中,生存所必需的基因占删除基因的17%,而不同程度地影响酵母生长的基因占删除基因的40%。根据Winzeler的实验数据,酿酒酵母最小基因组不超过1000个基因。酿酒酵母最小基因组研究也被应用到现代酿造技术中。在酿酒酵母最小基因组构建成功的条件下,酿酒酵母的改造研究也取得了很多新的进展,实现了在提高质量的同时降低成本的综合性目标。

(5)酿酒酵母比较基因组学的研究 比较基因组学(Comparative genomics)的威力在于它能够根据对一种生物相关基因的透彻认识,来理解、诠释甚至克隆分离另一种生物的基因,从而帮助人们更高效、更准确地研究功能未知的某些基因的相关信息。比较基因组学又分为远源基因组间的比较和近源基因组间的比较。其中,在生物学领域,远源基因组间的合理比较,能够为认识生物学机制的普遍性提供良好的事实依据;而近源基因组间的比较则为人们更好地认识基因结构与功能等更为细小的问题提供重要参数。

2.医学真菌基因组学

现在已知的能引起人类疾病的真菌约有300余种,其引起疾病的表现多种多样。真菌病尤其是深部真菌感染病例数日益增多,真菌病已成为影响人类生活质量、威胁生命健康的重要疾病之一。近年来,随着重要病原真菌基因组测序的基本完成,对其毒性因子的研究深入而广泛。基因组学研究对医学真菌进化发育、菌株鉴定、致病机制和药物作用机制研究以及抗真菌药物开发等产生了重要影响。

(1)念珠菌基因组学念珠菌是最常见的深部致病真菌,优势菌种为白色念珠菌(Monilia albicanCanidia albicans),其次为热带念珠菌(C.tropical)、光滑念珠菌(C.glabrata)、克柔念珠菌(C.kruseii)和近平滑念珠菌(C.parapsilosis)等。其中一个突出的问题是热带念珠菌、克柔念珠菌和光滑念珠菌的药物抵抗,尤其是对唑类药物的耐药性。白色念珠菌SC5314二倍体基因组大小27.56Mb,编码基因14217个,预测蛋白14217个。含有8对同源染色体(染色体1~7和染色体R),长度为0.95~3Mb,G+C含量33.4%。白色念珠菌富含短序列重复片段,其脂类和氨基酸降解酶的组成十分复杂,而主要重复序列存在于每条染色体上;染色体存在广泛的移位和压力诱导的丢失现象。与酿酒酵母相比,白色念珠菌基因组大小是其1.3倍,两者仅64%的序列相同,并不比与人和其他距离较远的酵母菌的相似性更高;在全基因组和线粒体基因组,两者均存在代谢上的差异;另外,白色念珠菌存在与毒力相关的一些大的基因家族,如凝集素样序列(agglutinin-like sequence,ALS)、铁转运蛋白、分泌型天冬氨酸蛋白酶、分泌型脂酶等相关基因,这些均可能导致白色念珠菌的强致病性。念珠菌全基因组大小在10.6~15.4Mb,单倍体的基因小于二倍体,但编码基因数量接近,5733~6318个之间,并不与基因组大小成正相关;G+C变动在33%~45%,转座子及其他重复片段也存在变异,主要重复序列只存在于白色念珠菌和热带念珠菌中。致病菌中存在一些基因家族的高表达,如参与脂酶、寡肽、转运蛋白、黏附素合成的家族,参与合成细胞壁Hyr/Iff、Als黏附素和Pga30样蛋白的家族,参与合成胞外酶和转膜蛋白家族的高表达。这些数据整合了全球念珠菌的多样性,确认了念珠菌从寄生菌向致病菌进化中基因序列上的改变,如分泌蛋白和细胞壁蛋白的扩展,包括SAP家族(secreted aspartyl proteinase)和ALS(agglutinin-like sequence)家族的扩展。另外,白色念珠菌具有一些种特异性基因家族的扩展,如与菌丝生长有关的一个富含亮氨酸的重复家族和Fgr 6-1家族。光滑念珠菌基因组为12.34Mb,含有13条同源染色体,共有5499个基因,编码5213个蛋白;拟平滑念珠菌(C.orthopsilosis)基因组12.66Mb,8条染色体,5784个基因,编码蛋白5678个。

(2)隐球菌基因组学隐球菌(Cryptococcus)为一种出芽酵母,广泛存在于自然界,其最具代表性的新生隐球菌(Cryptococcus neoformans)广泛分布于全球,易引起中枢神经系统感染。该菌更容易感染HIV患者,需要终生维持治疗。新生隐球菌基因组约19Mb,14条染色体,6600个编码基因,6500个内含子。转座子很多,占据大约5%的基因序列,集中在候选着丝粒区。这些转座子可能与其核型不稳定及形态变异有关。新生隐球菌为单倍体,有明确的有性期,其表型(a型或α型)与致病性相关,控制该致病性的区域为MAT位点,并发现了几个附带基因;另外,在非MAT区也存在与配型相关的基因,弥散分布于全基因组。作为雌雄异体,新生隐球菌不存在表型转换,与之相应的是,基因组中不存在性别沉默盒。发现了参与荚膜形成的一些特殊基因,如CAP 60基因家族和CAP 10基因家族。其细胞壁结构复杂,有超过50种的特有的胞外甘露聚糖。与白色念珠菌相比,新生隐球菌约有10%的特异性基因,缺乏白色念珠菌细胞表面的与黏附相关的大量蛋白,但存在很多与荚膜和黑素产生相关的基因;此外,药物流出转运子比念珠菌多。这些暗示了两者不同的发病机制。新生隐球菌编码大量真菌共有的序列(65%),在一定程度上能映射出酿酒酵母基因组结构和功能。但是,与酿酒酵母相比,该菌具有约10%的特有系列,富含内含子和转录子,存在广泛的选择性剪接和反义转录现象,但不存在酿酒酵母和念珠菌的全基因组复制现象。提示该菌比酿酒酵母具有更复杂的基因结构。格特隐球菌(Cryptococcus gattii)感染近年来在北美洲西部高发,常发生于免疫正常人群。格特隐球菌基因组大小为17.2~18.4Mb,含14条同源染色体,编码基因6580个。格特复合体内存在种间变异,环境株和临床株间也存在相当大的变异;对氟康唑耐药的菌株存在染色体部分片段的复制现象和染色体倍型差异。格特与新生隐球菌比较,存在广泛的染色体重组。

(3)烟曲霉基因组学烟曲霉(Aspergillus fumigatus)能引起人、畜和禽类的肺曲霉病及其他疾病。烟曲霉全基因组长29.4Mb,包括8条1.8~4.9Mb的染色体,G +C%为49.9%,预测编码基因9926个,平均长度为1431bp,但其中1/3基因功能未知。与构巢曲霉和米曲霉相比,烟曲霉有500个特异基因,包括砷酸盐还原酶基因和其他一些基因,推测这些特殊基因通过水平基因转移方式从土壤细菌中获得。其他特点包括:具有雌雄异体的补充基因、不同于酵母细胞的胞壁装配基因、细胞死亡通路分子、参与编码二级代谢产物和真菌毒素的基因簇、参与编码药物外排泵的基因以及编码各种大分子的基因。

烟曲霉可产生多种真菌毒素如烟曲毒素(fumagillin)、胶霉毒素(gliotoxin)、烟曲霉毒素(umitremorgin)、疣孢青霉原(verruculogen)、烟曲棒麦角素(fumigaclavine)、烟曲霉酸(helvolic acid)和鞘脂菌素(sphingofungins),这些毒素为二级代谢产物,与致病和引起过敏性哮喘有关,为曲霉特殊的致病因子。基因组信息发现这些代谢物由一些特异性的基因簇所控制,烟曲霉有26个调控二级代谢产物的基因簇,其中13个与米曲霉和构巢曲霉同源,但与后两者相比,烟曲霉已经丧失了多个相关的簇和重要基因。这些特异的基因簇控制着一些调节基因、耐药基因和无功能基因,弥散分布于全基因组,在染色体末端相对较多。其中比较重要的基因lae A簇,编码甲基转移酶,调控曲霉的二级代谢产物。丢失该基因后,曲霉将不能产生黄曲霉毒素、杂色曲霉素、土霉素等多种真菌相关毒素,导致烟曲霉和构巢曲霉变为无毒力株。

子囊菌中丝状菌控制性别的基因位点有两个,MAT-1和MAT-2,同宗配合同时含有两个基因,异宗配合时只含有其中一个基因。烟曲霉含有性别控制的全部61个基因,Af293菌株包括MAT-2型基因,而其他一些菌株(如CEA10)包含MAT-1型基因,显示烟曲霉可能为雌雄异体,可以进行有性繁殖,或者说在特定条件下可以发生有性繁殖。

烟曲霉序列与酵母菌(白色念珠菌和新生隐球菌)共有基因序列不多。推测是其不同的基因通过水平基因转移方式从土壤细菌中获得,促进该菌从植物中获取营养。在进化过程中,它具有了敏感的环境感应器,抵抗氧化应激及耐受高温的能力,能通过大量的流出泵输出真菌毒素,快速生长超过组织对它的抵抗等,最终导致它获得侵袭免疫抑制人群的能力。与酵母菌相比,其细胞壁缺乏后者细胞壁上的β-1,6-葡聚糖、肽聚甘露聚糖(peptidomannan)、GPI锚定蛋白和PIR蛋白等维持细胞壁结构完整性的蛋白。但是,在烟曲霉基因组序列中存在一类疏水蛋白,类似于GPI锚定蛋白,在真菌连接到疏水表面、提供立体结构以及孢子存活中占据重要地位。烟曲霉基因组与构巢曲霉和米曲霉序列相差甚远。500多个特异性蛋白在构巢曲霉和米曲霉中未发现同源物,其中1/3表现出与其他真菌产物的相似性,一些参与次级代谢物的生物合成。

(4)皮肤癣菌基因组学皮肤癣菌感染可引起人体浅部真菌病,该类疾病具有最高的发病率和患病率,全球皮肤癣菌病的治疗费用为每年超过5亿美元。因此,对皮肤癣展开基因组测序,借此研究其发病机制,具有与深部真菌同等重要的意义。皮肤癣菌基因组信息研究显示,与其他致病真菌相比,皮肤癣菌具有大量的降解角质的蛋白酶类。本哈密节皮癣菌(Arthrodema benhamiae,须癣毛癣菌的有性期)全基因22.3Mb,含有7980个编码蛋白基因,5809个内含子;疣状毛癣菌(Trichophyton verrucosum)基因组为22.6Mb,含8024个基因,内含子5744个。基因系列上两者具有良好的可比性,97%的系列共线性。两种皮肤癣菌均富含长的G+C结构,被短的A+T岛所分隔。两种菌均具有完备的糖代谢和脂代谢基因,可自主合成20种必需氨基酸和5种核苷酸碱基。与其致病性相关的是,转录组分析发现这两种皮肤癣菌存在基因家族扩展现象,较其他真菌更富含合成二级代谢产物的基因簇,且均富含水解酶,包括降解角质的蛋白酶和脂解酶,这些编码基因与球孢子菌和烟曲霉存在数量和种类上的差异,可能与皮肤癣菌的亲角质性相关。有趣的是,虽然本哈密节皮癣菌为有性生殖,而疣状毛癣菌无有性生殖,但是研究发现两种菌均存在完备的交配和减数分裂调控基因,说明后者缺乏有性期并不是由于参与有性繁殖的关键基因缺乏。皮肤癣菌基因组富含LysM结构域,该结构域与结合细胞壁上的几丁质及相关糖类有关。皮肤癣菌也编码一系列真菌特异性激酶,但具体特异性功能未知,包括非功能性pseudokinases,后者可能与底物竞争结合位点,抑制磷酸化,发挥异位效应,或扮演信息通路中的信号分子。皮肤癣菌还富含大量合成二级代谢产物的酶类,如合成新的化合物的皮肤癣菌特异性基因;另外,皮肤癣还富含几类蛋白酶类,与其在角质层上繁殖或获得营养有关。这些基因组信息分析,大大有利于人们了解皮肤癣菌如何与角质细胞作用、应对机体免疫系统、引起皮肤慢性感染等机制。

3.卵菌基因组学

卵菌(Oomycete)是一类低等真菌,形似绿藻,但失去色素体;除少数外,其营养体大多为管状分枝、无隔、多核的菌丝体;细胞壁含纤维素;无性生殖形成孢子囊,产生孢囊孢子;水生种类具有游动孢子;有性生殖卵式生殖,产生合子称为卵孢子,减数分裂在配子产生时进行,合子萌发形成二倍体的营养体(菌丝体)。卵菌包括腐生菌及植物、昆虫、鱼、甲壳类、脊椎动物和许多微生物的病原菌,病原卵菌导致许多作物、花卉等发生灾难性病害,引起严重的经济损失,同时造成自然生态环境的破坏。卵菌是具有独特分类地位的群体,由于表现出丝状等特性,传统上被划分到真菌界中;随着卵菌分子生物学及生理生化研究的发展,有更多的证据表明卵菌与褐藻等藻类在进化上同属于假菌界(Chromista),而真菌则和动物有更多的同源性。

卵菌的基因组大小差别较大。腐霉(Pythium)的基因组在卵菌中是最小的,18.8~41.5Mb。水霉(Saprolegnia)的基因组大约为51Mb。卵菌细胞中还存在一些小的染色体,在光学显微镜下很难分辨,因而卵菌细胞中的单倍染色体很难定量。显微镜分析显示致病疫霉(Phytophthora infestans)有8~10条染色体,而大豆疫霉(Pythium sojae)有10~13条染色体。大雄疫霉(Pythium megasperma)有7~13条带,恶疫霉(Pythium cactorum)有6条带,苎麻疫霉(Pythium boehmeriae)有4~5条带,而辣椒疫霉(Pythium capsici)有3~4条带。

卵菌存在着独特的转录机制。在真核生物中较常见的元件如TATA box在卵菌启动子中却并不常出现。卵菌的转录起始位点位于起始密码子上游50~100bp处,表明卵菌能够产生高度紧凑的转录物,即它具有真核生物中最短的5′非翻译区。在卵菌开放读码框下游发现富含AT的序列。大多数卵菌基因并不含有内含子。大豆疫霉和致病疫霉基因组中G+C含量约为58%。疫霉的翻译起始密码子ATG附近存在着保守的真核生物共有序列ACCATGA。

卵菌核中存在着转座子元件、基因转换、有丝分裂重组及细胞中对生命活动不重要的一些染色体,这些因素可能引起了卵菌基因组的不稳定。在疫霉菌基因组中存在着大量的转座子序列,它们在基因组中的拷贝数从10~1000不等。

4.丝状真菌基因组学

丝状真菌(Filamentous fungi)通常指那些菌丝体比较发达而又不产生大型子实体的真菌,在自然条件下常引起食物、工农业产品的霉变和植物的真菌病害。真菌被广泛用于各种食物、药物、调味剂、酶制剂、饲料等的生产。某些丝状真菌与农业生产密切相关,它们能引起农作物疾病,也能用于对病害进行生物防治。真菌的这种代谢多样性使对其研究充满了挑战性,同时又具有极高的理论价值和应用潜力。一些常见丝状真菌基因组的主要特征见表6-4。

表6-4 常见丝状真菌基因组的主要特征

续表

酵母和丝状真菌在初级代谢方面有很多共同之处;但在次级代谢方面,丝状真菌更显活跃和多样化。因此,在丝状真菌的次级代谢过程中很可能涉及许多其他基因的存在。粗糙脉胞菌在形态和进化上比酿酒酵母更复杂。粗糙脉胞菌具有更多的孤儿基因,认为其形态上的复杂性反映了新基因的获得或者保存,这也与更大的基因组相对应;发现部分粗糙脉胞菌基因在其他生物中存在同源物,而在酿酒酵母中未发现同源基因的存在,原因可能是酿酒酵母缺失了相应的基因。粗糙脉胞菌的一些基因产物是真菌所特有的蛋白质。

较之大多数真核生物,真菌的基因组基因密度高、重复序列少,这些特点使真菌基因组实用而有效。真菌基因编码序列长度平均在1.3~1.9kb。真菌内含子密度范围多样,担子菌如新型隐球酵母的每个基因含5~6个内含子;许多最近测序的子囊菌平均每个基因含1.2个内含子;而啤酒酵母中总共不到300个内含子。另外,真菌内含子很小,许多子囊菌的内含子平均只有80~150bp。

多重染色体的比较分析表明真菌在基因组水平上存在很大分歧。一般认为,完整真菌染色体的分析在一个相对较短的进化时间范围内会迅速打破之前的保守相似性,即使是同属真菌在基因水平上也显示出显著的分歧。在真菌基因组的研究过程中,人们惊奇地发现,真菌比植物和低等动物与人类亲缘关系更近。发现约有1000个人类蛋白质与真菌的同源性高于其他动物如线虫或果蝇等,他们推断认为人类基因组的功能基因跟酵母及高等真菌的亲缘关系更近。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈