微生物分子鉴定技术包括微生物基因组水平的指纹图谱分析、特殊基因的限制性片段长度多态性、DNA同源性分析、16S/26S/ITS rDNA基因等的系统发育学分析、基因遗传重组与基因交流和突变分析,以及微生物组学技术分析等。
一、基因型分析方法
研究微生物基因型的技术主要包括研究其DNA和RNA分子的技术,例如,对基因组水平指纹图谱的分析、特殊基因的限制性酶切片段长度多态性分析、基因组DNA的同源性分析和对保守基因的序列分析等。在细菌的系统发育研究中,常通过基因序列分析方法分析细菌种群的进化历史,确定种群的进化地位。在细菌多样性研究中,以下方法被用来对大量菌株进行快速鉴定:核糖体16S rRNA和基因间隔区(intergenic spacers,IGS)等保守基因的限制性酶切片段长度多态性分析(restriction fragment length polymorphism,RFLP)和基因组水平指纹图谱分析的组合,可以对大量菌株进行快速分群;通过对各群的代表菌株16S rRNA基因的序列分析,对所研究的细菌菌群进行快速定属;用DNA杂交方法分析各群代表菌株与群内其他菌株及所在属已知种的模式菌株之间的亲缘关系,对待测菌株进行初步定种;用多位点序列分析(multi-locus sequence analysis,MLSA)方法分析一些重要的持家基因的序列,更进一步地确定代表菌株的种属地位。
1.基因组水平的指纹图谱分析
结合PCR和电泳技术,对整个微生物的染色体基因组进行多态性分析的技术即为基因组水平指纹图谱分析。常用方法有:重复序列PCR(repititive sequence PCR,rep-PCR)、扩增片段长度多态性(amplified fragment length polymorphism,AFLP)、DNA随机扩增多态性(randomly amplified polymorphism of DNA,RAPD)和基因组寡位点酶限制性片段的脉冲场电泳(pulsed-field gel eletrophoresis,PFGE)等。实验中选用哪种方法,要根据不同的实验目的来确定。
(1)重复序列PCR指纹图谱分析是较常用的方法。常见的重复序列在细菌染色体基因组上广泛分布,一般在200bp以下。如反向重复序列BOX、基因外重复回文序列(repetitive extragenic palindromic,REP)和肠杆菌科基因间重复保守序列(enterobacterial repetitive intergenic consensus,ERIC)等。研究者首先根据细菌基因组中保守的短重复序列设计引物,并且扩增重复序列之间大小不同的基因片段,然后电泳得到指纹图谱,根据对图谱的分析结果可以很好地揭示菌株间基因组的遗传差异。1992年,de Bruijn发现苜蓿根瘤菌不同菌株之间REP-PCR指纹图谱有一定的差异并具有菌株的特异性。1997年,Laguerre等通过分析几种豆科植物共生根瘤菌的指纹图谱,预测这些根瘤菌的属种水平与其地理起源及宿主植物间的相关性。由于通过BOX等REP-PCR方法得到的指纹图谱具有菌株特异性,所以被广泛用来研究根瘤菌的遗传多样性以及对未知菌株的鉴定。该方法在新种鉴定过程中,可以用来区分新种群中不同的菌株,进而排除菌株来自同一个克隆的情况。
(2)脉冲场凝胶电泳PFGE是一种对大分子DNA进行分离的方法。在脉冲场凝胶电泳中,电场不断在两种方向(有一定夹角,而不是相反的两个方向)变动。DNA分子带有负电荷,会朝正极移动。相对较小的分子在电场转换后可以较快转变移动方向,而较大的分子在凝胶中转向较为困难。因此小分子向前移动的速度比大分子快。脉冲场凝胶电泳可以用来分离大小从10kb到10Mb的DNA分子。脉冲场电泳指纹图谱分析的原理是,首先用寡位点限制性内切核酸酶酶切消化细菌总染色体DNA,然后采用分辨率较高的脉冲场电泳分离酶切结果,从而得到DNA指纹图谱。该法得到的DNA指纹图谱的变化还可以体现相近菌株间的基因重组现象,所以在微生物的基因重组及基因组大小预测等方面得到广泛的应用。
(3)扩增片段长度多态性指纹图谱分析AFLP的原理是将微生物的染色体基因组总DNA进行限制性双酶切,并把消化完全的片段连接至双接头上,然后用与双接头对应的引物选择性地进行扩增,最后将PCR产物经聚丙烯酰胺凝胶电泳并且染色后,就得到了反映所扩增片段长度多态性的指纹图谱。该方法是建立在基因组限制性片段基础上的PCR扩增。由于不同物种的基因组DNA大小不同,基因组DNA经限制性内切酶酶切后,产生分子质量大小不同的限制性片段。使用特定的双链接头与酶切DNA片段连接作为扩增反应的模板,用含有选择性碱基的引物对模板DNA进行扩增,选择性碱基的种类、数目和顺序决定了扩增片段的特殊性,只有那些限制性位点侧翼的核苷酸与引物的选择性碱基相匹配的限制性片段才可被扩增。
AFLP的缺点在于该项技术受到专利保护,因而其应用受到限制,试剂盒价格昂贵。另外,操作中通常要利用同位素标记,对样品DNA质量要求严格。基因组的不完全酶切会影响实验结果,因而对内切酶的要求较高。
(4)DNA随机扩增片段多态性分析RAPD的基本原理如下:首先要设计随机扩增RCR引物,然后利用随机引物在微生物染色体上数目和位置的不同,经PCR反应扩增,便可得到随机扩增基因片段的多态性指纹图谱。由于该方法中选用引物的碱基是随机的,所用引物可达成百上千,可检测到生物体的整个基因组,既能检测有功能的基因编码区,又能检测到重复序列区。RAPD以随机寡核苷酸为引物,比RFLP多态片段短许多,更方便种与亚种的鉴别。RAPD技术在根瘤菌分类研究中不仅可以被用来研究根瘤菌的多样性,又可作为一种分子标记用来对根瘤菌的竞争结瘤情况进行分析。尽管该技术操作简单,但并非所有引物都可以产生足够的多态性。所以,要设计高退火温度的引物,并且要对引物的长度和G+C含量进行优化。
RAPD的主要缺点有:RAPD标记中的核酸染料染色带往往是一种混合标记,是在基因组DNA中扩增位点不一,长度可能相同或不同的一组片段的混合片段标记;RAPD的扩增带多为显性标记,不能区分个体基因型是纯合型还是杂合型;且稳定性和重复性较差。
2.特殊基因的限制性片段长度多态性
特殊基因的限制性片段长度多态性(restriction fragment length polymorphism,RFLP)的技术原理是检测DNA在限制性内切酶酶切后形成的特定DNA片段的大小。首先把特殊的基因片段通过PCR扩增出来,然后进行限制性酶切,产物选用高浓度的琼脂糖凝胶进行电泳分离,就可以获得各个DNA样品的酶切图谱,最后通过分析和比较酶切指纹图谱的多样性揭示微生物基因的多态性。因此凡是可以引起酶切位点变异的突变如点突变(新产生和去除酶切位点)和一段DNA的重新组织(如插入和缺失造成酶切位点间的长度发生变化)等均可导致RFLP的产生。核基因组rRNA的内转录区间ITS适用于种以下的分类和鉴定,而16S rDNA、23S rDNA和前两者之间IGS序列等,被广泛用于细菌分类的RFLP分析,并且以三个基因进行的限制性片段多态性分析统称为核糖体DNA扩增片段限制性内切酶分析(amplified ribosomal DNA restriction analysis,ARDRA),但是它们在细菌分类中有不同的作用。因其简便快捷,该方法被普遍应用于根瘤菌的遗传多样性研究中。其中16S rDNA-RFLP和16S/23S IGS-RFLP具有较好的一致性,后者的结果灵敏度更好一些。而对ITS片段的RFLP分析,则成为对酵母菌等真菌类群大量菌株进行初步分群的一个常用手段。该方法通过PCR扩增ITS片段,然后通过限制性内切酶的消化作用,也可以获得较好的RFLP图谱。
RFLP方法也有一定的局限性。该方法要求扩增特异性的DNA片段,这就要求对所研究的物种DNA序列比较清楚。而真菌属、种多样复杂,其中大部分的基因组序列未知或不清楚,从而限制了它在相应领域的应用。另外,RFLP分析对样品纯度要求较高,样品用量大;且RFLP多态性信息含量低,多态性水平过分依赖于限制性内切酶的种类和数量;加之RFLP分析技术步骤繁琐、工作量大、成本较高,所以其应用受到了一定的限制。
3.DNA-DNA杂交和DNA(G+C)mol%测定(www.daowen.com)
细菌分类鉴定中常用的基本方法是DNA-DNA杂交(DDH)以及DNA(G +C)mol%的测定,这已经成为描述细菌分类单元的一个标准。DDH复性率不低于70%,且ΔTm≤5℃为细菌种的界限。DNA-DNA杂交分为固相分子杂交和液相分子杂交两种类型。在根瘤菌的分类中液相复性速率法是常用的方法。其原理是细菌等原核生物的变性DNA在含适当浓度的盐液体系如0.1×SSC中,能够自动复性成双链。同源DNA比异源DNA的复性速率快,同源程度高则复性速率大,结果杂交值就高;相反,同源程度低则复性速率小,杂交值也就相应的低(图8-2)。此外,实验室主要用热变性法测定DNA(G+C)mol%。该法是在热变性过程中,通过测定DNA在260nm吸光度的增加值来确定Tm值,然后通过公式计算测定DNA的(G+C)mol%。
图8-2 DNA-DNA液相杂交测定DNA同源性的原理
4.16S/26S/ITS rDNA基因和持家基因等的系统发育分析
16S/26S/ITS rDNA等基因序列的测定与分析在细菌与真菌分类中作用巨大。多数研究都测定了相应的基因序列,并且提交至GenBank等公共数据库。这些基因被广泛用来鉴定细菌和真菌的新菌株。需要测定这些rDNA序列的菌株主要来自RFLP初步分群的结果。从各群内挑选代表菌株并PCR扩增和测定相应序列,然后通过Blast比对分析,并在GenBank数据库下载序列相似性高的已知种菌株的相应rDNA序列,然后用MEGA软件进行系统发育分析,构建系统发育树并计算遗传距离。该方法通过与RFLP结果相互印证,将研究的供试菌株归入到特定分类单元。在根瘤菌研究中常选用16S rDNA的序列测定与分析来对供试菌株进行分子生物学分类,可以把供试菌株准确地定位在不同的根瘤菌属。在酵母菌研究中,常选用26S rDNA D1/D2区域序列测定与分析。26S rDNA D1/D2区域位于大亚基的5′端,序列长度在600bp左右。研究表明这段区域具有较高的变异率,可以用于亲缘关系较近的菌株之间的分类研究。对大量子囊菌酵母模式菌种的26S rDNA D1/D2区的序列测序分析发现,同种内不同菌株rDNA D1/D2区核苷酸替换率一般不超过1%,而不同种的菌株其核苷酸替换率则一般较大,因此,该区可以作为酵母菌种级水平鉴定的指标,广泛应用于酵母菌新种分类地位的确定。目前这一区序列在酵母菌分类方面的应用是所有分子学方法中应用最多的。但近些年研究发现愈来愈多的酵母菌存在个体基因组ITS和26S rDNA序列多态性,同一菌株基因组内不同类型的ITS序列差异,可远远超过菌种间的差异范围;同时笔者在研究中也发现,部分酵母菌株的26S rDNA D1/D2区的序列同时与来自不同酵母属或者同一酵母属多个不同种之间的相似性达到100%,这为分类学研究提出了新的课题。核糖体rDNA重复单位序列分析也经常用于丝状真菌和蕈菌等的菌株鉴定。常用的序列为ITS序列,一般包括部分18S rDNA-ITS1-5.8S rDNA-ITS2-部分28S rDNA序列。
细菌研究常用的持家基因有ATP合成酶基因(atpA、atpD)、DNA重组与修复酶基因(recA)、谷氨酰胺合成酶(GSI和GSII)基因、分子伴侣蛋白DnaK编码基因(dnaK)等,以及共生基因中的结瘤基因(nodC)和固氮基因(nifH)。真菌研究常用的蛋白编码基因有RNA聚合酶Ⅱ基因(rpb1和rpb2)、β-微管蛋白基因(β-Tub)、钙调蛋白基因(cal)、γ-肌动蛋白基因(act)、ATP合成酶基因(atp6)和翻译延长因子1α(EF-1α),等。近些年,由于基因测序技术飞速发展,对多个基因进行测序和综合分析已经成为一个发展的趋势。同时PCR扩增多个持家基因并测定其序列,分析细菌的变异,测定不同菌株间的亲缘关系。该分析方法称为多位点序列分析(multilocus sequences analysis,MLSA)。对持家基因的MLSA分析结果要比16S rDNA序列分析结果具有更高的分辨率。
二、组学技术分析方法
1.全基因组测序分析
全基因组测序(complete genome sequencing)是对微生物基因组核酸序列(包括染色体DNA和质粒DNA)构建随机克隆文库,利用新一代测序技术(next generation sequencing)测定克隆文库内DNA片段序列,再利用生物信息学工具将克隆文库内的DNA片段序列拼接组装,从而得到完整的全基因组序列信息;同时需要对全基因组序列进行注释,得到基因长度、功能以及在基因组上的排列位置等信息。首次对一个物种的全基因组序列进行测定,没有任何序列参考信息,只能利用生物信息学方法进行序列组装,从而获得该物种的全基因序列图谱的测序方法称为de novo测序,也称为从头测序。大规模基因组测序有两种策略,逐步克隆法(clone by clone)和全基因组鸟枪法(whole genome shot-gun)。图8-3比较了两种测序策略的差异。目前,新一代测序技术主要有以乳液PCR(emulsion PCR)为代表的美国Roche Applied Science公司测序仪,以桥式PCR(bridge PCR)为代表的美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪(也被称为Solexa测序仪),和以磁珠乳液PCR为代表的美国Applied Biosystems公司的SOLiD测序仪。随着测序技术的不断发展以及测序仪器的更新,现在微生物的全基因组测序费用大大降低,大量生物信息学工具和编程语言的出现以及个人计算机分析处理能力的提高,使越来越多的科研工作者可以测定和分析全基因组数据。但是一些菌株的G+C含量过高或者过低、基因组含有大量的重复序列等问题依然是新一代测序技术及序列组装的难题。尽管测序费用和测序花费的时间都在不断的降低,但是大量全基因组测序花费还是十分巨大的。
图8-3 逐步克隆法和全基因组鸟枪法进行全基因组测序的对比示意
2.全基因组重测序分析
全基因组重测序(complete genome resequencing)是对微生物已知全基因组序列信息的物种进行同种不同菌株的全部序列测定,将测序结果与参考基因组序列(reference genome sequence)进行比对组装,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。在此基础上对个体或群体进行差异性分析,可以找到大量的单核苷酸多态性(SNP)、插入缺失(insertion/deletion,InDel)突变位点和结构变异(structure variation,SV)位点。由于具有完整的参考基因组序列及注释信息,所以重测序基因组不需要倍数很高的测序深度(sequencing depth)。如果采用的是双末端或Mate-Pair方案,当测序深度在10~15倍以上时,基因组覆盖度和测序错误率控制均得以保证,从而降低了测序的费用和时间。现在全基因组重测序技术是群体遗传学研究的重要方法,可以全面快速地找出群体内个体之间的差异。
3.比较基因组学分析
比较基因组学(comparative genomics)是在全基因组图谱和测序技术的基础上,利用生物信息学工具对已知的基因和基因组结构进行比较,来研究基因功能、基因及基因组进化等内容。通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。比较基因组学的基础是相关生物基因组的相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖先基因组进化而来的。两种生物在进化的阶段上越接近,它们的基因组相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。这样就可以利用模基因组之间编码顺序上和结构上的同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。生物其中一个特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其调控作用有所了解。但由于生物基因组中约有1.5%~14.5%的基因与“横向迁移现象”有关,即基因可以在同时存在的种群间迁移,这样就会导致与进化无关的序列差异。因此在系统发生分析中需要建立较完整的生物进化模型,以避免基因转移和欠缺合适的多物种共有保守序列的影响。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。