一、基因组编辑定义
采用基因突变手段可以实现微生物育种,但这种方法工作量大且效率低下,主要是由于基因突变的随机性、突变率低且负突变率高等缺点。随着高通量测序技术的出现和快速更新,以及基因工程手段的多样化,基因组定点编辑技术得到快速发展及广泛应用。基因组编辑(genome editing)是在基因组尺度对细胞进行有效设计与高效改造或修饰等遗传操作,如基因组上多个位点同步插入或删除实现多个代谢分支途径的组合优化和外源代谢路径的大片段基因组整合实现全新代谢能力的改造等。相比基因突变,基因组编辑可以快速、简单、准确地实现基因组上特定基因的定点改造,如基因敲除、基因敲入、基因标签、替换启动子等。基因编辑在植物、动物及微生物的基因功能研究、生物育种以及基因治疗等方面得到了广泛的应用。
二、基因编辑相关技术及原理
1.基因组多重位点的同步编辑技术
基因组上多重位点的同步编辑可用于微生物中组合调控多个酶的表达水平,实现分支路径弱化与主代谢路径强化的同步等,克服多重代谢通量优化的细胞代谢网络改造的困难。该类编辑技术主要为寡核苷酸介导的基因组多重位点编辑技术,如基于λ-Red重组蛋白Beta的多元自动化基因组工程(multiplex automated genome engineering,MAGE),以及该技术改进的共选择的多元自动化基因组工程(CoS-MAGE)等。
(1)多元自动化基因组工程(MAGE) MAGE技术是由哈佛医学院的Church研究团队研制开发的一项新技术,于2009年其在Nature杂志上发表。MAGE技术是基于噬菌体同源重组蛋白(λ-Red重组蛋白Beta)对细菌染色体上多个基因座进行的快速、无痕且特异性的改造(插入、错配和缺失)技术,已在大肠杆菌中实现了基因组的多重位点同步编辑,进而产生多样化基因型的菌株。这一技术最早源自于E.coli中的线性双链DNA高效整合基因组技术,即将携带有抗性基因和同源臂的双链DNA转化到E.coli细胞中时,噬菌体重组酶能够辅助线性DNA整合到基因组同源位点,通过抗性筛选得到突变菌株。不过,每次使用该方法就必须赋予菌株一种新的抗性基因,操作越来越困难,编辑效率越来越低。
①λ噬菌体Red重组酶(λ-Red)的同源重组系统:该重组系统由3种蛋白组成——Exo蛋白、Beta蛋白和Gam蛋白。其中Exo蛋白是一种核酸外切酶,结合在双链DNA末端,并从5′端向3′端降解DNA,释放出3′端;Beta蛋白结合在单链DNA上,介导互补单链DNA退火;Gam蛋白可与外切核酸酶V(RecBCD酶)结合,抑制其对外源DNA的降解。在内源性λ-Red重组系统中,控制exo、bet、gam三个基因的PL启动子受到CI857阻遏蛋白的抑制,CI857阻遏蛋白由cI基因表达产生,是一个温敏性阻遏子,它在30~34℃条件下,阻遏PL启动子的功能,使其不能形成λ-Red蛋白;而在42℃条件下,该阻遏子被抑制,λ-Red蛋白正常表达。
②MAGE技术的基本原理:首先,30℃下培养野生型细胞群体或其中混有基因组已被编辑细胞的细胞群体至对数期,以获得足够数量的细胞。其次,细胞生长达到对数期后,将其培养温度变换为42℃,此时CI857阻遏蛋白被抑制,进而使λ-Red重组蛋白(Exo蛋白、Beta蛋白和Gam蛋白)正常表达。再次,将菌体冷藏于4℃,防止上述生成的重组蛋白质被降解。第四,利用λ-Red重组蛋白Beta介导的单链核苷酸寡聚物实现野生型菌株中基因组上多重位点的编辑(图6-2),即人工高效合成单链核苷酸(ssDNA)的寡聚物(oligos),并在其5′末端和3′末端设计能与基因组中目标序列互补的同源臂(homology arms);通过电击的作用将寡聚物导入细胞,同时也杀死大量细胞,降低细胞数量;在细菌基因组复制过程中,单链核苷酸寡聚物在重组蛋白Beta介导下通过同源臂退火到复制叉上滞后链(lagging strand)中的目标位点;在基因组下一轮或其他轮的复制过程中形成可遗传的突变基因型,进而达到利用DNA复制过程实现对基因组进行编辑(靶基因的插入、替换或删除)的目标;多种ssDNA寡聚物的引入,则实现基因多重位点的编辑。最后,将上述得到的细胞重新收集,并对其按照上述过程进行循环操作(图6-3),积累基因组被编辑的细胞,最终达到编辑效率较高且整个过程无需抗生素辅助的筛选过程。
③MAGE技术的应用策略及工作流程:MAGE技术可以实现基因组尺度多重位点的插入、错配及删除,其引入变异的靶位点,包括基因中的编码及非编码基因,调节区的启动子及核糖体结合位点,以及基因间隔区序列(图6-4)。采用MAGE技术对上述不同位点进行突变,从而达到改变mRNA的稳定性、翻译效率、代谢途径及转录效率等的目的。MAGE技术的工作流程如图6-5所示,包括6个环节:①确定修改表型或基因型目标,如通过改变酶性能及基因网络加快底物转化为产物。②靶位点选择,如在优化代谢物生产的过程中,首先确定参与该途径的所有基因。通过流平衡分析(flux balance analysis)、OptKnock或RobustKnock等算法,有助于确定基因靶位点。在这些靶位点中,转录及翻译控制区靶位点能上调或下调基因的表达;蛋白的调节、催化及底物结合序列作为靶位点可以修改酶的活力(图6-4)。③设计单链核苷酸寡聚物,实现对基因组中靶位点(如核糖体结合位点等)的插入、替换及删除操作(图6-2)。④根据相应的数学模型确定MAGE的循环数。⑤执行MAGE循环(图6-3),最终将ssDNA寡聚物通过复制的作用重组到细胞基因组上。⑥筛选合适的突变型菌株,包括合适的基因型突变株和表型突变株。对于基因组再编码的合适的基因型筛选,可以通过测序或基于PCR的方法完成。对于改变表型的合适突变株筛选,必须从MAGE技术产生的多样化细胞群体中筛选。MAGE技术产生的基因组重组细胞鉴定通过选择培养基、可视化筛选或PCR筛选。
图6-2 λ-Red重组蛋白Beta介导的单链核苷酸寡聚物基因组编辑机制
图6-3 MAGE技术循环操作步骤
图6-4 MAGE基因组尺度修饰
图6-5 MAGE技术工作流程
④MAGE的优势及应用:MAGE技术能将大量人工合成的具有各种突变(包括碱基错配、插入和缺失)的ssDNA寡聚物导入宿主细胞,可以快速高效地在全基因组尺度上对菌株的DNA序列进行编辑,极大地加快了细胞的进化进程。MAGE的优势主要体现在以下几方面:重组效率高,将ssDNA导入细胞时的重组效率比导入dsDNA片段时的效率大大提高,一轮MAGE循环后基因组上某个特定位点的等位替换频率超过30%;MAGE可同时作用于基因组的多个位点,即MAGE同时将大量靶向基因组不同部位的序列的ssDNA库转入细胞中,这样可产生各种组合的突变型,真正实现了基因组的可编辑、可组装;MAGE通过上述自动化装置,重复周期性地导入ssDNA,快速、高效地得到各种突变型,“一天之内可生成数十亿个重组变异细胞”;导入的ssDNA片段作用于复制叉的滞后链上,比之前作用于前导链时重组效率提高了近数十倍。
MAGE技术的典型应用例子是大肠杆菌脱氧木酮糖磷酸酯(DXP)合成途径改造。番茄红素合成途径涉及20个内源性基因,包括dxs、dxr、ispD、ispE、ispG、ispH、idi、ispA、appY、rpoS、crl、elbA、elbB、yjiD、purH、rnlA、yggT、ycgZ、ymgA和ariR。Church研究小组针对这20个基因进行番茄红素表达的优化,将分别靶定每个基因的ssDNA库导入细胞中,经过35个MAGE循环,产生了近150亿个基因变异体,经过合适的筛选方法得到高产番茄红素突变株。另外,分支途径上的4个基因(ytjC、fdhF、aceE和gdhA)因引入两个无义突变而失活,进一步提高了番茄红素的产量。由于自动化装置的存在,每个循环只需2~2.5h,此工作仅在3天内完成,使得番茄红素的产量提高了近5倍。近几年,由于该方法的高效和通用性,其应用领域被迅速拓展,除了易于遗传转化的革兰阴性菌包括大肠杆菌、结核杆菌、鼠伤寒沙门菌、弗氏痢疾杆菌和丁香假单胞菌之外,在转化效率和同源重组频率均偏低的革兰阳性菌中也都已被应用,包括枯草芽孢杆菌、罗氏乳杆菌、植物乳杆菌、加氏乳杆菌、乳酸乳球菌以及谷氨酸棒杆菌等。此外,这种ssDNA修饰基因组的方法在真核细胞中也已得到应用,包括酿酒酵母和人体细胞。所以,这种高效的基因组修饰技术必将在未来工业微生物的改造中发挥重要的作用。
(2)共选择的多元自动化基因组工程(coselection MAGE,CoS-MAGE) CoS-MAGE也是MAGE改进后的一种方法。MAGE同时作用于染色体多个位点,可以得到大量的突变株,但筛选过程过于复杂繁琐,从而导致大多数的突变型无法得到鉴定而丧失意义。CoS-MAGE由于co-marks的存在,能更好、更有效地进行突变株的筛选。该方法在基因组上预先引入一个或多个选择标记的突变基因,通过MAGE同步回复该突变基因作为选择标记,从而筛选到含有其他位点被同步编辑的菌株。这是利用ssDNA在复制叉附近发生多位点同步共编辑的原理,即当细胞处于某个特定复制状态,目标位点被修饰,此时该位点上下游区域发生ssDNA重组事件的概率也显著性增强,表现为共修饰现象。在每个标记的上下游的短距离区域内,可实现7~9个位点的同步编辑,并且每个位点的可编辑区域变大,如启动子的替换等。因此,CoS-MAGE能够显著性地提高MAGE的效率。此外,由于多个位点的编辑存在一定的概率,在CoS-MAGE的筛选过程中,可同时筛选到不同组合位点被编辑的菌株,从而能够比较不同基因的强弱表达对产物积累的影响。
2.双链断裂介导的基因组编辑技术
双链断裂介导的基因组编辑技术是指利用工程核酸酶(engineered endonuclease,EEN)诱导基因组产生DNA双链断裂,进而激活细胞内源修复机制,实现对基因组的精确修饰(替换、插入或缺失)。双链断裂的修复途径有同源定向修复(homology-directed repair,HDR)和非同源末端连接(non-homologous end joining,NHEJ)两种方式。同源定向修复是指利用同源序列作为模板进行缺失序列的修复,当提供外源的DNA修复模板,则在与内源序列相同或相近的位点发生重组,将外源DNA整合到特定位点。利用同源重组修复即可进行基因替换、插入或者定点突变等遗传操作。非同源末端连接修复是指断裂的染色体在多种酶的作用下直接进行非精确的连接修复。NHEJ的方式能够在断裂之处插入或删除少量碱基,其修饰结果是不可控的,适用于特定基因的灭活。
双链介导的基因组编辑技术的最关键步骤是利用工程核酸酶在靶位点产生双链断裂,通过同源重组或者非同源末端连接的自我修复途径进行基因组修饰。目前应用最广的三类序列特异的工程核酸酶为锌指核酸酶(zinc-finger nucleases,ZFN)、类转录激活子内效应子核酸酶(transcription activator-like effector nuclease,TALEN)和规律成簇间隔短回文重复序列及其核酸酶(clustered regularly interspaced short palindromic repeats-CRISPR-associated system,CRISPR/Cas)。这些工程核酸酶具有共同的特征,即都包含DNA识别与结合结构域(位点特异性)以及核酸内切酶切割结构域(双链断裂的酶切活性),对特定靶位点进行特异性的结合并切割产生双链断裂(duble-stranded breaks,DSB)。
(1)ZFN编辑技术
①ZFN结构及其构建:ZFN是第一种由人工改造并应用的核酸内切酶,由含有锌指DNA结合域和非特异性的核酸内切酶Fok I的切割结构域融合而成。锌指(zinc finger,ZF)结构是真核生物中一种最常见的DNA结合基序,结构保守。ZF是构成锌指DNA结合域的基本单元,能够介导蛋白质与其他分子之间的相互作用。锌指DNA结合域一般包括3个独立的ZF结构,且每个ZF结构能够特异识别DNA双链上的连续3个核苷酸。因此,一个锌指DNA结合域可以识别9bp长度的特异性序列;而ZFNs二聚体包含6个ZF结构,可以识别18bp长度的特异性序列。锌指识别特异性能力的强弱与串联的锌指长度呈正相关。目前最常用的ZF结构为Cys2His2锌指,其结构由大约30个氨基酸包裹一个锌原子构成。Fok I切割结构域源于一种ⅡS型限制性内切酶,能够与锌指蛋白结构域的C端融合连接形成ZFN。
根据靶位点的DNA序列,设计与筛选特异性识别的ZF,构建ZF与FokⅠ连接产物ZFN并验证其活性,最后用于目标基因的编辑。目前ZFN的构建方法主要有以下几种:一是利用Sangamo Biosciences公司的专利设计锌指核酸酶,该方法效率高,特异性强,可以商业化订制,但是价格比较昂贵。二是模块直接组装法构建锌指核酸酶,该方法是最早被应用且操作最为简便的构建方法。该方法是基于ZF基序与碱基三联体之间的对应识别关系直接根据靶标序列按顺序组装ZF。模块直接组装法由于忽视了不同ZF之间的相互作用,会造成严重的脱靶效应,降低了对靶位点的识别效果。三是利用开放平台Oligomerized Pool Engineering(OPEN)设计锌指核酸酶。首先构建3个ZF基序组合在一起的ZF库,然后筛选与靶标序列特异性及亲和力最强的组合。该方法免费向公众开放,但是构建过程需2~3个月,费时费力。四是相邻装配法(context-dependent assembly,CoDA)方法,该方法吸取了模块直接组装的简易性,并结合筛选的策略考虑了相邻ZF之间的依赖效应。
②ZFN编辑技术原理:ZFN编辑技术常称为第一代EEN技术。如上面所述,ZFN是人为改造的限制性核酸内切酶,利用不同的锌指结构识别不同的DNA序列,再通过核酸酶切断靶DNA(图6-6)。一般可通过加工改造ZFN的锌指DNA结合域,靶向定位于不同的DNA序列,从而使得ZFN可以结合复杂基因组中的目的序列,并由DNA切割域进行特异切割。核酸内切酶Fok I的特异性比较低,因此其结构域必须二聚化才有活性,确保必须存在两个相邻的DNA结合事件才能实现双链断裂,从而增加了目标特异性。ZFN识别并切割基因组上的特异性位点并形成双链断裂(DSB),是实现基因组编辑的前体和基础。切割事件极大增加了该位点的重组修复频率。其最简单的方法是非同源末端接合(NHEJ),其中细胞基本上磨平断裂DNA的两端,再将其彼此拉近,通过移码而完成修复;另一种方法是同源定向修复(HDR),用另一条染色体上对应的DNA序列作为模板来修复断裂,通过人为地提供特定的模板,可促使系统插入所需的序列。该方法的高效性取决于具有专一性识别DNA位点能力的锌指结构域的构建。
③ZFN的优缺点及其应用:ZFN的发现改变了人们长期依赖同源重组的历史。相比于基因同源重组方式的效率低、基因定点修饰的细胞筛选困难等难题,ZFN编辑技术的出现突破了这些瓶颈。但是,ZFN也存在一定的局限性:首先,高效ZFN设计目前还存在一些困难;其次,ZFN在对靶位点进行切割时可能会造成脱靶,使细胞内的代谢发生紊乱,造成细胞毒性;第三,ZFN的表达还需要更加有效的调控,目前可以调控ZFN表达的方式主要有热激启动子、药物诱导启动子以及注入定量mRNA等方式;第四,技术垄断的问题,由于ZFN的特异性不高,因此急需设计出高特异性的锌指组合,但是目前该技术一直由Sangamo生物公司垄断。
虽然目前ZFN存在多项劣势,但在其被发现之初,发展十分迅速,很快便广泛应用于动物、植物及微生物上。例如,2008年Doyon等将目标突变转移到斑马鱼胚胎上,最终亲代中30%~50%的个体遗传该种突变给子代,而子代中有7%~18%的个体存在该种突变。2009年Geurts等利用ZFN对外源基因GFP、内源基因IgM和Rab38进行敲除,获得敲除特定基因的转基因大鼠,最终发现亲代丧失了一些功能,并且可完全遗传给子代,这是ZFN技术首次应用到哺乳动物胚胎中,在基因编辑技术发展史上具有划时代意义。
图6-6 ZFN基因组编辑原理示意
(2)TALEN编辑技术 随着重复可变双残基(repeat vailable diresidues,RVDs)与核苷酸对应关系的破解,TALEN技术的研究与应用进入快速发展阶段。由于ZFN存在设计复杂、敲除效率低和脱靶严重等局限性,在很多方面都更胜一筹的TALEN技术而被广泛关注。TALEN编辑技术,又称为第二代EEN技术,在2012年被Science期刊评为年度十大突破性技术。
①TALEN的结构及原理:典型的TALEN结构上包括类转录激活子类效应子(transcription activator-like effector,TALE)结合结构域和Fok I核酸内切酶切割结构域两部分(图6-7),都是人为体外设计,于细胞内自然融合而成。TALE最初是在植物病原菌黄单胞菌(Xanthomonas spp.)中作为一种细菌感染植物的侵袭策略而被发现的,在青枯雷尔菌(Ralstonia solanacearum)中也存在TALE的相似物。这些TALE通过细菌Ⅲ类分泌系统(bacterial type Ⅲ secretion system)被注入植物细胞中,通过靶定效应因子特异性的基因启动子来调节转录,进而促进细菌的集落形成。由于TALE具有序列特异性结合能力,可以通过将FokI核酸酶与一段人工的TALE连接起来,形成了一类具有特异性基因组编辑功能的强大工具。TALE结构域的N端是一个细菌分泌(secretion)和易位信号结构域(translocation domain,TD)以及一个独特的DNA结合域(R0)。TALE中间部位是串联片段组成的DNA结合结构域(DNA-binding domain),每个串联片段由33~35个氨基酸残基组成,末端的重复单位为半重复片段,由20个氨基酸残基组成。每个重复片段的第12位和13位的可变氨基酸残基(RVDs)能够特异性识别一对DNA碱基,其中NI(天冬酰胺和亮氨酸)识别碱基A,NN(2个天冬酰胺)识别碱基G或A,NG(天冬酰胺和甘氨酸)识别碱基T,HD(组氨酸和天冬氨酸)识别碱基C。因此RVDs的类型、数目及顺序决定了TALEN识别DNA序列的特异性。C端有两个或更多的核定位信号(nuclear localization signals,NLS)及一个高度保守的酸性激活域(activation domain,AD)。不同类型的TALEN元件识别的特异性DNA序列长度有很大区别。例如,天然的TALEN元件识别的特异性DNA序列长度一般为17~18bp;人工TALEN元件识别的特异性DNA序列长度则一般为14~20bp。
图6-7 TALEN元件及其编辑原理
与ZFN基因编辑技术类似,TALEN编辑技术的原理并不复杂(图6-7),首先通过其结合结构域识别并结合目的DNA片段的靶向位点,然后在Fok I核酸酶(二聚体形式)的作用下完成特定位点的剪切,并借助于细胞内固有的同源定向修复(HDR)或非同源末端连接途径(NHEJ)修复过程实现对DNA序列中特定序列的插入、删除及替换,进而实现对基因组特定序列的定向编辑。
②TALEN的优缺点及其应用:相比较于ZFN基因编辑技术,TALEN基因编辑技术的优势主要体现在:打靶效率有进一步的提高(最高可达90%);打靶位点设计灵活、方便,载体构建简单;特异性高,脱靶效应低,相应产生的细胞毒性较小。但是,TALEN基因编辑技术也存在一定的局限性:TALE分子的模块组装十分繁琐,测序工作量大,普通的实验室很难操作,且商业化公司合成的成本比较高;TALEN分子质量较ZFN大,若去除其中一些不必要的结构将会导致其序列识别特异性降低,进而导致脱靶效应和产生细胞毒性;多个基因同时打靶时需要共转染多个TALEN载体,往往会存在转染效率极低,获得的阳性细胞数量偏低,进而带来极大的工作量。
TALEN的发明使得基因组编辑的效率明显提高。目前,TALEN技术已经成功在拟南芥、水稻、烟草等植物以及酵母、线虫等微生物上得到应用。例如,在动物基因组修饰方面,2011年Hockemeyer等人在人类胚胎干细胞(embryonic stem cell,ESC)和诱导多能干细胞(induced pluripotent stem cell,iPSC)上运用TALEN,实现了HDR介导的基因敲入。2012年Bedell等人利用TALEN产生DSB,引发HDR,从而将含有loxP序列的单链DNA精确插入斑马鱼的基因组中。
(3)CRISPR/Cas编辑技术CRISPR/Cas是细菌和古细菌在不断的进化过程中形成的获得性免疫系统,能够准确地识别并降解外源核酸(噬菌体核酸或质粒)。CRISPR/Cas的免疫机制可分为3个相对独立的层次(图6-8):第一个层次是外源核酸(如质粒或病毒DNA)进入原核生物细胞;第二个层次主要是间隔序列的获得,即对外来信息的处理和加工,形成免疫记忆,主要由通用的核心蛋白Cas1和Cas2参与完成;第三个层次主要为CRISPR RNA(crRNA)产物的转录、翻译及加工成熟,以及识别和降解入侵的外源遗传物质。
CRISPR/Cas介导的基因组编辑技术是在2013年初才出现,随即被认为是新一代的基因组编辑技术,又称第三代EEN技术。与ZFN及TALE核酸酶相比,CRISPR/Cas系统则更加简单方便,易于操作和拓展。近年来,CRISPR/Cas技术已广泛应用于细菌、酵母、植物、线虫、石斑鱼、老鼠以及人的细胞等,同时证明了该技术是一个简单且高效的基因组编辑手段。在CRISPR/Cas系统研究进展中的一些重要成果见图6-9。
①CRISPR/Cas系统分类:CRISPR/Cas系统由CRISPR序列和Cas蛋白组成,其中CRISPR序列由一些高度保守的重复序列和间隔序列相间排列组成,而Cas蛋白是CRISPR序列附近相关基因编码的蛋白酶,具有核酸酶活力,可对DNA序列进行切割,形成DNA双链断裂。CRISPR中的高度可变间隔序列(长度21~72bp)主要来源于外源核酸(噬菌体或是质粒),不同的CRISPR基因座含有几个到几百个数量不等的间隔序列。目前发现间隔序列数量最多的CRISPR存在于赭黄嗜盐囊菌(Haliangium ochraceum)DSM 14365中,包含587个间隔序列。CRISPR中的重复序列长度范围为21~48bp,序列并非严格保守,甚至在同一个细菌内的不同CRISPR基因座的重复序列也有不同,但它的5′端和3′端部分为保守序列,分别为GTTT/g和GAAAC。重复序列里还包含部分回文结构,转录出的RNA能形成稳定且保守的二级结构,可能在与Cas蛋白结合形成核糖核蛋白复合物的过程中发挥重要作用。
根据Cas蛋白编码基因的多样性、Cas蛋白之间的进化关系及Cas基因操纵子的组成方式,可将CRISPR/Cas系统分为3个类型,即Type Ⅰ、Type Ⅱ和Type Ⅲ型(图6-8)。其中Ⅰ型和Ⅲ型均需多个Cas蛋白参与形成复合体,而Ⅱ型仅需Cas9蛋白即可,因此目前研究应用比较多的是Ⅱ型CRISPR/Cas系统。
图6-8 微生物CRISPR/Cas系统获得性免疫机制
PAM—前间区序列邻近基序(protospacer adjacent motif)
Cmr complex—重复序列相关未知蛋白(repeat-associated mysterious protein,RAMP)复合体
crRNA—CRISPR RNA Cas3和Cas9—CRISPR关联蛋白(CRISPR-associated proteins)(www.daowen.com)
Cascade—CRISPR相关抗病毒防御复合体(CRISPR-associated complex for antiviral defence)
TypeⅠ系统是CRISPR/Cas系统中Cas蛋白最多和最复杂的系统,包含6个蛋白,其中有特征性的Cas3蛋白,该蛋白具有解旋酶和核酸酶功能。多个Cas蛋白与成熟的crRNA共同结合形成CRISPR相关抗病毒防御复合体Cascade(CRISPR associated complex for antivirus defense),Cascade与入侵的外源DNA结合,促使Cascade内的crRNA与外源DNA的互补链配对形成R环结构,Cas3的核酸酶识别R环结构后先将互补链切开,随后在Cas3的解旋酶和核酸酶作用下再将非互补链切开。
图6-9 CRISPR/Cas技术研究进展中的重要成果
PAM—前间区序列邻近基序(protospacer adjacent motif)
RAMP—重复序列相关未知蛋白(repeat-associated mysterious protein)
Cmr—RAMP模块 crRNA—CRISPR RNA
tracrRNA—反式激活 crRNA(trans-activating crRNA)
Cas9—CRISPR关联蛋白(CRISPR-associated proteins)DSBs—断裂双链
TypeⅡ系统,又称CRISPR/Cas9系统,包含一个标志性的Cas9多功能蛋白,其参与crRNA的成熟以及降解入侵的噬菌体DNA或是外源质粒。Cas9蛋白包含位于N端具有类似于Ruc核酸酶的活性和位于中部有类似HNH核酸酶的活性两个功能结构域。根据TypeⅡCRISPR/Cas系统基因座的结构差异,可分为Type ⅡA、B和C三个亚型,具有每个亚型的代表性微生物分别为酿脓链球菌(Streptococcus pyogenes)、弗朗西丝菌(Francisella novicida)及脑膜炎奈瑟菌(Neisseria meningitidis)(图6-10)。以酿脓链球菌为例,其CRISPR/Cas基因座结构包括5′端的tracrRNA基因、中间的Cas蛋白编码基因(cas9、cas1、cas2和csn2)及3′端的CRISPR基因座,由前导区域和众多的间隔序列(spacers)和重复序列(repeats)顺序排列组成。前导区序列位于CRISPR序列的5′端,富含AT,长度300~500bp,作用类似于启动子,一般来说在种内保守,种间却存在显著的差异。在该CRISPR/Cas系统亚型中(图6-10),CRISPR/Cas基因座首先进行不同元件的转录和翻译;转录的反式激活RNA(tracrRNA)指导RNaseⅢ和Cas9完成前体crRNA的成熟;随后tracrRNA与成熟的crRNA的重复序列配对形成RNA二聚体,最后与Cas9蛋白结合成核糖核蛋白复合体(TracrRNA、crRNA和Cas9),发挥识别和降解入侵的外源DNA功能。
Type Ⅲ系统包含特征性的Cas10蛋白,其具有RNA酶活力和类似于Type Ⅰ的Cascade功能。Cas10主要参与crRNA的成熟和剪切入侵外源DNA。目前发现Type Ⅲ有两种亚型:TypeⅢA和TypeⅢB。例如,激烈热球菌的CRISPR/Cas系统属于Type Ⅲ A型,它干扰的靶标是mRNA;表皮葡萄球菌CRISPR/Cas系统属于Type ⅢB型,它的靶标与TypeⅠ和Type ⅡCRISPR/Cas系统相同,是DNA。这也反映了自然界中的CRISPR/Cas系统的多态性。
图6-10 CRISPR/Cas系统TypeⅡ亚型基因座结构及核糖核蛋白复合体形成
三种类型的CRISPR/Cas系统的分布有所不同。TypeⅠ型系统在细菌和古细菌中都有发现;TypeⅡ型系统仅存在于细菌中;TypeⅢ型系统大多存在于古细菌中,只有少数的细菌是Type Ⅲ型。20世纪90年代末期测序技术开始飞速发展,越来越多的细菌和古细菌的基因组信息被解密,科学家们发现一些特殊的菌株中同时存在多种类型的CRISPR/Cas系统,推测基因的水平转移可能是导致这一现象的主要原因,例如,一些包含有CRISPR/Cas系统的质粒、转座子元件,在不同的菌株之间的转移。
②CRISPR/Cas9编辑技术原理:CRISPR/Cas9技术的主要原理是利用TypeⅡ型CRISPR/Cas系统具有特异性识别和降解外源DNA片段的能力,进而形成DNA双链断裂(图6-9和图6-10)。然后,断裂的DNA双链,通过NHEJ或HDR完成双链修复,进而实现基因组上特定DNA片段的编辑。在实际应用中,crRNA与tracrRNA形成的双链可以采用人工设计的gRNA(Guide RNA)取代,gRNA自主折叠形成Cas9可识别的双链RNA,简化了CRISPR/Cas9系统。采用人工设计的gRNA,在Cas9的辅助下,基因组的定点突变和同源基因替换的效率接近100%,实现了简单、高效、精确的基因组编辑。除了对基因组DNA定点编辑之外,通过对Cas9的改造,消除其核酸内切酶的活性(dCas9),改造的CRISPR-dCas9系统可应用于单个或多重基因的表达调控,包括细菌和真核生物。其原理是:(a)在细胞内表达gRNA后,使其与dCas9形成复合物,识别目标基因但不发生双链切割,可阻止该基因的转录延伸、核糖体结合或是转录因子结合,使基因表达水平显著下降,一些基因的转录水平甚至下降至原来的10 -4水平,几乎沉默该基因的表达;(b)在dCas9蛋白上融合转录激活结构域或抑制结构域,由表达的gRNA精确引导,使其结合到目标基因的调控区,实现稳定且精确地调控基因表达。通过引入多重gRNA,可实现多重基因的表达调控,具有简单、高效和精确的特点。
③CRISPR/Cas编辑技术的优缺点及其应用:CRISPR/Cas的打靶效率比较高,最高可达80%,且靶位点设计灵活、方便,载体构建简单;CRISPR/Cas系统对靶序列的识别以RNA与DNA碱基配对的方式,降低了脱靶的概率,进而降低了细胞毒性;较于ZFN与TALEN,CRISPR/Cas的设计更为简单、廉价,普通的试验也可自行操作;CRISPR/Cas最大的优点就是可同时打靶多个基因,且每多一个靶位点只需多一个gRNA质粒。CRISPR/Cas编辑技术也存在一些不足之处,如CRISPR/Cas技术目前还尚未成熟,需要设计出特异性较高的gRNA质粒,严重的脱靶效应以及在未建系的干细胞上无成功先例等。
CRISPR/Cas编辑技术尽管是近几年发展起来的新技术,但已在诸多领域广泛应用,包括基因治疗、动植物及微生物育种等方面。例如,用iPS细胞治疗人类的镰刀型贫血症,可以将病人的皮肤细胞诱导成诱导性多能干细胞(iPS),然后利用CRISPR/Cas9突变型的切口酶来介导同源重组修复突变的血红蛋白基因,再将修复的iPS细胞定向诱导分化为造血干细胞移植到病人体内。Shan等人利用CRISPR/Cas系统定点突变了小麦的1个基因和水稻的4个基因,并且在T0代获得了水稻PDS基因功能缺失的纯和突变体,该突变体呈现预期的白化和矮小。
最后,ZFN、TALEN及CRISPR/Cas9三类工程核酸酶介导的编辑技术的差异见表6-5。
表6-5 三类工程核酸酶ZFN、TALEN、CRISPR/Cas9的比较(周想春,2016)
①可通过提高单个引导RNA(sgRNA)的特异性来降低CRISPR/Cas9的脱靶率。
3.基因组大片段的插入、删除和剪切-粘贴
在基因组尺度编辑中,大片段基因的操作是必不可少的,比如在现有基因组的基础上整合外源次级代谢途径中所涉及的所有基因、删除一些非必需基因的大片段等。基因组上大片段DNA的编辑技术包括位点专一性重组酶介导的基因组编辑、Ⅱ型内含子归巢介导的基因组编辑技术和基因组大片段DNA高效编辑技术等。
(1)位点专一性重组酶介导的基因组编辑 位点专一性重组酶(site-specific recombinases,SSRs)介导的基因组编辑技术主要是借助位点专一的重组酶和其相应的重组位点(recombination target sites,RTs)来实现的操作。根据序列的同源性及作用机制,绝大多数重组酶分属于酪氨酸重组酶(又称整合酶:integrase)和精氨酸重组酶(又称解离酶/转化酶:resolvase/invertase)两个家族。其中研究最为清楚且基因工程中应用最为广泛的是整合酶家族中的Cre(cyclizationrecombinase)和Flp(fliprecombinase)两个重组酶。Cre重组酶分子质量为38kDa,包含约343个氨基酸,源于大肠杆菌的P1噬菌体,其识别位点为loxP或其突变体(如loxP257)。Flp重组酶分子质量为49kDa,包含约423个氨基酸,源于啤酒酵母中的2μm质粒,其识别位点为FRT或其突变体(如F3)。
如图6-11所示,FRT和loxP最简位点(minimal site)均有一个8bp的间隔区及两个重复区,重复区是位于间隔区任一侧长度为13bp的反向重复序列,共34bp,其中loxP最简位点即为loxP位点;而FRT位点的一侧多出一个重复区,所以FRT位点长度为48bp。其中间隔区序列起到定向作用,同时又是重组反应过程中DNA断裂及再接的位点;而重复区是重组酶(Cre或Flp)的结合区域。对于高效重组,Cre重组酶至少与loxP位点每个重复区中的8~10个碱基匹配。
图6-11 专一性位点 FRT和loxP及其突变型 F3和loxP257的序列结构
位点专一性重组酶介导的基因组编辑原理是在基因组上和目的DNA上均插入或利用已有的专一性重组位点(loxP和FRT),在相应的重组酶(Cre或Flp)作用下进行重组,实现大片段DNA的倒位、插入、删除及易位,如图6-12所示。此外,基于重组酶开发的一种基因组编辑方法,即重组酶介导的盒式交换(recombinase-mediated cassette exchange,RMCE)技术。与已有的重组酶技术不同,RMCE主要利用重组酶对其不同的识别位点突变体的识别差异,通过两次相对独立的重组反应产生一种交换的效果。RMCE技术主要应用于将目标DNA序列交换到基因组中的某一特定位点。其过程是先在基因组中安装一个“交换盒”,然后再通过RMCE将靶DNA整合到基因组中。与其他同类方法相比,用RMCE进行靶基因整合具有如下特点:①高效性。RMCE技术效率不受细胞内在重组效率的制约;同时采用了一对识别位点突变体,所以通过RMCE整合到基因组中的靶基因不大会被重新切除。②定点可反复性。每次盒式交换的结果都不会破坏已整合到基因组中的“交换盒”框架。因此,只要将待交换的基因置于交换盒内,可反复地将不同的基因交换到基因组中的靶位点。③精确性。RMCE过程中,DNA链的断裂和再连接仅发生在构成交换盒框架的识别位点的核心区域,不会发生其他形式的重组。
图6-12 重组酶介导的基因编辑
(2)Ⅱ型内含子归巢介导的基因组编辑技术 Ⅱ型内含子广泛存在于细菌基因组以及植物、真菌、原生生物和一些动物的细胞器基因组中,是一类具有自我剪接能力的内含子,剪接机理同细胞核内含子的剪接相似,通过两次转酯反应,最终剪接出套索状的内含子RNA。Ⅱ型内含子归巢是近几年发展的一种高效基因组插入技术,具有较好的通用性,用于自定义高效编辑不同细菌的基因组,包括一些遗传操作比较困难的细菌(如梭菌Clostridium)。
Ⅱ型内含子归巢介导的基因组编辑技术的原理主要是基于Ⅱ型内含子转移机制,其中内含子编码蛋白质(IEP)是内含子特异的剪接因子,在形成和维持RNA的套索结构中发挥关键作用。Ⅱ型内含子在完成自我剪接后,被剪接下的套索内含子RNA立即被IEP固定并形成核糖核蛋白复合物(RNPs),同时IEP负责识别特异的重组位点。IEP首先与5′末端外显子区的大沟和磷酸骨架相互作用,内含子上两个特异性识别位点(EBS1和EBS2)相互靠近,用于互补识别基因组上的相互靠近的两个特异位点(E1和E2),内含子以反剪接形式插入上方的单链DNA中,同时在3′末端外显子的T+5配对的作用下,在下方的单链DNA上形成一个缺口,随后IEP以下方单链DNA的3′末端为引物,以内含子RNA为模板,在逆转录酶的作用下反转录出单链内含子DNA序列,这一过程称作靶标DNA引物反转录(target DNA-primed reverse transcription,TPRT)。反转录完成后,内含子RNA被细胞内的DNA聚合酶Ⅰ移除,并被RNase H1降解,DNA聚合酶Ⅲ负责合成互补链,最后在DNA修复酶和DNA连接酶的作用下,修复损伤缺口,完成整个转移过程(图6-13)。
图6-13 乳酸乳球菌中的LtrB(Ll.LtrB)内含子的转移机制示意
Ⅱ型内含子的插入特异性由EBS1和EBS2决定,而这两个位点的序列可根据一定的算法进行修改,从而特异性识别基因组上不同的位点,几乎可实现基因组的随机编辑。在原核生物中,Ⅱ型内含子的靶向转移机制已研究清楚,并在细菌基因工程和功能基因学研究领域得到了广泛应用,已经实现了基因剔除和基因转入。在真核生物中,Ⅱ型内含子的靶向转移效应展现出了一种广阔的应用前景,为生命科学、基因组学和疾病治疗等领域的研究提供了新的研究工具。
(3)基因组大片段DNA高效编辑技术这里所讲的基因组大片段DNA高效编辑技术是将Ⅱ型内含子介导的高效定点插入技术与位点专一性重组介导的大片段DNA编辑技术相结合,又称为GETR(genome editing via targetrons and recombinases)技术。其基本原理是将Ⅱ型内含子(如Ll.LtrB或EcI5)进行改造,即在内含子插入重组酶(如Cre或Flp)的特异性识别位点(如loxP或FRT),并恢复内含子的归巢效率;不同重组酶的特异结合位点通过改造的内含子高效地插入到基因组的多个目标位置;然后通过C re的重组作用,实现基因组上大片段的高效编辑。而且这种大片段基因组的修饰过程无需选择性标记,其效率接近100%。GETR能够在基因组的多重位点上进行大片段DNA的插入、删除以及剪切-粘贴等操作,如在E.coli中插入12kb的聚酮合成操纵子或剪切-粘贴120kb的基因组、在金黄色葡萄球菌中多个区域同时删除120kb的基因组、在枯草芽孢杆菌中翻转1.2Mb的基因组等。
4.基因组自主编辑
前面所讲的基因组编辑技术是理性的人为设计,但自然界中生物的基因组自主编辑大多数是非理性的。基于基因组进化,近几年开发了一些新的基因组进化技术,实现了基因组自主编辑,如结合原生质体融合的基因组重排技术、改造基因组范围转录调控程序的全局转录机器工程、基因组复制机器工程辅助的连续进化以及环境胁迫诱导的适应性进化策略等。
(1)基因组重排技术2002年,Zhang等人首次提出基因组重排技术(genome shuffling),即结合传统育种技术,通过多亲本之间的DNA重组和全基因组片段交换,将优良表型重组在一起的过程。基因组重排是在细胞水平上基于原生质体融合的全基因组重排,是分子定向进化在全基因组水平上的延伸。该技术将重排的对象从单个基因扩展到整个基因组,它通过多个正突变体递归式融合(recursive fusion)来进行基因组随机重组,快速筛选所需表型有重大改进的菌株。
基因组重排技术过程主要分为三步:①不同亲本原生质体的制备;②诱导原生质体递归融合,每轮筛选的目的菌进入下轮融合;③根据目的表型需要设计特殊的选择培养基,每轮筛选的融合菌株进入下轮的融合。基因组重排技术充分结合了细胞工程和代谢工程的优势,不仅可以进行菌种表型快速高效优化,还可为不同种类的微生物复杂的代谢和调控网络提供信息来源。
目前,基因组重排技术主要应用于:①提高微生物代谢产物产率,如Jin等利用基因重排技术对多刺甘蔗多孢菌进行育种,经过4轮重排后,筛选到了两株高产多杀菌素的融合菌,生产能力比原始出发菌株提高了201%和436%。②增强菌株对环境的耐受性,如Burkhard等应用基因组重排技术最终筛选到了一株耐甘油和1,3-丙二醇的Clostridium diolis DSM融合菌,且该菌株1,3-丙二醇产量较原始菌提高了80%。③提高底物的利用率和范围,如Dai和Copley利用基因组重排技术对氯酚鞘氨醇杆菌(Sphingobium chlorophenolicum)进行表型改良,经过3轮基因组重排后,筛选的融合菌比野生菌具有对五氯苯酚的更高利用率和耐受性(图6-14)。
(2)全局转录机器工程全局转录机器工程(global transcription machinery engineering,gTME)最初是由麻省理工学院的Alper于2006在《Science》杂志上提出的。传统的基因与代谢工程研究方法几乎完全依赖于单个目标基因或多个独立目标基因的敲除与高表达策略以及对特定转录因子或DNA结合模板的重组修饰。鉴于细胞代谢途径的复杂性,这些方法往往局限于不能获得同步的、全局的最优结果。相同的细菌RNA聚合酶负责细胞内所有基因转录过程的起始、延伸和终止;RNA聚合酶的突变,就可能在全局范围内引起成百上千个受控基因转录水平的波动。gTME是结合定向进化的方法,突变全局转录因子,使细胞的转录程序在转录水平上发生随机变化。gTME技术的基本实施策略是:首先采用易错PCR(error PCR)或DNA改组(DNA shuffling)等方法对RNA聚合酶的某一亚基序列进行随机突变;插入选定的质粒载体中构建质粒突变库;然后将含有突变的质粒转入目标宿主菌株,并构建重组菌株突变库;最后采用存活筛选等高通量筛选方法对重组细胞目标表型快速地筛选,从而获得全局最优的目标表型。例如,Alper H对酿酒酵母中编码RNA聚合酶中的TATA框结合蛋白(SPT15)或TATA框结合蛋白相关因子(TAF25)基因进行多轮的定向进化并筛选出高浓度乙醇的耐受能力重组菌株。
图6-14 基因组重排技术流程
(3)基因组复制机器工程辅助的连续进化为了快速提高工业微生物对不同环境胁迫的抗性,中科院微生物所李寅课题组开发了基因组复制机器工程辅助的连续进化(genome replication engineering assisted continuous evolution,GREACE)技术。该技术的基本原理是降低基因组复制过程的保真性,提高突变频率,即通过多轮的易错PCR,随机改造DNA聚合酶中校正亚基,并将其转化到宿主细胞中,通过筛选和富集,实现在给定环境胁迫条件下的“边突变边筛选”,进而达到连续高效进化的目的。该方法操作简单方便、通用性强,只需引入一个DNA聚合酶中校正功能的突变亚基;而且易于扩展。例如,在改造E.coli的进化能力时,可以对DNA聚合酶的亚基dnaQ进行易错PCR的定向进化,并转化细胞,使其在胁迫环境中进行多轮的连续进化并筛选,最终获得耐受性显著提高的突变菌株,包括抗生素的抗性、高浓度乙酸或丁醇的耐受性。
(4)环境胁迫诱导适应性进化环境胁迫诱导适应性进化策略的原理是利用细胞在环境胁迫条件下,细胞因积累有毒物质导致胞内产生大量的损伤DNA;这些有毒物质和损伤的DNA会激活胞内的压力胁迫反应和SOS反应等;细胞的DNA合成由原来的高保真复制状态转变为易于突变的修复状态,从而产生适应性突变。环境胁迫诱导适应性进化的显著特点是应用细胞因自身受环境胁迫而大幅提升的内在进化动力,加速细胞的适应性进化;同时实现单细胞突变与筛选的同步,能够快速地获得理想突变菌株。例如,应用该方法,经过多轮的突变筛选,能够将E.coli的丁醇最小抑制浓度从最初的9.5g/L提高到13g/L;而通过多轮的突变筛选,E.coli的高渗透压耐受性和温度耐受性也能提高。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。