碳水化合物活性酶(carbohydrate-active enzymes,CAZy)数据库是一个专业的碳水化合物酶数据库,建立于1998年,是一个关于合成或分解碳水化合物和糖复合物的酶类的数据库资源。该数据库基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物相关酶类划分为不同蛋白质家族(family)。CAZy数据库中列出了酶分子序列的家族信息、物种来源、基因序列、蛋白质序列信息、三维结构、EC分类以及与相关数据库的链接。对于每一家族中已经生化表征的酶分子,还提供与催化机制关系密切的信息,包括酶活性中心、催化机制特征、催化残基(对整个家族是保守的)以及其分类范围等信息,这些信息对快速分析同一家族不同来源酶分子的共同特征非常重要。如针对一种内切葡聚糖酶(AAM77711.1),数据库中详细标注了其EC分类编号、来源、Genbank登录号、Uniprot登录号和PDB登录号等(图2-5)。
图2-5 CAZy数据库家族内酶分子相关信息(以AAM77711.1为例)
a—CAZy数据库(包含酶分子名称、EC分类号物种来源、酶分子基因及氨基酸序列和三维结构信息)b—酶分子基因序列(GenBank:AAM77711.1)c—酶分子氨基酸序列(Uniprot Q8NJY6)d—酶分子三维结构信息(PDB:1OA3)以及催化残基(116E,200E)e—酶分子作用的纤维素链及其作用位置
CAZy数据库定期更新,并新增家族成员和家族数量以及酶的生物化学性质等。其大部分序列信息来自每日更新的GenBank数据库,同时补充每周更新的PDB版本信息。CAZy数据库中蛋白质的功能分配来源于实验数据分析,可以是直接的酶分析,也可以是间接的证据,如基因敲除实验数据等。CAZy数据库中还包括一些不完整的EC号码,如3.2.1.—、2.4.1.—、2.4.2—和2.4.99。
截至2018年4月,CAZY数据库包含304个不同家族,分为下述几类。①糖苷水解酶(glycoside hydrolase,GH):糖苷水解酶是CAZY数据库中最主要的酶类,包括糖苷水解酶和转糖苷酶,是负责糖苷键的水解和/或转糖基化的酶,目前已包括145个家族(http://www.cazy.rg)。糖苷水解酶编码基因丰富,存在于绝大多数基因组中,占CAZy酶数据总量的几乎一半,共包括449520个糖苷水解酶信息,其中有6580个糖苷酶还没有划分到糖苷水解酶家族。由于它们具有重要的应用价值,到目前为止糖苷水解酶是CAZy数据库中存在的具有最好生物化学特征的酶。目前商业化应用的很多酶均为糖苷水解酶,如淀粉酶、纤维素酶、溶菌酶等。糖苷水解酶在很多领域尤其是食品工业中发挥着重要的作用。②糖基转移酶(glycosyl transferase,GT):主要是负责磷酸活化糖供体的糖苷键生物合成的酶,包括103个家族,几乎存在于每个生物体,约占CAZy酶数据总量的43%。③多糖裂解酶(polysaccharide lyase,PL):通过β-消除机制切割含糖醛酸多糖的糖苷键,目前在CAZy中有26个家族,相当于CAZy酶数据总量的1.5%左右。许多多糖裂解酶在生物技术和生物医学中具有重要应用,尽管其总体数量较少,但它们是数据库中存在的生物化学特征实例比例最高的酶。④碳水化合物酯酶(Carbohydrate esterase,CE):它们除去存在于单糖、寡糖和多糖中的酯基修饰,从而促进糖苷水解酶对复合多糖的作用。碳水化合物酯酶包括16个家族,占CAZy酶数据总量的约5%。因为碳水化合物酯酶和其他酯酶活性之间的特异性屏障较低,所以基于序列的分类很可能包含一些可能作用于非碳水化合物酯的酶。⑤辅助酶类家族(Auxiliary activities,AAs):包括与CAZy酶共同作用的氧化还原酶,目前共有8个木质素分解酶家族和3个裂解多糖单加氧酶家族。
CAZy数据库按照酶分子催化结构域30%序列相似性进行家族分类,不能够准确预测同一家族内不同成员的底物专一性。随着宏基因组数据的快速增加,数据库需要对所包含家族进行细化分类,目前已经对GH 5、13、30和43家族进行了亚家族分类。
CAZy数据库建立的目的是将酶分子的序列、结构与催化机制特点结合起来,对其结构域进行定义。碳水化合物活性酶类常常是多结构域的,在CAZy数据库中,同一基因不同结构域可能划入不同的结构域家族(图2-6)。这样对包含多个结构域的酶分子定义更加准确,特别是对于研究复杂的木质纤维素高效降解环境系统,通过研究酶分子基因结构域的组合就可以了解相应微生物的降解模式与降解策略。
图2-6 模块化碳水化合物活性酶的实例
(1)红褐肉座菌(Hypocrea jecorina)纤维二糖水解酶I(SP P00725)(2)鞘氨醇单胞菌(Sphingomonas sp.)藻酸盐裂解酶A1(GB BAB03312.1)(3)葡萄球菌(Staphylococcus)木聚糖酶(GBCAA54145.1)(4)红球酵母菌(Rhodotorula)木聚糖—地衣葡聚糖酶(GBCAB51934.1)(5)构巢裸孢壳菌(Emericella nidulans)几丁质合酶(GB BAA21714.1)(6)慢生型大豆根瘤菌(Bradyrhizobium japonicum)环-β-1-3-葡聚糖合酶(GB AAC62210.1)
【应用实例】内切β-1,4-木聚糖酶的相关信息检索。
在CAZy主页左上方的搜索框内输入内切β-1,4-木聚糖酶的EC编号3.2.1.8,并在右侧的下拉列表中选择EC Number,点击“GO”可得到搜索结果页面。搜索结果中,最上方的是“Families: Known Activities”,包括七个GH家族,表明符合该EC编号的酶分布在七个家族中,下面是按生物体类别排列的结果表格,表格中的内容有“Family”(家族)、“Kingdom”(表示来源物种类别)、“Organism”(表示来源的生物体)、“Protein Name”(酶的名称)。当需要进一步查看详细信息时,点击上面罗列的家族或下方结果列表中的家族编号即可进入相应的家族页面。以GH10家族为例,点击上方的“GH10”或者在下方列表中通过翻页找到“GH10”并点击都可以进入该家族页面。在“GH10”主页的列表中,包括了以下信息:(www.daowen.com)
①已知活力(known activities):目前GH10家族的酶具有的活力有内切-1,4-β-木聚糖酶(endo-1,4-β-xylanase)、内切-1,3-β-木聚糖酶(endo-1,4-β-xylanase)和番茄苷酶;
②催化机制(mechanism):该家族的催化机制为保留机制(Retaining);
③宗族(clan):属于GH-A宗族;
④三维结构情况(3D structure status):为(β/α)8桶状结构;
⑤催化亲核基团/碱(catalytic nucleophile/base):为谷氨酸残基,通过实验得到;
⑥催化质子供体(catalytic proton donor):为谷氨酸残基,通过实验测定得到;
⑦注释(note):表明该家族以前被称为纤维素酶家族F(Cellulase Family F);
⑧外部资源(external recourses):提供了碳水化合物活性酶百科CAZypedia、同源蛋白质家族结构比对数据库HOMSTRAD、蛋白质指纹数据库PRINTS和PROSITE数据库的链接;
⑨商品酶供应商:提供了一些商品化的该家族的酶的供应商的链接;
⑩统计信息(statistics):分为两栏,上面一栏列出了一系列的数据并在括号中表明了条目数量,下面一栏通过超链接提供了分类浏览,包括全部(all)、古生菌(archaea)、真细菌(bacteria)、真核生物(eukaryota)、未归类(unclassified)、结构(structure)和已鉴定的(characterized)几类。除了结构页面外,其他页面中都包括蛋白质名称(protein name)及相对应的EC编号(EC#)、生物体(organism)、GenBank编号、Uniprot编号和PDB/3D编号。除了蛋白质名称外,其他都可以打开超链接页面。在结构页面中,除了上述的蛋白质名称、EC编号、生物体和PDB/3D编号外,还提供了糖配体(carbohydrate ligands)和结构分辨率(resolution)信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。