从数据库中挖掘是另一种有前途的策略,可以发掘基于基因组和酶结构信息的新酶。随着测序方法的飞速发展,微生物基因组或宏基因组的测序已经非常经济快捷,已在公共数据库中存放了大量序列信息。例如,超过6000个基因组和1.1亿个蛋白质序列可以从NCBI的网站(http://www.ncbi.nlm.nih.gov/)获取。目前,这些酶的绝大多数功能是由生物信息学预测指定,研究其生化特性可能会发现新酶。BRENDA酶数据库是另一个公共可访问数据库,包含7095种酶(截至2018年4月)和超过270万个附加说明的酶基因信息,包括酶的分布、动力学、分子性质及其底物特异性等。所有信息都是直接从文献中提取,并通过研究人员验证。BRENDA是一个手动标注的酶数据存储库,其内容不限特定酶家族,包括在国际生物化学和分子生物学联合会(IUBMB)EB方案中的所有酶分类信息。每个单独的条目都与酶的来源(生物体名称、组织、蛋白质序列)和参考文献相关联。数据查询可以由多种不同方法来实现,包括EC-tree浏览器、浏览器taxonomy树、本体浏览器和设置20种参数的复合查询。
因为其具有明显的互补性,用适当的生物信息学工具系统挖掘NCBI和BRENDA这两个数据库信息可能会获得新的酶基因或已知酶的同源蛋白。另一方面,可以方便快捷地获取数据库中大量的酶结构,通过结构比对可以在很大程度上定义酶的关键特性,因此能够精确地从数据库中发现新酶。目前,可以在RCSB蛋白质数据库(http:// www.rcsb.org/)获取约10000种蛋白质结构,并且已经开发了一系列可准确预测基于同源蛋白结构的软件。
数据库挖掘策略已经成功地发掘了一些新酶。烯醇化酶超家族是一个研究深入的家族,然而通过基因组数据库挖掘出烯醇化酶的同源蛋白仍相当困难。研究人员开发了一种结构引导的方法用于预测和验证烯醇化酶的功能,并进一步阐明了其新的代谢途径。利用烯醇化酶的晶体结构信息在酶的活性中心对接了超过87000个配体,包括整个KEGG代谢产物和其他烯醇化酶底物,初步认定这个酶是氨基酸消旋酶/差向异构酶,并且偏好N-取代的底物。为了发现不同未知功能结构域蛋白质家族(DUFs)的酶,研究人员开发了一个平台研究DUF849蛋白质家族。这个家族有超过900种蛋白质共享一个保守序列,但是它们的功能未知。为了系统研究其功能,Bastard等搜索了现有基因组数据库中所有DUF849同源蛋白,确定了这个保守家族的一般性反应,即通过缩合β-酮酸和乙酰辅酶A来获得辅酶A和乙酰乙酸酯。因此,将这个未知家族命名为BKACE的β-酮酸裂解酶。作者随后研究了其中163个家族成员,高通量表征实验与结构信息的结合将这些酶准确地分配到7个亚家族中。这些例子说明数据库挖掘策略在发掘新的酶和同源蛋白中具有重要的作用和发展潜力。(www.daowen.com)
在生物界发展的漫长历史中,种类繁多的生物体通过对不同环境的适应过程进化出各种各样的酶。自然界中可以培养的微生物只占微生物总量的不到10%。在酶工程发展过程中已经发现了很多种类的酶,但是已知的酶种类多是从可培养微生物菌株获得,因此它们可能只占自然界中总微生物酶类很少的一部分。随着宏基因组技术的发展,从不可培养的微生物基因组中筛选新酶已经成为一种越来越常用的方法,也使开发不可培养微生物中酶基因资源成为可能。大多数用于生产活动的酶都需要承受工业生产中苛刻的环境。因此,从极端环境生物中筛选新酶品种是一条比较合理的途径。为了提高酶的理化特性,人们常用定向进化等方法改造酶分子。而从极端环境中筛选的酶通常具有特殊的理化性质,如耐热、耐酸、耐碱等特性,不需要改造酶分子就可以适应生产实践的需要,因此可以看作是获得工业用酶的一条捷径。
近年来,随着测序技术的迅速发展,科研人员已经积累了大量的酶基因数据。同时,对蛋白质结构认识的深入和结构预测软件的发展使我们对酶结构的预测越来越便利。在这些技术的基础上,从蛋白质序列数据库或者蛋白质结构数据库中筛选新酶基因已经成为一种有效的方法。通过对已有数据库中酶的信息的获取,免除了测序和建库的过程。因此,基于数据库的筛选方法是一种方便、快捷和低成本的方法。随着科技的进步,酶的筛选方法呈现了多元化的趋势。多种筛选方法的综合应用将很大程度地促进酶工程的发展。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。