世界热门:蛋白质结构预测速度提升60倍!Meta做出“生物界的ChatGPT”
智东西
编译 | 周炎
(资料图片仅供参考)
编辑 | 云鹏
智东西3月24日消息,近日,《华尔街日报》在一则报道中,对Meta的ESMFold与DeepMind的AlphaFold两个蛋白质结构预测大模型进行了梳理,详细地介绍了二者的原理以及开发过程。
报道称,此前,DeepMind解决了一个困扰科学家50年的难题,它使用AI代替此前速度较慢、成本较高的实验室技术,来确定蛋白质的三维结构。这些结构对药物和疫苗开发、气候变化研究等都至关重要。
据悉,DeepMind的AlphaFold2首发于2021年7月,已被用于预测几乎所有已知的蛋白质结构。就在AlphaFold2推出的3个月后,Meta研究人员在Nature上发表论文。文章显示,Meta研究人开发了一种蛋白质结构预测模型ESMFold,预测了来自细菌、病毒和其他尚未表征的微生物的约6亿种蛋白质的结构。同时,在较短的氨基酸序列中,相较于AlphaFold2,其预测蛋白质结构的速度快了将近60倍。
一、ESMFold加入战局,14天内预测超6亿种蛋白质结构
从氨基酸序列中预测蛋白质结构是自然科学的重大挑战,从蛋白质的分子结构结构来看,蛋白质的分子结构可划分为四级,所谓的蛋白质的结构预测就是从蛋白质的一级结构预测其折叠和二级、三级、四级结构。根据不同的氨基酸和序列,蛋白质能折叠的构型数量是一个天文数字,使用AI的方法可以加速对蛋白质的解析。
目前在基于进化的算法中,AlphaFold2通过在多序列输入、进化同源物对齐序列和可选结构模板上训练端到端神经网络,在预测蛋白质结构方面取得了一定成果。与AlphaFold2工作原理不同,ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测。
简单来讲,作为大型语言模型,ESMFold的原理与ChatGPT基本相似,只不过,训练它的内容不是自然语言,而是生物基因语言。它基于语言学习模型内部表征,而不是像AlphaFold2一样基于结构和序列匹配算法,这样就消除对显式同源序列作为输入的要求,即ESMFold蛋白质模型只需一个序列作为输入。同时ESMFold是一个完全端到端的序列结构预测器,可以完全在GPU上运行,无需访问任何数据库。
研究人员曾经做过试验,在单个NVDIA V100 GPU上,使用较少参数的ESMFold在14.2秒被对具有384个残基进行预测,可比单个AlphaFold模型能够实现的预测速度快6倍,而在较短的序列上,研究人员甚至看到约60倍的提速。
据悉,ESMFold蛋白质模型背后的团队由Meta AI资深研究科学家Alexander Rives主导,该团队专注于大规模蛋白质序列和结构数据的无监督表示学习模型研究。
2017年,欧洲生物信息研究所发布的显示了AlphaFold模拟人类的蛋白质结构,来源:法国新闻社
Meta AI研究科学家Alexander Rives说:“这些蛋白质极其多样,人类对它们知之甚少,为了数量规模庞大的蛋白质,研究人员需要在预测速度上取得突破。”他还称,使用大型语言模型,ESMFold能够在两周内预测超过6亿种蛋白质。
作为测试案例,Meta AI将ESMFold用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA数据库。绝大多数编码潜在蛋白质的DNA条目来自从未培养过且科学未知的生物体。
自从DeepMind取得突破以来,人们对AI在生物学中的应用产生了巨大的兴趣。AlphaFold是蛋白质结构预测方面取得的一大进步,这也进一步激发了深度学习的浪潮。
二、曾取得CASP最好成绩,AlphaFold将被用于治疗疾病
目前,DeepMind开源了AlphaFold2的代码,让社区可以免费使用,目前约2.4亿的几乎所有已知的蛋白质都可以查到。此前,研究人员花费几个月或几年时间才能预测蛋白质的结构。投资生命科学技术的成长型股票公司Biospring Partners联合创始人詹妮弗卢姆(Jennifer Lum)称,AlphaFold缩短了这个过程,使这些团队能够将他们的时间转移到下游的研究和产品开发上,进入其他增值领域。
2018年,AlphaFold1在两年一度的CASP实验中取得了最好的成绩。团队又花了大量时间跟踪CASP,尝试不同的方法来改进AlphaFold,测试它们是否可以匹配实验蛋白质结构的准确性。
Jumper称,这个团队一直工作到2019年,他才真正相信这个团队能够完成它的使命。传统而言,生物学家使用基于X射线和其他技术的实验室技术来理解单一蛋白质结构,但据Jumper称,这一过程不仅要花费数年时间,还活花费10万美元。
John Jumper领导了机器学习应用蛋白质生物学的新方法开发,来源:DeepMind官网
虽然计算方法在理解蛋白质结构方面取得进展,但是目前这项技术还不够完善。无法取代实验室方法。最初的AlphaFold模型试验AI预测氨基酸对之间的距离,第二步利用这些距离分布来得到蛋白质的预测结构。其中第二步涉及到AlphaFold,它利用这些信息,提出了一个关注蛋白质是什么样子的共识模型,而无需AI。
Jumper称,研究小组正在把注意力转向蛋白质创新的新挑战。研究小组正在寻求了解突变与蛋白质功能变化之间的联系,这可以帮助治疗疾病。
结语:AI赋能药物研发具有巨大潜力
作为蛋白质结构预测大模型,ESMFold在速度上快于AlphaFold2约60倍。如果在实际计算中,这一速度优势表现得更加明显。同时推断速度优势使得基于计算有效映射大型宏基因组序列数据库的结构空间成为可能。
ESMFold还可以被用于进行快速准确的结构预测,进一步帮助发现新的蛋白质结构和功能。未来,ESMFold或将超越预测蛋白质的静态结构,进一步研究蛋白质的动态结构。当这两个领域的研究都完成后,通过AI赋能新药设计就具备了基础,而从长远看,这具有巨大的潜力。
来源:《华尔街日报》
关键词:
-
远洋集团董事会变更:中国人寿支持力度再加强
2023-06-26 -
俄罗斯卢布对美元、欧元汇率下跌后回调|观速讯
2023-06-26 -
全球速看:殷若宁首夺女子高尔夫大满贯冠军 成功接棒冯珊珊
2023-06-26 -
当前速讯:广州职工医保住院报销比例是多少 广州职工医保住院起付标准2023
2023-06-26 -
唐朝著名番将:功劳仅在郭子仪、李光弼之下,亲手解散了安史之乱
2023-06-26 -
文明画廊②:争当德智体美劳全面发展的新时代好儿童
2023-06-26 -
以语言为桥 让世界更好了解中国
2023-06-26 -
用市场竞争力的“标杆”,看“专精特新”企业如何更上一层楼? 天天即时
2023-06-26 -
【天天聚看点】6月26日黄金期货走势分析:进一步反弹似乎遇到阻力
2023-06-26 -
全球热点评!美国药物滥用再致惨案!8个月婴儿服用芬太尼过量死亡 其父母被捕
2023-06-26 -
全球通讯!宝马准备利用卡通形象取代传统视觉效果
2023-06-26 -
环球快播:机动战士高达:水星的魔女 片尾插画 (第二十三话)
2023-06-26 -
一建啥时候网上报名2023
2023-06-26 -
全球球精选!厚积薄发绘新景——临潭县冶力关创建国家5A级旅游景区侧记
2023-06-26 -
wlan流量是什么意思怎么用_wlan流量怎么用
2023-06-26 -
赵薇和黄晓明什么关系_黄晓明喜欢赵薇
2023-06-25 -
暗黑破坏神4盘绕之缚任务怎么做 全球视点
2023-06-25 -
全南县税务局:税收助力当地产业加速融湾
2023-06-25 -
胜利街道推进垃圾分类与文明服务 环球短讯
2023-06-25 -
环球通讯!单月销量超比亚迪秦PLUS DM-i,是谁还在买日产轩逸?
2023-06-25 -
天天热点评!曾出演武将“赵子龙”,娶陈佩斯亲妹患病不离弃,对待岳父似亲儿
2023-06-25 -
宋维强
2023-06-25 -
@松江宝妈,孩子“社恐”,怎么办?丨健康智慧屋 全球速看料
2023-06-25 -
广东省2023年普通高校招生录取最低分数线
2023-06-25 -
端午连假澎湖县旅客爆满创新高 绿岛用电量刷新纪录|新资讯
2023-06-25 -
上交所公布中报预约披露情况 康缘药业率先披露 当前时讯
2023-06-25 -
今日热议:端午档总票房超9亿,《消失的她》领跑
2023-06-25 -
烟雨“江湖”-天天热点评
2023-06-25 -
当前视点!excel调用另一个表中对应的数值(excel怎么调用另一个表数据)
2023-06-25 -
最新消息:端午假期 成都新能源汽车销售火热
2023-06-25
-
守住网络直播的伦理底线
2021-12-16 -
石窟寺文化需要基于保护的“新开发”
2021-12-16 -
电影工作者不能远离生活
2021-12-16 -
提升隧道安全管控能力 智慧高速让司乘安心
2021-12-16 -
人民财评:提升消费体验,服务同样重要
2021-12-16 -
卫冕?突破?旗手?——武大靖留给北京冬奥会三大悬念
2021-12-16 -
新能源车险专属条款出台“三电”系统、起火燃烧等都可保
2021-12-16 -
美术作品中的党史 | 第97集《窗外》
2021-12-16 -
基金销售业务违规!浦发银行厦门分行等被厦门证监局责令改正
2021-12-16 -
保持稳定发展有支撑——从11月“成绩单”看中国经济走势
2021-12-16