论文合集 |这些基于人工智能的蛋白质设计的论文

发表时间:2023-05-26 11:54作者:沃恩智慧

随着人工智能技术的发展与深化,人工智能在计算生物领域的融合与发展也愈发深入。而蛋白质结构预测则是其中的一项重要工作。


小编筛选整理出了近三年来最值得一读的 AI-based Protein Design论文,这些论文大多都被 Nature 和 Science   等顶级期刊收录,在此推荐给大家。


什么是蛋白质结构设计?


蛋白质结构是指蛋白质分子的空间结构,所有蛋白质都是由20种不同的氨基酸连接的一条长链组成,这条长链在不同氨基酸组合下会呈现出不同的空间结构。


蛋白质的空间结构直接决定其功能。例如,抗体蛋白折叠的形状能使它们精确识别和瞄准特定的异物,就像一把钥匙插入锁中一样。然而,蛋白质根据其氨基酸序列可能折叠成的不同构型的数量是个天文数字,传统方式中,蛋白质空间结构测定通过核磁共振和X射线晶体学测得,成本高、费时长,需要数百万美元的设备和数月乃至数年的反复试验。因此,在几年前,科学家还只知道人体大约2万种蛋白质中约17%的 3D 结构。


图片


AlphaFold2 是一个由 DeepMind 开发的深度学习方法,利用多个外部开源程序和数据库来通过蛋白质序列预测其 3D 结构。AlphaFold2 的出现是为了解决蛋白质结构预测问题,即由氨基酸序列得出对应空间结构,并取得了原子级的预测准确度。


图片


但正如前文所说,蛋白质功能由蛋白质结构决定,以制备适用于某类疾病的药为例,仅蛋白质结构预测并不能得出想要的大分子药物氨基酸序列。而蛋白质设计的目的便是设计具有某类功能的蛋白质,基于 AI 的蛋白质设计,则结合之前蛋白质结构预测模型,自动学习蛋白质设计方法,从而真正服务于人类制药需求。


基于 AI 技术的蛋白质结构设计方法


不同于 NLP、CV 这类定义明确的问题,蛋白质设计具体做法相差很大,适用于不同的设计流程中的问题定义也很不同。绝大多数 paper 都将蛋白质设计定义为一个由空间结构预测氨基酸序列的问题(就是 Alphafold 的逆问题);而有的则定义为一个给定部分结构的蛋白质结构补全问题,例如赫赫有名 David Baker 组最近的 Science[1]。


前者假设可以通过分子动力学模拟等方式得出想要蛋白质的空间结构;后者则假设只能找到部分结构吻合。


图片


除此之外,还有很多方法可用于蛋白质设计,对应的AI问题定义也非常不同,例如国内 Liu Haiyan 团队最近在 Nature 上发表的论文[2],将拟合的能量函数结合 MD 模拟来进行蛋白质设计。


图片


论文精选


论文:BERTology Meets Biology: Interpreting Attention in Protein Language Models

链接:https://arxiv.org/abs/2006.15222

图片


论文:Conditional Antibody Design as 3D Equivariant Graph Translation


链接:https://arxiv.org/abs/2208.06073

图片


论文:Conditioning by adaptive sampling for robust design

链接:http://proceedings.mlr.press/v97/brookes19a.html

图片


论文:Deep generative models create new and diverse protein structures

链接:https://www.mlsb.io/papers_2021/MLSB2021_Deep_generative_models_create.pdf

图片


论文:Deep sharpening of topological features for de novo protein design


链接:https://openreview.net/forum?id=DwN81YIXGQP


图片


论文:Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model for Protein Design

链接:https://proceedings.mlr.press/v139/cao21a.html


图片


论文:Generative modelling for protein structures


链接:

https://proceedings.neurips.cc/paper/2018/hash/afa299a4d1d8c52e75dd8a24c3ce534f-Abstract.html


论文:Generative Models for Graph-Based Protein Design


链接:

https://proceedings.neurips.cc/paper/2019/hash/f3a4ff4839c56a5f460c88cce3666a2b-Abstract.html

图片


论文:Model-based reinforcement learning for biological sequence design

链接:

https://openreview.net/forum?id=HklxbgBKvr&fileGuid=3xgr169o12oUrbxS&ref=https://githubhelp.com


图片


论文:Molecule Generation For Target Protein Binding with Structural Motifs

链接:https://openreview.net/forum?id=Rq13idF0F73


图片



分享到: