您现在的位置:环球新闻网 > 探索 > 谷歌AlphaFold破译“上帝密码”,解答困扰人类50年难题

谷歌AlphaFold破译“上帝密码”,解答困扰人类50年难题

2022-02-18 21:25

  摘要:中国科学院院士施一公认为:AlphaFold2是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。

  对普通大众来说,谷歌AlphaFold似曾相识,而这份相识来源于它的孪生兄弟——打败围棋高手的AlphaGo。AlphaFold隶属于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind联合创始人兼首席执行官Demis Hassabis表示:“Deep Mind的终极愿景是构建通用人工智能,用它来帮助我们更好地了解我们周围的世界,加快科学发现的步伐。”目前,Deep Mind拥有员工1000名左右,成立以来几无营收,俨然成为谷歌旗下最烧钱的公司。然而,Deep Mind已经与Facebook AI Research、微软和Open AI等公司一起成为全球AI竞赛的领导者。基于AlphaFold,谷歌又一次“搞事情”,将其人工智能应用于人类科学中最棘手的领域—生物学。

  2021年,在第14届国际蛋白质结构预测竞赛(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4(满分100分),比第二名高25分,打败了所有竞争对手。甚至可以分析X-射线晶体学很难解决的楔入细胞膜中的蛋白质结构,这是许多人类疾病的核心。CASP发起人之一穆尔特更是感叹:“我从未想过在我的有生之年可以见证这一伟大。”2021年11月30日,Deep Mind宣布:“AlphaFold2成功解开了一个困扰人类长达50年之久的生物学难题——蛋白质折叠问题。”2021年7月15日,关于AlphaFold2的论文在Nature上发表[1],并在Github上将AlphaFold2的代码开源[2],以及上线可搜索的物种蛋白质组数据库[3]。中国科学院院士施一公认为:AlphaFold2是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。

研究成果(图源:Nature)

  AlphaFold2厉害在哪里?

  颠覆医学的技术突破

  蛋白质是生物体内一切功能的执行者,我们身体内的任何功能,从催化化学反应到抵御外来侵略都是蛋白质作用的结果;我们能行走、运动靠的是肌肉中肌动蛋白的工作;我们身体的骨架是由蛋白质骨胶原加强的;细胞的正常分裂或癌变也是通过蛋白质调节控制的。具有完整一级结构的多肽或蛋白质,只有当其折叠形成正确的三维空间结构才可能具有正常的生物学功能。如果这些生物大分子的折叠在体内发生了故障,形成错误的空间结构,不但将丧失其生物学功能,还会引起各种疾病,如:肺气肿、癌症、老年痴呆、帕金森氏症等。

  蛋白质一般是由几十到几百个氨基酸脱水缩合组成的多肽链,蛋白质氨基酸有22种,常见的有20种。在肽链上一个具体的位置为什么出现特定的氨基酸而不是别的氨基酸,以及为什么与这一氨基酸前后相连的氨基酸也是固定的?这与分子生物学中心法则密切相关:“DNA转录RNA、RNA翻译蛋白质。”具体来讲,DNA上储存的遗传信息,也就是碱基序列首先转录到RNA上,再由RNA上的碱基序列编码特定的氨基酸序列,以此构成蛋白质的物质基础。后来人们发现三个碱基形成一个密码子,对应编码某一具体的氨基酸,密码子在基因上的位置决定了氨基酸在肽链上的位置,形成了蛋白质的一级结构。但是,此时的线性结构还必须折叠形成天然三维结构之后才能具备承担活体生物所需的独特功能。然而,50多年来科学家对蛋白质如何从一维结构快速、准确地折叠成具有生物功能的天然三维结构的认知依然非常有限,这就是生物学领域著名的蛋白质折叠难题。

中心法则(图源:[4])

  蛋白质就像小巧精致的生物机器,而机器的结构决定了它的功能,因此揭示蛋白质的结构可以帮助我们理解蛋白质的功能。如果我们清楚蛋白质的结构,就能对其功能展开有根据的猜测。通过绘制大量蛋白质结构图,我们可以解读生命的生物学原理,并找到解决问题的根本方法。

  目前开展蛋白质结构研究的主要途径为借助实验仪器解析蛋白质结构如:X-射线衍射、核磁共振技术、冷冻电镜技术以及智能计算预测。诺贝尔化学奖得主Christian Anfinsen,在1972年曾提出,基于蛋白质的1D氨基酸序列可计算并预测蛋白质的3D结构。然而,3D结构在形成之前会有数以亿计的折叠方式。有数据显示,一个典型的蛋白质大约有10300种可能的构型,如果用实验方法来计算所有可能的构型,可能花费的时间比宇宙都要长。通过实验方法确定蛋白质结构是一项耗时且艰苦的工作,而AlphaFold2证明了人工智能可以在短短几分钟内准确预测蛋白质结构,并且精确到原子级。

  表1. 开展蛋白质结构研究的主要途径