本文聚焦上海交通大学特聘教授洪亮团队的最新科研成果,该团队将AI与蛋白质设计改造相结合,建立了全球最大的蛋白质数据集,基于此训练的模型能精准高效预测、设计蛋白质功能,同时介绍了相关模型的功能、配套设备以及成果的产业化落地情况。
在3月22日的上海,一则科研领域的重磅消息传来。上海交通大学特聘教授洪亮所带领的团队,正式发布了他们的最新科研成果。该团队创新性地将AI技术与蛋白质设计与改造进行深度结合,建立起了全球规模最大的蛋白质数据集。基于这个庞大数据集训练出来的模型,具备了精准且高效地预测、设计蛋白质功能的能力,这一突破成功地把蛋白质生产从以往“缓慢的试错”模式转变为“高效率的精准设计”模式。
我们都知道,蛋白质是由氨基酸序列构成的复杂物质,其氨基酸序列的长度跨度较大,从数百个到上千个不等。在当下的AI时代,数据无疑是推动技术进步的核心资源。对于蛋白质研究而言,庞大的蛋白质序列数据集能够帮助模型更好地理解蛋白质的序列、结构以及功能之间的内在关系。洪亮团队所建立的蛋白质序列数据集Venus – Pod(Venus – Protein Outsize Dataset),其规模令人惊叹,含有近90亿条蛋白质序列,并且包含数亿个功能标签。它不仅是全球数据规模最大、功能批注标签最多的数据集,其体量更是另一行业知名模型——美国ESM – C模型训练用的21亿蛋白质序列的4倍之多。
就在3月22日当天,洪亮教授在上海交通大学蛋白质功能预测Venus系列模型发布暨产业合作峰会上正式对外公布了这一成果。
洪亮教授表示,这个庞大的数据集就如同一个巨大的“蛋白质矿藏”。在这个“矿藏”中,人类有望挖掘出新的蛋白或者生物催化剂,这对于生物医药和合成生物学的快速发展将起到极大的助力作用。此外,AI大模型能够通过对海量数据的学习,掌握自然界蛋白质的进化模式,从而为AI设计出优异的蛋白质产品提供宝贵的学习资料。
从本质上来说,蛋白质是由20种氨基酸组成的一条高分子链,这条高分子链会经过扭曲并折叠成独特的三维结构,而正是这种独特的结构赋予了特定蛋白质相应的生物功能。然而,要设计出一款成功的蛋白质产品,仅仅关注它的三维结构是远远不够的,更重要的是要能够成功预测和设计它的功能。洪亮团队正是直接瞄准了“功能预测”这一终极目标,将原本复杂的蛋白质设计过程变成了一个以需求为导向,配合少量实验就能输出结果的简单过程。
“我们训练了Venus(启明星)系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型着重学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮教授介绍道。Venus系列模型具备两大核心功能,分别是“AI定向进化”与“AI挖酶”。这些具备超常规功能的蛋白质在生物技术、医药研发和工业生产等领域具有巨大的应用潜力,能够为这些相关领域带来创新和突破。
与此同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机也发挥着重要作用。这台设备可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,与人力操作相比,效率提高了近10倍。这将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。
一直以来,一款功能过硬的蛋白质产品的诞生并非易事,通常需要丰富的专家经验配合数以万计的实验试错。蛋白质设计改造过程中存在的时间长、成本高、试错密集等问题,长期以来都是业界面临的难题。
洪亮教授介绍,该成果配合行业领先的自动化设备,已经成功进行了产业化落地。例如Venus系列模型对某体外诊断头部公司碱性磷酸酶(ALP)的改造项目。Venus系列模型成功优化了ALP,使其分子活性超过国际头部公司产品3倍,这为超敏检测诊断(如心肌梗塞、阿尔兹海默症)带来了巨大的价值。目前,改造后的ALP已进入200L规模放大生产阶段,这标志着Venus系列模型成功实现了产业转化。
上海交通大学洪亮团队将AI与蛋白质设计改造结合,建立全球最大蛋白质数据集,训练出Venus系列模型,该模型能精准预测蛋白质功能。配套自动化一体机提高了研究效率。此成果解决了蛋白质设计改造的难题,并成功实现产业化落地,为生物医药等领域带来创新和突破。
原创文章,作者:Dermot,如若转载,请注明出处:https://www.qihaozhang.com/archives/3398.html