上海交通大学洪亮团队将AI与蛋白质设计改造相结合的科研成果。团队建立了全球最大的蛋白质数据集,基于此训练的AI模型能预测并设计蛋白质功能,实现了产业化落地,还介绍了该成果在多方面的应用和价值。
在生物技术、医药研发和化学等工业生产领域,一些特殊功能的蛋白质有着巨大的应用价值。例如,抗体蛋白怎样才能更好地抗酸、耐碱,耐受胃肠消化?蛋白酶又如何能更敏感地检测像心脏病或精神病这类疾病?然而,功能型蛋白质产品的诞生并非易事。以往,这通常需要丰富的专家经验,还要配合数以万计的实验来试错。长期以来,这种方式存在时间长、成本高、试错密集等问题,一直是业界难以攻克的难题。
3月22日,上海交通大学在大零号湾发布了一项令人瞩目的最新研发成果。该校特聘教授洪亮团队将AI与蛋白质设计改造相结合,成功建立了全球最大的蛋白质数据集。这个数据集覆盖了从常规地表生物到极端环境微生物的百亿量级蛋白质序列信息。
基于这个庞大数据集训练出来的AI模型,能够预测并设计蛋白质的功能,实现了从“缓慢试错”到“高效精准”的新范式转变。该成果再配合行业领先的自动化设备,已经成功实现了产业化落地。这一突破把蛋白质设计从原先复杂的“科学难题”变成了如今相对简单的“工程操作”,为相关领域带来了创新和突破,对生命健康领域意义重大。
目前,洪亮团队正在进行湿实验验证工作。
全球最大蛋白质数据集,含近90亿条序列
当我们提到蛋白质时,首先想到的可能是肉、蛋、奶等食物,它们富含蛋白质,能为我们的身体提供所需的营养。但实际上,大量工业级的蛋白质产品,需要经过人工设计和改造,才能发挥特定的功能,满足各种应用需求。
蛋白质是由氨基酸序列构成的,其氨基酸序列长度从数百个到上千个不等。在AI时代,数据成为推动技术进步的核心资源。庞大的蛋白质序列数据集就像是丰富的“学习资料”,能够帮助AI模型更好地理解蛋白质的序列、结构和功能之间的关系。
洪亮团队建立的蛋白质序列数据集Venus – Pod含有近90亿条蛋白质序列,还包含数亿个功能标签。这使其成为全球数据规模最大、功能批注标签最多的数据集,其规模达到了另一行业知名模型——美国ESM – C模型训练用的21亿条蛋白质序列的4倍。
据解放日报·上观新闻记者了解,该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列。尤其值得一提的是,它配备的数亿功能标签,涵盖了蛋白质工作的温度、酸碱度、压强等多方面信息。
那么,这些数据意味着什么呢?洪亮教授表示,一方面,这个数据集就像一座巨大的“蛋白质矿藏”,让人类有可能从中挖掘出新的蛋白或者生物催化剂,推动生物医药和合成生物学的快速发展;另一方面,AI大模型有望通过学习这些海量数据,掌握自然界蛋白质的进化模式,为设计出优异的蛋白质产品提供宝贵的学习资料。
图为洪亮教授讲解。赖鑫琳 摄
AI预测蛋白功能,训练“六边形战士”
蛋白质是由20种氨基酸组成的高分子链,这条高分子链会扭曲并折叠成独特的三维结构。正是这种独特的结构赋予了特定蛋白质生物功能。去年,诺贝尔化学奖颁发给了谷歌DeepMind团队,该团队利用AI技术“AlphaFold(阿尔法折叠)”精准解析了从蛋白质序列到三维结构的关系,解决了困扰生物学家长达50年的基本难题。
然而,现实中存在一个难题:即使只是对蛋白质的氨基酸序列进行微小的改动,哪怕只有1%的变化,虽然蛋白质的整体结构看似没有明显改变,但它的功能大概率会变差,甚至完全丧失。这意味着,要设计出一款成功的蛋白质产品,不能仅仅关注它的三维结构,更重要的是要能够成功预测和设计它的功能。
为此,洪亮教授团队另辟蹊径,不再执着于蛋白质的结构,而是直接将目标瞄准“功能预测”。他们把复杂的蛋白质设计过程变成了以需求为导向,只需配合少量实验就能输出结果的简单过程。
洪亮教授表示:“我们训练了Venus(启明星)系列模型,让它学习自然界蛋白质序列的组织规则以及它与功能之间的关系。该模型预测蛋白质突变功能的精度位居行业榜单之首。”Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。
所谓“AI定向进化”,是指Venus系列模型可以对一个不太理想的蛋白质产品的多种性能进行优化,使其成为满足相应应用需求的“六边形战士”。而“AI挖酶”则是指Venus系列模型基于其海量的未知功能蛋白质数据集,能够像“海选超能力战士”一样,精准发掘出满足苛刻应用需求、具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。
与此同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,相比人力效率提高了近10倍。这将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。“设计AI化,实验自动化”的模式,让科研人员从烦琐的设计和实验中解放出来,他们只需要提出问题,AI和自动化设备就能解决问题。
团队通过记录实验结果,进行干湿迭代,完成蛋白质设计。
多款产品落地,助力阿尔兹海默症等诊断
经过AI设计出的蛋白质在实验室环境中表现出色,那么能否保证它在中试阶段或大规模生产中同样能维持优异的性能呢?事实上,经过Venus系列模型设计的多款蛋白质已经实现了落地产业化。
以国内生长激素龙头金赛药业的单域抗体耐碱性改造项目为例。提升蛋白质的耐碱性一直是一项极具挑战性的工作。洪亮团队借助该模型,结合少量湿实验闭环迭代验证,不到1年就将普通单域抗体的耐碱性提升了4倍,每年为金赛药业节约上千万元成本。该成果已经实现了多个批次5000升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。
Venus系列模型的另一项创新应用,是对某体外诊断头部公司的碱性磷酸酶(ALP)改造项目。ALP因具有高稳定性和灵敏度,被广泛用作标记酶。其活性越高,检测灵敏度就越高,从而能够检测到量度极低的生物标志物。然而,提升ALP的活性一直是一个巨大的挑战。
结果,Venus系列模型成功优化了ALP,使其分子活性超过国际头部公司产品的3倍,为心肌梗死、阿尔兹海默症等超敏检测诊断带来了巨大价值。目前,改造后的ALP已进入200升规模的放大生产阶段,标志着Venus系列模型实现了产业转化。
本文介绍了上海交通大学洪亮团队将AI与蛋白质设计改造结合的科研成果。团队建立全球最大蛋白质数据集,基于此训练的AI模型能预测和设计蛋白功能,实现产业化。该成果还具备多种应用,如提升单域抗体耐碱性、优化碱性磷酸酶活性等,为相关领域带来创新和突破,助力生命健康领域发展。
原创文章,作者:Dermot,如若转载,请注明出处:https://www.qihaozhang.com/archives/3502.html