AI新药开发企业Syntekabio(代表 Jung Jongsun)24日表示,其关于基于大语言模型(LLM)的蛋白质-小分子结合分析模型“3bm GPT”的相关研究,已被收录于总部位于瑞士的国际SCI学术期刊《MDPI Molecules》创刊30周年特刊“Recent Advances in Computational and Theoretical Chemistry”。
该论文提出了一种全新的方法,将复杂的三维蛋白质-配体结合信息转换为语言形式,并利用类似ChatGPT的大语言模型(LLM)进行训练,因此受到学界关注。
大语言模型是一种通过学习海量文本数据来理解语言模式和语义的AI技术,近年来通过ChatGPT等工具逐渐普及,但将其应用于生命科学数据,尤其是三维分子结合信息的案例仍然罕见。尤其是该技术计划作为Syntekabio AI新药开发平台“DeepMatcher”的认知型AI模块加以应用,因此此次论文发表在科学上验证了其实战技术,意义重大。
研究团队将蛋白质与小分子物质之间的相互作用用“interaction word(相互作用词)”来表示,并基于库仑定律算法,生成了约6000万条包含电子与空间键特性的结合相互作用句子,随后利用基于GPT-2架构的大语言模型进行训练,构建了3bmGPT模型。这是一种与以往结构基础分析或以物理运算为中心的模拟完全不同的方式,是将大语言模型的语言理解能力嫁接到生命科学数据上的全新尝试。
Syntekabio的模型仅凭语言形式的数据,就展现出捕捉真实蛋白质-配体结合性质的能力。研究团队通过分析GPT模型生成的logit向量,确认语言所反映的结合特性与实际结构特征的一致程度,并在EGFR、ABL1等主要蛋白质家族中,得出了GPT能够自主区分该系列蛋白所共享的结合模式的结果。这被评价为“仅凭语言化的一维信息就能理解生命科学中三维结合的意义”的实验性示例。
尤其值得关注的是,大语言模型生成的语言表达(logits)与真实蛋白质结合的结构特征在相当程度上相互对应,这一结果在以往新药开发AI研究中几乎未被讨论,显示出大语言模型有望成为新药开发中的新分析维度。
Syntekabio代表Jung Jongsun表示:“本次研究的重大意义在于,我们将蛋白质-配体结合信息转化为语言并输入大语言模型(LLM)进行学习的这一新技术,已通过国际期刊获得了正式验证。尤其是在与既有结构基础工具的直接比较中,证明了其优异性能,这是关键所在。”
他续称:“通过logit分析,我们在实验上证明了语言基础模型能够定量再现三维结合特性。今后将以此次学术验证为基础,逐步应用于实际的新药开发项目。”
值得注意的是,3bm GPT的核心技术已经计划实际应用于Syntekabio的AI新药开发平台,而此次被国际学术期刊收录,意味着其实战技术的科学合理性已得到正式认可。此外,相关技术已于去年在韩国获得专利,并已在美国提交专利申请,目前正在审查中。
另一方面,本次研究由Syntekabio研究团队与AI计算企业Cerebras Systems的Bin Claire Zhang博士共同完成。为确保研究透明性,Syntekabio已通过Zenodo和GitHub公开了预训练模型及代码。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。