是一类多样化的医治药物,理论上可以以极高的特异性靶向任何蛋白质,使其成为医治多种疾病的极具远景的候选药物。直到最近,抗体开发依然主要是依托依据发现的试验办法,通常是经过挑选从前触摸过感兴趣的抗原靶点的人类或动物样原本进行。即使现在在抗体发现办法的通量方面有了大幅改善,这一进程依然吃力、缓慢且本钱效益低。医治商场以及单克隆抗体运用场景规模的继续扩展,对可以加快并拓宽抗体发现才能的核算东西的需求也随之添加。
近期,人工智能(AI)范畴获得的重大突破,尤其是依据 Transformer 的大言语模型(LLM)和分散模型(diffussionmodel)在各类使命中展示出的无与伦比的功用,推动了抗体相关规划使命的核算办法的迅猛发展,包含亲和力老练、抗体从头规划以及单域抗体的生成。
但是,现在没有有已宣布的办法可以证明咱们具有了规划无模板、抗原特异性抗体的才能。现有的办法仅限于抗体的从头规划,要点在于互补决议区(CDR)的生成,这需求一个初始的抗体模板来供给抗体的可变基因和结构区。此外,这类抗体规划模型主要是依据结构信息,且练习进程中需求抗体-抗原复合物数据,这在数据缺乏的情况下存在明显限制。
该研讨开发了一个依据蛋白质言语模型(PLM)的单克隆抗体生成器——MAGE(Monoclonal Antibody Generator),其可针对方针抗原生成配对的人类抗体可变重链与轻链序列。试验验证标明,MAGE 可以生成靶向SARS-CoV-2、新呈现的禽流感病毒H5N1以及呼吸道合胞病毒 A(RSV-A)具有试验验证结合特异性的新式多样化抗体序列。
MAGE 是一种First in Class模型,无需初始模板,即可规划生成靶向多个靶点的人类抗体。
在这项新研讨中,研讨团队提出了MAGE(Monoclonal Antibody Generator,单克隆抗体生成器),这是一种可以依据输入的抗原序列生成具有结合特异性的配对重链和轻链抗体可变区序列的蛋白质言语模型(Protein Language Model,PLM)。
MAGE 的开发依据对Progen2的微调完成——Progen2 是一种经过一般蛋白质序列预练习的自回归解码器大言语模型。该模型经过自注意力机制捕获输入序列中的杂乱依靠联系,运用下一符号猜测战略从观察到的氨基酸序列中学习规则。
该研讨经过将预练习模型对氨基酸序列的表征常识作为基础,进一步学习与多样化抗原靶标结合特异性相关的人类抗体序列特征。试验标明,MAGE 可以生成具有多样化序列特征的抗体,包含不同的重/轻链可变区基因运用形式、体细胞超骤变(SHM)程度以及在练习数据中未曾呈现的新式互补决议区(CDR)。
当以 SARS-CoV-2 野生型受体结合域(RBD)为提示时,在经过试验验证的 20 个 MAGE 生成抗体中,有 9 个(45%)成功承认了结合特异性,其间 1 个抗体对 SARS-CoV-2 的体外中和效能优于 10 纳克/毫升。此外,针对练习数据中代表性明显缺乏的呼吸道合胞病毒 A(RSV-A)交融前 F 蛋白,MAGE 生成的 23 个抗体中有 7 个(30%)经过试验验证了结合活性。研讨团队对两个 MAGE 生成的抗体与 RSV F 蛋白构成的抗原-抗体复合物进行了冷冻电镜(cryo-EM)结构解析,依据成果得出,MAGE 生成的抗体具有多样化的结合形式,并能在要害结合界面引进影响功用的要害氨基酸残基。
最终,针对未在练习数据中呈现的 H5/TX/24 流感病毒血凝素(HA)抗原,18 个 MAGE 规划抗体中有 5 个(28%)经过验证,展示了该模型的零样本学习新抗原的才能。
因而,MAGE 是创始(First in Class)的无需供给抗体序列模板即可规划出具有清晰靶标结合功用的新式人类抗体的里程碑式 AI 模型。