抗体药物发现长期依赖免疫样本、展示文库与高通量筛选,这一流程虽然成熟,但在面对新发病原体或样本受限靶点时往往显得迟缓而昂贵。近年来,人工智能开始被引入抗体工程,但多数方法仍停留在“优化已有抗体”的层面。
Wasdin 等人近期发表于 Cell的工作,则尝试回答一个更根本的问题:是不是能够在绝对没抗体模板的前提下,仅凭抗原序列,直接生成具有真实结合能力的人源抗体?

这项研究提出的模型MAGE(monoclonal antibody generator),在实验层面系统展示了这一设想的可行性:模型以抗原序列为提示词,输出成对的 VH–VL 序列,并在 SARS-CoV-2、RSV-A 以及新近出现的 H5N1上完成了从生成到体外功能验证、再到结构确证的完整过程。
MAGE 并非从零开始训练,而是基于已经在十亿级蛋白序列上预训练的自回归模型 Progen2 进行微调。作者的核心思路并不复杂:如果语言模型能够学习蛋白序列的“语法”,那么在足够多抗体–抗原配对数据的约束下,它是否也能学习“什么样的抗体序列倾向于结合某一类抗原”。
为此,作者构建了一个包含18,507 对抗体–抗原序列的训练集,数据主要来自于CoV-AbDab、SAbDab、PLAbDab等公共数据库,并辅以作者自行生成的 LIBRA-seq 数据。
输入形式上,抗原序列与重链、轻链可变区被拼接为一条连续序列,使模型在训练过程中同时感知三者之间的统计关联。

值得注意的是,这一数据集在分布上明显偏向冠状病毒抗体。其中, 约三分之二与 CoV 相关。作者在文中也明确承认这一偏倚,并将其作为后续模型泛化能力评估的重要背景。
在模型训练完成后,研究者以抗原序列作为提示词,直接生成成对的 VH–VL 抗体序列。以 SARS-CoV-2 RBD 为例,模型一次性生成了上千条抗体候选,经过基本的结构完整性、人源性和长度筛选后,绝大多数序列被认为在生物学上是“合理的”。
从序列层面看,这些抗体并未集中于少数常见V基因组合,而是在 VH/VL 基因使用、CDR3 长度以及体细胞高变水平上呈现出较宽的分布。
更重要的是,将生成序列与训练集中最相似的抗体作比较后不难发现,差异并不局限于CDR3,而是广泛分布于整个可变区。这一点暗示,模型并非简单地“拼接”训练集中已有的 CDR,而是在更大尺度上对抗体序列空间进行采样。
作者在讨论中指出,这种全可变区层面的变化,可能是模型能够在后续实验中产生真实结合能力的前提之一。
为了验证生成抗体有没有真实的结合能力,作者从 SARS-CoV-2 RBD 生成的抗体中挑选了20条进行实验测试,其中既包含与已知抗体序列相对接近的候选,也包含完全不参考已知抗体的“非偏置”选择。

在 ELISA 实验中,9/20抗体表现出明确的 RBD 结合信号,其中多条在生物层干涉(BLI)实验中显示出纳摩尔甚至亚纳摩尔级亲和力。进一步测试表明,部分抗体能够结合全长 Spike 蛋白,并在假病毒体系中实现有效中和,其中一条抗体的中和效力达到ng/mL 级别。

值得注意的是,这些功能性抗体在序列上仍与训练集中最相近的抗体存在非常明显差异。作者在文中强调,这说明模型并非简单“回忆”训练数据,而是在生成过程中引入了具有功能后果的新突变。
如果说 SARS-CoV-2 的结果仍可能受益于训练数据偏倚,那么 RSV-A和H5N1的实验则更具说服力。RSV-A 在训练集中仅有有限数量的直接对应抗体,而 H5N1(A/Texas/37/2024)所用的HA序列在模型训练时尚未被报道,属于典型的“零样本”场景。

在这两种情况下,MAGE仍然能够生成具有明确结合能力的抗体:RSV-A体系中约三成候选表现出结合信号,其中部分具有较强中和活性。H5N1 体系中则筛选出多条对目标毒株具备中和能力的抗体。

作者在讨论中指出,这一结果并不代表模型已经掌握了普适的抗原识别规则,但至少表明其能够在相关序列空间内进行相对有效外推,而不仅限于复现训练集中高度相似的抗体。
为了进一步理解 MAGE 生成抗体的结合方式,作者解析了两条 RSV-A 抗体与前融合F蛋白的冷冻电镜结构。结构结果显示,这两条抗体分别靶向不同抗原位点,且在关键结合界面中引入了训练集中极低频、甚至未出现的氨基酸突变。
更引人注意的是,其中一条抗体的部分框架区突变对结合至关重要,在回退至胚系序列后亲和力显著下降。这一现象提示,模型在生成过程中并未刻意回避框架区变异,而是可能在全序列层面探索了新的可行解。

作者在讨论中强调,尽管 MAGE 尚不能直接优化亲和力或中和效力,但其在不依赖模板和结构信息的前提下,已经能够显著富集功能性抗体候选,这本身就对抗体发现流程具有现实意义。
总体来看,MAGE 并非一个“自动生成高性能抗体”的终极工具,而更像是一个高效的抗体设计起点。它将抗体发现中最依赖经验和资源的早期阶段,转化为一个可计算、可扩展的问题。
在新发传染病、样本受限靶点以及早期靶点评估等场景下,这种能力可能显著改变抗体发现的节奏与方式。