Auto Research 时代，AI Scientist 的第一场药企实习考验 Auto Research 时代，AI Scientist 的第一场药企实习考验_股市动态

Auto Research 时代，AI Scientist 的第一场药企实习考验 Auto Research 时代，AI Scientist 的第一场药企实习考验

创始人

2026-05-19 21:08:40

0次

过去一年，AI圈诞生了一位顶级“卷王”——AI Scientist。它从只会乖巧答题的大模型做题家，快速进化为自动化科研助手（Auto research）：它可以自己提假设、查文献、写代码、跑实验、分析结果，甚至连论文都帮你写好。但从demo到应用，AI scientist领域却正陷入一场集体尴尬：AI 做科研的时代已来，但谁会为它的研究买单？

这一次，我们把这个问题放进最难的行业场景之一：生物医药。

Phylo、红杉中国xbench、Humanlaya Data Lab团队，联合斯坦福、哈佛、北大和头部药企的 100 位资深专家，耗时 1000 余小时，共同构建了全球首个面向真实生物医药研究场景的过程级评估框架——BiomniBench，并让 AI 从头到尾做一遍药企的真实数据分析（BiomniBench-DA），结果是：

1.最强 AI scientist实习生拿到 73.34分（满分100），显著高于人类实习生 40-50 分的平均线。

2.除基础模型外，智能体框架（Agent Harness）对结果的影响也很大。同一个 GPT-5.4，放在 Codex CLI 里 68.69 分，放在 Terminus-2 里只有 55.19 分。差了 13.5 分。

3.AI scientist 更快更省，单个任务平均用时4.9-25分钟、花0.92-4.58美元，而人类完成同样的任务通常需要数小时甚至数十小时。

4.AI scientist 也偏科，不同任务类型之间的表现差距显著。

01｜AI scientist 实习生到底被派去做什么？

在药企，搞研究可不是那么简单——

比如：给你一组免疫治疗患者的单细胞测序数据和临床信息，你要判断某个 biomarker（生物标志物）是否值得进入下一轮实验验证。这听起来并不复杂，但实际要面对的是：数据清洗、样本筛选、统计方法、多重检验校正、生物学解释...

每一步都可能出错。

而“在生物学里，一个看似正确的结论可能建立在完全错误的分析过程之上——而等你发现的时候，药已经做失败了。”这句来自药企一线科学家的提示，为我们指向了一个关键问题：评价一个AI Scientist是否能胜任药企的工作，不能只看结果，还需要关注整个过程。

真实情况：跑通了不等于做对了

过去一段时间，AI Scientist 领域出现了大量 Benchmark，他们试图帮助我们衡量模型是否知道某篇论文、某种方法、某个基因，以及能否在知识问答中给出正确答案。

但这些benchmark几乎都只在评答案对不对。

BiomniBench 旨在从根本上扭转当下 benchmark 的不足，不仅关注任务的结果，更关注测试是「模型会不会真的做研究」，从数据清洗、到方法选择、到统计检验、到生物学解释，每一步都测。达到了Agent 测试的更深一步：process-level evaluation，过程级评测

02 | 首个考核任务 -生物医药数据分析

首个落地模块 BiomniBench-DA 聚焦数据分析任务（Data Analysis）——这是当前 AI Agent 在生物医学研究中最常见、也最贴近真实研发流程的使用场景。

这套 Benchmark 共100 道题目，结合 Nature、Cell、Science 等高影响力论文的公开数据，由原论文作者或拥有 5 年以上行业经验的专家联合出题，把真实工作中常见的干扰因素和决策逻辑融入每一道题中，全面覆盖生物医药研究的5大疾病领域，和 17 类核心分析任务。

在测试的过程中，AI 答题需要给出完整分析轨迹，包括：读了什么数据，做了哪些清洗，为什么选某个方法，统计结果怎么样，怎么解释。然后 LLM 裁判按专家写好的评分标准（Rubric），从六个维度打分：数据处理、方法选择、统计严谨性、生物学解释、科学推理、来源可靠性

当然，评分标准允许多条合理路径。很多生物学问题没有唯一答案，关键在于论证清晰、有据可循。Agent不会因选择了与示例分析路径不同，但同样正确的方法而被扣分。

5 大疾病领域 × 17 类任务

03 | AI Scientist 的药企实习结果

Insight 1：谁是最强AI scientist 实习生

最强配置是 Claude Code + Opus 4.7，73.34 分。排在后面的是 Claude Code + Opus 4.6，69.83 分。第三名 Codex CLI + GPT-5.4，68.69 分。前三名里两个是 Claude Code 的配置。

作为参照，我们邀请了几位人类实习生在限定时间内作答部分题目，其平均得分在40-50分之间。这意味着最强的AI scientist 实习生表现已经超越了人类实习生平均水平。

Insight 2：Agent Harness 对结果的影响，与基础模型一样重要

在药企数据分析这个场景下，Agent Harness与模型能力对结果提升同等重要。在固定基础模型的情况下，更换Agent Harness会显著改变得分。最明显的案例是 GPT-5.4：

•在 Codex CLI 下得分为 68.69

•而在 Terminus-2 下仅为 55.19

这 13.5 分的差距完全归因于Agent Harness。

Terminus-2 Agent Harness 下9个基础模型的表现

Insight 3：AI Scientist 更快更省

AI scientist单个任务平均用时4.9-25分钟，花 0.92 到 4.58 美元；而人类完成同样的任务通常需要数小时甚至数十小时。在速度和成本上，AI 展现出一贯的优势。

对药企来说，这个进步还是很有价值的：大量探索性分析可以前置、并行化，然后丢给 AI，早期试错成本大幅降低

贵的不一定好，但好的确实贵

Insight 4：AI Scientist 也“偏科”

AI scientist在不同任务类型之间的表现差距显著。细胞组成分析最高分拿到 91 分，突变分析 88 分。边界清晰的任务是 AI 的专长。而GWAS-eQTL 分析只有 45 分，通路富集 64 分。需要判断统计方法、理解生物学上下文、和重科学推理的任务，AI 就稍显乏力了。

可见 AI 擅长计算，但对结果的生物学意义和科学深度理解还比较有限。短期内「AI 算 + 人类解释」可能是最安全的协作模式。

BiomniBench 的真正意义，不在于给生物医药 AI Scientist 排一个名次，而希望回答一个更大的问题：当 AI Scientist 试图端到端地自动化科研流程时，我们该如何判断它是否在真的做研究？

过去的 benchmark 像一场考试，给题、给答案、判对错。而 Auto Research 需要的是上岗评测，给数据、给目标、看过程、看结果、看风险。问题的关键不再是“这个模型准不准”，而是“这条分析链条，科学家敢不敢信”。

AI Scientist 的进步，来自基础模型、Agent Harness、行业知识，以及AI研究者与领域专家共同构建的 Verification Loop。对 AI 研究者而言，我们希望为大家打开真实的药企场景视野，了解真实任务中的难点。对生物医药从业者来说，我们也希望提供一个更贴近真实部署、并能客观了解 AI 现阶段能力的视角。我们相信，当过程被看见、当推理被验证、当每一环都可追溯，AI 与科学家之间的信任，才真正开始建立。

所以，实习结束。

如果是这样一位AI Scientist实习生，你会让它转正吗？

本次测评主要聚焦数据分析任务（Data Analysis），生物医药行业拥有极其多元的角色与职能，本次测评结果不代表所有岗位的情况。未来我们将延续这套过程级评测框架，推出覆盖更多行业场景的benchmark。欢迎行业专家、AI researcher 联系合作。

本次BiomniBench-DA仅评估了部分模型与Harness组合。未来我们将覆盖更多模型及AI Scientist专业产品。同时，我们将开源部分题目供内部测试使用。如您对产品在全部100道题上的评测结果感兴趣，欢迎联系我们。

科学药企生物学 auto research scientist

上一篇：“今日走过所有弯路，往后余生皆是坦途” 走过所有的弯路往后余生尽是坦途今天所有走过的路皆是人生的坦途

下一篇：利仁科技：公司股价短期上涨幅度较大，存在快速下跌风险利仁科技今天为什么涨停利仁科技股价下跌逻辑

Auto Research 时代，AI Scientist 的第一场药企实习考验 Auto Research 时代，AI Scientist 的第一场药企实习考验

相关内容

热门资讯