Anthropic推出Claude Sonnet 4.5,号称 “全球最佳编码模型” anthropic claude 4 anthropic的claude系统
创始人
2025-09-30 07:43:38
0

Anthropic宣称推出“全球最佳编码模型”。

9月29日,Anthropic推出了其最新的AI模型Claude Sonnet 4.5。公司称依据SWE-bench Verified(一项衡量AI系统软件编码能力的测试标准)等行业基准,Claude Sonnet 4.5堪称 “全球最佳编码模型”。

该模型能生成更高质量的代码,更擅长识别代码改进点,并且能更可靠地遵循指令。这款模型在编码基准测试中展现出顶尖性能,不仅能构建 “可投入生产使用” 的应用程序,而非仅停留在原型阶段。

同时,金融、法律、医学等领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域的知识和推理能力上表现出显著提升。


Anthropic表示,新模型将作为用户的默认选项,且价格与上一代Sonnet 4保持一致。不过,付费订阅用户仍可选择使用旧的Opus模型。

展望未来,Anthropic已暗示更多模型即将问世。Anthropic联合创始人兼首席科学官Jared Kaplan透露,更强大的模型正在开发中,其中“极有可能包括Opus”的新版本。他表示:

虽然没有承诺,但我认为在今年年底前,我们可能还会有一次或两次发布。

全面升级的性能与自主性

Claude Sonnet 4.5不仅在模型尺寸上进行了优化,更在核心能力上实现了全面超越。

Anthropic表示,根据衡量AI系统真实软件编码能力的SWE-bench Verified评估,该模型已达到业界顶尖水平。

在测试真实计算机操作任务的OSWorld基准测试中,Sonnet 4.5的得分从四个月前的42.2%跃升至61.4%,处于领先地位。


Jared Kaplan表示:

用户会注意到,这个模型更智能,更像一个同事,在遇到和解决问题时与它合作会很有趣。

Anthropic首席产品官Mike Krieger则表示,尽管Sonnet 4.5模型比此前的Opus 4.1更小,但在几乎所有方面都更为智能,能够为“真实的、实际的工作”提供有效支持。

该模型可自主运行长达30小时,远超前代模型的7小时,能够持续专注于复杂的多步骤任务。有网友初步测评后指出比以前模型输出更好,但有时会缺少其强调的关键内容:

对Claude Sonnet 4.5的初步想法:速度更快的模型,比以前的模型思考和输出更好;似乎缺少很多修复和我指出的关键事项,没有正确遵循说明;当它确实修复或创建我所需要的东西时,它达到了高标准。

安全与对齐的显著跃升

除了性能提升,Anthropic强调Claude Sonnet 4.5是其迄今为止“最一致的模型”。

公司通过广泛的安全训练,显著改善了模型的行为,减少了如欺骗、权力寻求和“奉承”(即模型迎合用户预期)等“令人担忧的行为”。

此外,新模型对“提示词注入攻击”具有更强的抵抗力,这种攻击会诱导模型执行恶意操作,如泄露敏感数据。Kaplan称:

这可能是过去一年半以来我们在安全性方面看到的最大飞跃。

该模型在AI安全等级3(ASL-3)的保护下发布,配备了旨在检测化学、生物、放射性和核(CBRN)武器相关危险内容的分类器,同时公司已将误报率大幅降低。


赋能开发者的Agent SDK

伴随新模型发布,Anthropic还推出了一系列产品升级,其中最引人注目的是Claude Agent SDK。

这是一个供开发者使用的软件开发工具包,其底层基础设施与驱动Anthropic旗下产品Claude Code的基础设施相同。

该公司表示,此举将解决构建AI代理(agent)时遇到的棘手问题,如长期任务的内存管理、平衡自主性与用户控制的权限系统以及协调子代理等。

通过开放这一工具包,Anthropic旨在让开发者能够为更广泛任务构建功能强大的定制化AI代理。


其他产品更新还包括为Claude Code增加的“检查点”功能、新的VS Code原生扩展、以及在付费应用中直接集成代码执行和文件创建(电子表格、幻灯片、文档)等功能。

相关内容

热门资讯

智印未来 创印无限:2026第... 2026年金秋十月,印刷行业的目光将再次聚焦上海。10月12日至16日,第十届中国国际全印展将在上海...
有人投诉“79岁老人被诱导消费... 澎湃新闻记者 计思敏9月29日,港交所披露,米连科技有限公司(简称“米连科技”)向港交所递交招股说明...
沪指震荡涨0.4% 半导体产业...   中新经纬9月30日电 30日早间,沪指红盘震荡,科创50指数涨2%。  截至午间收盘,上证指数涨...
聚石化学融资动态:9月29日融... 在9月29日的股市中,聚石化学(688669)引起了投资者的广泛关注。根据证券之星的最新消息,聚石化...
「i人经济」爆发,改造七大消费... 作者|成昱声明|题图来源于网络。惊蛰研究所原创文章,如需转载请留言申请开白。*本文为惊蛰研究所X21...
3大疑点曝光!卡纳瓦罗的国足帅... 国足选帅的剧本似乎悄悄变了味。从公开招聘到定向邀请,卡纳瓦罗的名字反复出现在头条,却像一场精心策划的...
什么时候泡沫破了,什么时候商业... 2023年的夏天,投中在成都曾经办过一场关于“商业航天”的闭门研讨会。那个时候,创投圈里最热的词就是...
孩子顶嘴是成长的信号,别再惩罚... 你是否曾因为孩子的顶嘴而感到气愤或无奈?在许多家长眼中,孩子的顶嘴似乎是一种叛逆行为,然而,这真的只...
国民养老陷发展困境:保费缩水3... 文|王书望 编辑/陈小泉 来源:燕梳师院国民养老自成立以来,便肩负着补齐我国养老保障体系短板的重任。...
原创 为... 司马师与司马昭的能力差距有多大?从这几点就能看出端倪 在司马家族内部,司马师和司马昭虽然都是司马懿...