阿里英伟达合作的Physical AI,是怎么回事? 阿里AI芯片与英伟达关系 阿里ai芯片和英伟达差距
创始人
2025-09-25 21:52:42
0



云栖大会上,阿里宣布AI平台将把完整的英伟达Physical AI(物理AI)软件栈纳入其开发者选项菜单。这个看似技术性的宣布,实际上标志着人工智能发展的一个重要转折点。英伟达CEO黄仁勋在2025年CES大会上明确表示:AI下一个前沿就是物理AI,蕴藏着巨大的潜力和机遇。

根据市场研究数据,全球工业机器人市场规模预计从2024年的1544亿元增长到2025年的3000亿美元,其中AI技术在工业机器人中的应用市场更是以21.9%的年复合增长率快速扩张。

然而目前大部分工业机器人仍属于传统自动化设备,按照预设程序执行固定动作。一旦环境发生变化——比如零件位置偏移或形状略有不同——就需要人工重新编程。物理AI机器人则可以自主适应这些变化,通过实时感知和决策来完成任务。

这其中,由传统工业机器人升级到物理AI所带来的增长,正是阿里和英伟达合作的根本。不过在此之前,我们需要了解一个问题,什么是物理AI?

A

如果非要用一句话来概括什么是物理AI,那就是一个让人工智能从屏幕里走出来,真正进入物理世界的技术。

举个简单的例子:传统AI可以识别出一个杯子,并告诉你这是什么;而物理AI不仅能识别杯子,还能判断杯子的重量、材质,计算出抓取它需要多大的力度,以及如何避免打翻里面的液体。这种差异决定了两者的应用场景完全不同。

黄仁勋强调,Physical AI的核心在于将物理规律与人工智能技术相结合,通过整合真实物理规则来优化AI生成的内容,使其更符合现实世界的逻辑与规律。物理AI,顾名思义就是物理+AI,也就是人工智能反馈的内容要符合物理规律。

物理AI这个概念并非一夜之间出现,而是英伟达经过多年技术积累和战略布局的结果。早在2021年,英伟达就开始在GTC大会上提及物理AI的概念,但真正将其作为核心战略推出是在2024年3月的GTC 2024大会上。黄仁勋在那次大会上首次系统性地阐述了物理AI的愿景,并发布了相关的技术平台和工具链。



在黄仁勋看来,AI的发展经历了三个清晰的阶段:最初是感知AI(Perceptual AI),能够理解图像、文字和声音,这个阶段的代表是计算机视觉和语音识别技术;然后是生成式AI(Generative AI),能够创造文本、图像和声音,以ChatGPT、DALL-E等为代表;现在我们正进入Physical AI(物理AI)的时代,AI不仅能够理解世界,还能够像人一样进行推理、计划和行动。

物理AI的技术基础建立在三个关键组件之上:世界模型(World Model)、物理仿真引擎(Physics Simulation Engine)和具身智能控制器(Embodied Intelligence Controller)。世界模型是物理AI的认知核心,它不同于传统的语言模型或图像模型,需要构建对三维空间的完整理解,包括物体的几何形状、材质属性、运动状态和相互关系。技术上,这通常通过神经辐射场(NeRF)、3D高斯溅射(3D Gaussian Splatting)或体素网格(Voxel Grid)等方法来实现空间表征,模型需要学习物理定律的隐式表示,比如重力加速度、摩擦系数、弹性模量等参数,并能够根据当前状态预测未来的物理演化。

物理仿真引擎则负责实时计算物理交互,这不是简单的预设规则,而是基于偏微分方程求解器的动态计算系统,需要处理刚体动力学、流体力学、软体变形等复杂物理现象。在技术实现上,通常采用有限元方法(FEM)、粒子系统(Particle System)或基于深度学习的可微分物理仿真器,关键在于计算效率和精度的平衡——系统需要在毫秒级时间内完成复杂的物理计算,同时保证足够的精度来支持准确的决策。

具身智能控制器是连接虚拟推理和物理执行的桥梁,它接收来自世界模型的预测结果和物理仿真的计算输出,生成具体的控制指令。技术上,这通常基于模型预测控制(MPC)或深度强化学习(DRL)算法,控制器需要处理高维的状态空间和动作空间,同时考虑执行器的物理限制、延迟和噪声。

从系统架构角度,物理AI采用分层设计。感知层集成多模态传感器阵列,包括RGB-D摄像头、激光雷达、IMU、力/扭矩传感器等,关键技术挑战在于传感器融合和实时处理,系统需要将不同传感器的数据统一到同一个坐标系中,处理时间同步、标定误差和数据噪声,技术上通常采用卡尔曼滤波、粒子滤波或基于深度学习的传感器融合网络。

认知层运行世界模型和物理仿真引擎,这一层的计算密集度极高,需要专门的硬件加速。英伟达的方案是使用GPU集群进行并行计算,同时开发了专门的CUDA内核来优化物理仿真算法,内存管理也是关键技术点——系统需要在有限的GPU内存中维护大规模的3D场景表示和物理状态。

执行层负责运动规划和控制,技术核心是逆运动学求解和轨迹优化。对于多自由度的机器人系统,需要实时求解复杂的约束优化问题,现代方法通常结合解析解和数值优化,使用雅可比矩阵的伪逆来处理冗余自由度,并采用二次规划(QP)或序列二次规划(SQP)来处理约束。

在物理AI发布的同时,英伟达还发布了与之对应的完整技术生态系统,包括Omniverse仿真平台、Isaac机器人开发套件、Cosmos世界基础模型等。

这是因为物理AI的训练需要大量的物理交互数据,但现实世界的数据收集成本极高,解决方案是基于仿真的数据生成。于是英伟达就通过Omniverse和Cosmos平台,生成大规模的合成训练数据,包括各种物理场景、材质属性和交互模式。不过再仿真环境中,训练的模型在现实世界中往往性能下降,这被称为“现实差距”,英伟达现在正在做的,就是用仿真到现实的迁移(Sim-to-Real Transfer)技术,去弥补虚拟数据和现实数据之间的差距。

物理AI对计算资源的需求远超传统AI应用,单个物理AI系统可能需要数百个GPU核心来实时运行。英伟达专门开发了RTX PRO服务器和DGX Cloud平台来支持这种计算需求,系统架构采用分布式计算,将不同的计算任务分配到专门优化的硬件上。这种技术架构使得物理AI能够在复杂的现实环境中实现实时的感知、推理和行动,真正实现了AI从虚拟世界向物理世界的跨越。

还有一点,与传统AI系统主要处理文本、图像等数字信息不同,物理AI通过大模型驱动,使机器不仅能够处理数据,还能理解三维世界的空间关系和物理规律。这种技术让AI系统具备了类似生物的空间感知能力,能够在现实环境中进行复杂的物理操作。

举个具体例子来说明这种差异:如果AI生成一段机器人抓取物体的视频,传统的生成式AI可能会创造出物体悬浮在空中、机械臂穿过固体障碍物、或者违反重力定律的画面,因为它只是基于训练数据进行像素级的模仿。而物理AI则会确保生成的内容完全符合物理世界的运作方式——物体会受重力影响下落,机械臂必须绕过障碍物,抓取力度要与物体重量相匹配。

这种技术革新的深层意义在于,它让AI从纯粹的信息处理工具,转变为能够真正理解和操作物理世界的智能系统。传统的AI就像一个只会看书但从未实践的学者,拥有丰富的理论知识却缺乏实际操作经验;而物理AI则像一个既有理论知识又有实践经验的工程师,不仅知道是什么和为什么,更重要的是知道怎么做,能够将抽象的知识转化为具体的行动。

B

黄仁勋对物理AI的前景极其乐观。他曾在CES上表示,Physical AI将催生超50万亿美元规模的行业变革,涉及1000万家工厂、20万个仓库、未来数十亿计台人形机器人和15亿辆汽车及卡车。这个数字听起来令人震撼,但背后有着坚实的逻辑支撑。

世界上有10亿知识工作者,AI智能体可能是下一个机器人行业,很可能是一个价值数万亿美元的机会。黄仁勋在CES 2025上表示。他认为,物理AI意味着AI不再局限于虚拟世界,而是开始走向现实世界,并将在机器人、物流、汽车、制造等千行百业成为主流应用。

在黄仁勋的规划中,未来将有两款高产量的机器人产品:第一个是自动驾驶汽车,第二个很可能就是人形机器人。这两种机器都需要具有人类般的感知能力,能够应对快速变化的环境,并在几乎没有容错的情况下做出即时反应。他对人形机器人的潜力感到特别兴奋,因为它们最有可能适应为人类设计的环境。

黄仁勋还预言,机器人时代已经到来,未来所有移动的物体都将实现自主运行。这个预言的背后,是对物理AI技术成熟度和应用潜力的深度判断。从技术发展的角度看,随着计算能力的提升、传感器成本的降低、算法的优化,物理AI正在从实验室概念走向商业应用的临界点。

英伟达在物理AI领域的布局可以追溯到多年前对机器人技术的投入。该公司提出的物理AI概念,核心在于将物理规律与人工智能技术相结合,通过整合真实物理规则来优化AI生成的内容,使其更符合现实世界的逻辑与规律。

但是英伟达不敢步子迈得太大,与传统AI应用不同,物理AI系统直接与物理世界交互,其错误可能导致严重的安全后果。这要求物理AI系统具备更高的可靠性和安全性标准。

英伟达目前的方案是Halos安全系统。这是一个全栈安全系统,它可以统一硬件架构、AI模型、软件工具和安全标准,确保物理AI系统在各种环境下的稳定运行。从数据收集、模型训练到部署应用,每个环节都需要严格的安全验证。

视角来到阿里这边,他们选择将英伟达物理AI软件栈纳入开发者选项,背后有着深层的战略考量。当前的AI大模型应用主要集中在线上场景,而物理AI试图将整个现实世界融入AI当中。这种从虚拟到现实的跨越,正是阿里云在AI时代需要抢占的制高点。

阿里云智能集团董事长兼CEO吴泳铭在云栖大会上表示:生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。这一表态清晰地表明了阿里对物理AI重要性的认识。



阿里云CTO周靖人说过这么一句话,通义千问已开源300+模型,累计下载量超过了6亿。

然而,面对物理AI的发展趋势,通义大模型也面临着从二维理解向三维交互转型的挑战。传统的大语言模型擅长处理文本和图像,但在理解物理世界的空间关系、物理规律方面存在天然的局限性。这正是阿里需要引入物理AI技术栈的根本原因。

但,这正好也是阿里的瓶颈。阿里的数据更多来自于互联网,而非线下。这就迫使他们需要找到一个全新的途径,以帮助通义来完成虚拟到物理的转变。

李飞飞曾经也说过类似的观点,她认为对于AI而言,如果无法建立三维世界模型,就无法真正理解、操作或重建现实世界。

通过集成英伟达的物理AI软件栈,阿里可以为通义大模型增加空间理解和物理交互能力。这种集成不仅仅是技术层面的叠加,更是从语言智能向空间智能的战略转型。开发者可以利用阿里云的基础设施和通义大模型的语言能力,结合英伟达的物理仿真和机器人控制技术,构建真正能够在物理世界中工作的AI系统。

不过与之相对的,物理AI的发展不是孤立的,它需要与现有的AI技术生态深度融合。大语言模型提供了强大的语言理解和推理能力,计算机视觉技术提供了环境感知能力,机器人技术提供了物理执行能力。物理AI正是这些技术融合的产物。

在这个融合过程中,数据流动和处理架构至关重要。物理AI系统需要实时处理来自多个传感器的海量数据,进行快速决策,并控制执行器完成动作。这对计算架构和算法优化提出了极高要求。

云边协同是物理AI部署的重要模式。复杂的AI推理可以在云端进行,而实时的控制决策则在边缘设备上执行。这种架构既能利用云端的强大计算能力,又能满足实时性要求。

所以阿里也相当于给P物理AI提供了发展的养料。

C

如果说第一代感知AI让机器学会了看和听,第二代生成式AI让机器学会了创造,那么物理AI则让机器真正学会了行动。

然而,物理AI的发展也面临着诸多挑战。首先是技术上的挑战,如何让AI系统在复杂的物理环境中稳定运行,如何降低巨大的计算成本以实现技术的普及化应用,这些都是当前亟待解决的问题。此外,仿真训练与现实应用之间的“现实差距”也是一大难题。尽管仿真可以提供大量数据,但如何确保这些数据在现实世界中的适用性是个关键问题。

物理AI或许不会像某些预测那样迅速颠覆所有行业,但它必将逐步改变我们的工作和生活方式。它不仅是技术的革新,更是对传统行业的颠覆和重塑。随着技术的不断发展和应用场景的拓展,物理AI将成为推动全球经济增长和社会进步的重要力量。

相关内容

热门资讯

一年183亿,冰箱界的“低调高... 说到家电行业里谁比较牛逼,大家的第一反应,或许都是关于海尔、格力、美的这几个市场龙头。但估计很少有人...
星巴克拟斥资10亿美元重组:将... 上任一年,全球连锁咖啡星巴克CEO宣布拟斥资10亿美元深化重组。9月25日美股盘前,星巴克(Nasd...
因财务核算不规范等多项违规,韩... 9月25日,北京韩建河山管业股份有限公司(韩建河山,603616.SH)发布公告,收到北京证监局行政...
新老艺术家同台传承京韵经典 北... 中新网北京9月25日电 (记者 高凯)近日,北京曲剧《茶馆》成功入选文化和旅游部艺术司“2024—2...
新大洲控股被内蒙古牙克石市人民... 9月25日晚间,新大洲A(000571.SZ,新大洲控股股份有限公司)披露关于与内蒙古牙克石市人民政...
关注!中组部刊文批评机关“鞭打... 文/子安(识局微信公共账号zhijuzk)一近日,《中国组织人事报》刊文指出机关工作中普遍存在“鞭打...
【世界说】国际组织研究:关税已... 中国日报网9月25日电 综合外媒报道,最新研究显示,美国特朗普政府的关税政策正成为推动美国物价上涨的...
市场监管总局:家具智能等级评定... 上证报中国证券网讯 据市场监管总局官网9月25日消息,近日,市场监管总局(国家标准委)批准发布《家具...
奇瑞汽车上市首日总市值超184... 新京报贝壳财经讯(记者林子)9月25日,奇瑞汽车在港交所正式上市,盘中一度涨超10%,收盘股价报31...
金浦钛业:控股股东持有的403... 9月25日晚间,金浦钛业(000545.SZ)公告称,近日,公司通过控股股东金浦集团获悉,因案件执行...