视启未来——两大AI领军人物看中的“空间智能模型”公司
创始人
2026-01-26 10:41:58
0

有人说,中国硬科技已站上世界之巅,但就AI大模型的技术水平而言,中国仍处于追赶美国的阶段。这个结论正确吗?我们和昊辰资本创始人汤涛先生就此进行了讨论。他的观点是:至少该结论在“空间智能模型”领域是不正确的。一个来自于粤港澳大湾区数字经济研究院(IDEA研究院)的顶级科学家团队,开发出了全球领先的“空间智能模型”。这个团队的带头人,就是昊辰资本天使轮投资项目视启未来(深圳)科技有限公司(下文简称视启未来)的创始人——张磊博士。


图/张磊博士

视启未来的由来

张磊博士,是中国人工智能奠基人张钹院士的得意门生,也是拥有200余篇顶会论文、Google Scholar引用超6.2万次的IEEE Fellow。2024 年,张磊博士发布了通用视觉大模型 Grounding DINO 1.5,一举摘得视觉领域 SOTA(当前最优) 桂冠。在 COCO、LVIS 等多个国际权威测试中,该模型以绝对优势力压谷歌、Meta、微软等行业巨头,成功在全球舞台上为中国视觉大模型占据顶尖位置,彰显了国产 AI 的强劲竞争力。同年,团队推出的 DINO-X 模型更是凭借独一份的“泛化感知”能力,成为李飞飞团队和英伟达、银河通用、腾讯 Robotics X 实验室等国内外顶尖机构在发布重要研究成果时的重点引用对象,进一步确立了团队在全球空间 AI 领域的话语权。

Grounding DINO 1.5模型,一经公布便获得了IDEA 研究院创院理事长、世界顶级 AI 专家、美国国家工程院和英国皇家工程院外籍院士沈向洋的罕见转发推荐。要知道,这位AI界大佬素来惜字如金,转发频率堪称“一年一转”。这份难得的认可,无疑是中国原创AI模型向全球行业吹响的奋进号角。

张钹院士、沈向洋院士作为AI届领军人物,看到并认可张磊博士在“空间智能模型”中的研究突破,看好该技术广泛的应用前景,鼓励并支持了张磊博士的研究产业化步伐。

2025年8月,张磊博士正式创立视启未来,张钹院士和沈向洋院士担任公司顾问,全力支持公司发展。“很高兴的是,昊辰资本在Grounding DINO 1.5发布之初,就取得了与张磊博士团队的密切联系,并且参与了视启未来的天使轮投资”,汤涛先生无不兴奋地告诉我们。

技术产业化与模型突破并行

视启未来的两位重量级顾问--张钹院士和沈向洋院士,在学术界享有极高的声誉,在技术产业化方面拥有丰富的经验,在日常讨论中给团队提供了很多方向性的建议。在他们的关心指导下,公司从成立第一天起就确立了双措并举的方针——技术要落地,研究要前瞻。一方面,通过产业合作实现技术落地,要快速构建起可持续的商业模式;另一方面,要大胆投入前沿研究,保持技术在世界范围内的领先性。

在技术落地方面,公司成立不过四个月,就凭借DINO-X模型“泛化感知”的独特能力迅速打开市场,与招商局集团、美团机器人以及安凯微建立了深度合作,在工业场景、低空经济场景以及智能家居场景实现了空间模型的落地,从而让泛化感知技术可以提供精准化、个性化的AI增值服务。

在前沿研究方面,视启未来的核心目标是实现空间感知模型与VLA(视觉-语言-动作)的结合,即通过将自身的通用感知能力与VLA架构融合,构建更符合物理世界规律的智能系统。同时,3D空间感知也是视启未来的重点研究方向。“我们希望将感知能力打磨至极致,以此切入更多长尾且高价值的细分场景。与此同时,我们正着手将这类核心能力融入具身智能体系,希望帮助具身突破瓶颈,而这一过程需要开展大量针对性的研究与探索工作。”张磊这样概括公司的路线图。


图/张磊博士指导完成的研究工作SegDINO3D,运用视频数据完成三维空间的物体感知

具身智能中的创新型务实解法

张磊博士对具身智能本质的理解是机器人要实现“看得清、想得明白、做得动”,必须以视觉感知为核心。因此,张磊的研究理念始终围绕“视觉原生”展开。他相信“视觉是机器与环境交互的基础”,强调“机器的最终行动依赖的是视觉与行动闭环,而非仅仅依赖语言”。 多年的研究积累也让张磊团队形成清晰的技术演进路径:从2D物体检测与识别出发,逐步向3D空间理解延伸,最终实现机器人与物理世界的精准交互。当前张磊团队的核心研究方向之一是将2D感知升级为3D理解,解决具身智能的关键问题——通过视觉信息判断物体的空间位置、表面结构,进而确定最优操作角度。

对于具身机器人而言,视觉是连接感知、规划与行动三大基石的核心纽带,是机器从“看懂”到“做到”的必经之路。而在具身智能领域,VLA(视觉-语言-动作)架构虽为主流技术路线,却尚未实现产业大规模实际落地,核心瓶颈包括模型架构的可行性存疑和训练数据量的严重不足。具身赛道已形成的共识是,先解决数据规模和质量问题,再推进模型创新。

在此背景下,为了促使具身智能走向通用化这一核心命题,全球科技界正展开多元探索:特斯拉专注真实数据仿真,英伟达聚焦数据泛化,李飞飞团队聚焦3D空间的生成与构造,而杨立昆团队倡导的JEPA模型,试图探索数据抽象。总体来说,这些探索路径各异,但都尚未实现实质性突破。“物理AI”、“空间智能”、“世界模型”这些新诞生的概念背后,本质都是在争夺对新事物的定义权。

视启未来的研究方向,给这场竞争提供了务实的创新方向。公司以2D空间理解为根基增加连续的空间维度的变化,从而延伸到3D空间,为3D理解提供了坚实支撑。沿着这条路径,团队已经取得了可观的成果。张磊博士指导的研究工作OVSeg3R模型,进一步解决了开放世界中三维空间物体检测和分割的难题,且正在打破制约具身智能发展的“数据量级不足”的瓶颈。


图/最新3D分割模型OVSeg3R分割效果刷新了全球同类模型分数

以机械臂抓取物体的场景为例,传统VLA模型需要收集不同颜色、形状、环境下的海量实物交互数据,成本高且效率低。张磊则认为,抓取动作本身具有通用性,通过引入通用感知能力,可极大程度减少VLA对操作数据的依赖,放大现有数据的利用效率,让VLA完成各类物体的抓取,达成全场景的真实泛化。这一创新思路从根本上降低了数据依赖,为具身智能规模化应用创造了条件。

汤涛先生如此总结:“空间智能模型企业正迎来技术迭代与产业融合的双重红利,发展前景无限广阔。视启未来在空间智能模型领域已具备全球技术领先优势,不仅与头部企业达成合作,完成产业落地验证并推进相关业务,更凭借硬核技术为具身智能的通用化发展提供了无限想象空间与坚实支撑。我们坚信,视启未来必将成长为中国乃至全球‘空间智能模型’赛道的独角兽企业。”

一个在“空间智能模型”领域全球领先的公司,它的未来,确实值得期待。

相关内容

热门资讯

赵锡军:更加积极有为的宏观政策... 国家统计局19日公布2025年中国经济“成绩单”:初步核算,全年国内生产总值1401879亿元,按不...
新中式服饰“破圈” 消费现象彰... 中国商报(记者 周子荑)刺绣马甲、香云纱旗袍——随着春节临近,原本火热的“新中式”服饰市场热度再升。...
招行信用卡换帅,财富老将厉明东... 压力较大的信用卡业务,新护城河难寻。文/每日财报 张恒当下,信用卡业务已从“跑马圈地”进入“精耕...
张影:“投资于人”释放长期消费... 国家统计局19日公布2025年全年经济数据。当日,中新社国是直通车举行“2026年中国经济形势分析会...
跳出单一经济指标,重塑城市发展... 本文来源:时代周报 作者:迟雨1月23日,大连市统计局通报,2025年,全市地区生产总值10002....
20年品牌10年冠军:10年1... 卡萨帝的进化史。文 | 华商韬略 许佳慧中国高端品牌全球突围的绝佳范本。【01 “高端之王”】回溯2...
广货行天下,离不开2201万技... 本文来源:时代周报 作者:何珊珊“广货行天下”,行的是什么?“广货行天下”春季行动启动仪式已于1月1...
迈入十万亿、营利迎正增 浦发银... 独立 稀缺 穿透棋至中局,驭变者胜、克难者赢作者:张戈编辑:楚逸风品:陈晨来源:铑财——铑财研究院马...
视启未来——两大AI领军人物看... 有人说,中国硬科技已站上世界之巅,但就AI大模型的技术水平而言,中国仍处于追赶美国的阶段。这个结论正...
15元吃到半只鸡,烤鸡米线正在... 作者 |餐饮老板内参内参君人均15元的狂欢烤鸡米线走红云南风味的米线小店,还在一轮又一轮地刷新人们对...