
出品|虎嗅科技组
作者|SnowyM
编辑|陈伊凡
头图|AI生成
“AI原生100”是虎嗅科技组推出针对AI原生创新栏目,这是本系列的第「53」篇文章。
2021年初,两个年轻人花了两天时间做了一个自动字幕App。上线没几天,它就冲上了App Store排行榜榜首。
听起来是个好的开始。但这两个人觉得字幕工具太“小”了,不够性感,于是转头去做了一个照片分享应用,想抓住Instagram从照片转向视频时留下的空白。照片App确实拿到了五六万日活用户,也顺利完成了A轮融资。
而那个字幕App被他们扔在了付费墙后面,停了维护,停了更新,彻底遗忘了。创始人Gaurav Misra的个人苹果账户里堆了几千封用户客服邮件,一封都没读。
一年半之后,他们偶然打开后台,发现了一件离谱的事:这个没人管的App,自己长到了50万用户,赚了50万美元。
这个被遗忘又被捡回来的产品,就是今天刚刚拿到General Catalyst 7500万美元、估值5亿美元、累计融资1.75亿美元的AI视频平台Mirage的前身Captions。
在AI视频赛道竞争最激烈的2026年,Mirage走了一条很特别的路。它既没有像Runway那样瞄准电影级的视频生成,也没有像Synthesia那样全力押注企业数字人培训。它死磕的是一件更大众的事:让普通人和小团队也能快速做出好看的短视频。
带着a16z、红杉、Kleiner Perkins、Index Ventures这些顶级机构给的钱,和超过2000万全球用户,这家公司正试图证明,AI视频赛道里最大的机会,可能藏在最日常的场景里。
Mirage的转型,是AI时代,AI视频公司一个非常典型的样本。L2F光源创业者基金投资总监Lela一直在一线密集看许多AI视频的项目,她告诉虎嗅,视频模型群雄逐鹿,国内外均有几十亿美金的创业公司,大模型公司和大厂也均有布局,应用公司的突围方式更多要回归创作本身。
在前几年,创业公司会更多聚焦在单点功能和交互方式的创新上,比如captions的字幕,对口型,虚拟形象;还有typenow主推的画布交互,出发的基点都是创作者在ai时代与agent产生的新交互。随着模型能力的提升,模型端到端完成任务的能力趋强,创作者的心智也在改变,交互将会变得更为简单,底层的工程框架和创作者knowhow/skill的积累会成为新一代视频agent的核心资产,市场会一直处于红海状态,新的10亿美金公司仍会产生,对于创业公司来说只有变化是不变的。
Lela的话,也指出了Mirage这家公司未来的挑战,他们正是从Captions起家,迅速跑起来,然后再Pivot(转型)最后成为一个让AI端到端完成从素材到成片的工作流的平台。
Captions最早能跑起来,靠的是一个特别朴素的洞察:人们越来越多地在无声状态下刷短视频。
地铁上、办公室里、深夜躺在床上,手机静音是常态。TikTok、Instagram Reels、YouTube Shorts上的内容,有很大比例是在没有声音的情况下被消费的。a16z在投资Captions时就专门提到了这一点:无声观看让字幕和文字覆盖变成了短视频的刚需,而当时市面上的字幕工具要么太粗糙,要么太贵。
Captions做的事情很简单:给视频自动加字幕,支持100多种语言,还能自定义字体、颜色、动画效果。就这么一个看起来不起眼的功能,上线6个月就做到了10万日活用户。
但字幕只是起点。
2023年开始,Captions进入了功能爆发期。它推出了AI口型同步配音(Lipdub),能把视频里的语音翻译成28种语言,同时让说话人的嘴型和翻译后的语音匹配上。2025年的新版音频模型甚至能保留说话者原本的口音特征,这在行业里很领先。
紧接着是AI虚拟形象(AI Creator),号称全球第一个专为内容创作设计的3D数字人,用户不用真人出镜就能生成逼真的视频。然后是AI一键编辑,系统自动给视频加转场、插入B-roll素材、配音乐和音效,提供21种以上的预设风格。还有AI眼神矫正,让说话的人看起来始终在直视镜头。

这些功能单拎出来看都挺厉害,但Captions把它们全部塞进了同一个App里。一个从没剪过视频的普通人,打开Captions,录一段话,点几下,就能拿到一条看起来像专业团队产出的短视频。
2025年9月,公司做了一件引起行业关注的事:从Captions更名为Mirage。
这次改名背后有很明确的信号。创始人Gaurav Misra在官方声明里说:「在我们看来,AI视频的真正竞赛还没有开始。Mirage这个名字代表了我们更大的愿景——通过前沿AI研究和模型,从短视频开始,重新定义视频这个品类。」
改名之后的架构是这样的:Mirage作为母公司品牌,旗下保留Captions(消费者创作应用)和新开辟的Mirage Studio(面向品牌和营销团队的企业平台)。更核心的变化在技术层。公司从头训练了自己的基础模型,包括Mirage Video(音频到视频的生成模型)和Mirage Audio(可控的表现力音频生成模型)。
这两个模型的特别之处在于,它们是专门为短视频场景设计的。传统的AI视频模型追求的是通用的画面生成能力,但Mirage的模型关注的是短视频里最核心的三个变量:节奏、构图和注意力动态。
简单说,就是什么时候切画面、画面怎么摆、怎么在前几秒抓住观众的注意力。这些东西对专业剪辑师来说是直觉,Mirage要做的是把这种直觉变成模型能力,让AI替你做出这些判断。
Mirage官方把这种方法叫做“Assembly Intelligence(组装智能)”,核心思路是把多个专门的AI模型组合在一起,分别负责节奏、构图、注意力和音频,最后输出一条完整的视频。
在赚钱这件事上,Mirage用的是订阅制加积分制的组合。免费版提供基础功能,Pro版每月9.99美元(200积分),Max版24.99美元(500积分),Scale版69.99美元(1400积分),企业版定制价格。AI功能按积分消耗,比如用AI生成视频按秒计费,用对话式编辑按消息计费。这种模式的好处是,把后台的AI算力成本透明化了,用户用多少付多少。
另一个让人意外的数字是,Captions在2023年B轮融资时就已经实现了正现金流,这在AI创业公司里几乎没人做到过。根据AppFigures的数据,过去12个月Captions的应用内收入约为2840万美元,其中75%来自美国以外的市场,全球化能力很突出。
融资路径也非常清晰。种子轮和A轮由红杉和a16z联合领投,2023年B轮2500万美元由Kleiner Perkins领投,2024年C轮6000万美元由Index Ventures领投,估值达到5亿美元。2026年3月,公司又拿到了General Catalyst旗下Customer Value Fund的7500万美元增长融资,累计融资超过1.75亿美元。
General Catalyst给这轮钱用的是一种特殊的“非稀释性资本”结构,之前只有Stripe和Gusto拿过类似的钱。General Catalyst常务董事Pranav Singhvi对Mirage的评价是:Mirage的商业方程式非常成熟。他们清楚知道怎么花每一美元,并且产生很强的投资回报。如果你想想他们面对的市场,这在某种意义上是一个无限大的可寻址市场。
Mirage的两位创始人背景差异很大,但刚好拼成了一块完整的拼图。
Gaurav Misra,CEO,出生在波士顿,4岁搬回印度新德里长大。在印度,计算机科学从小学就开始教,Misra 8到10岁就跟哥哥一起编程做游戏了。后来他去波士顿大学读了计算机科学,在学校里学了机器学习的课程。
毕业后他先后在微软Azure团队和几家创业公司干过,2016年加入Snap,一待就是5年。他在Snap做到了设计工程负责人(Head of Design Engineering),这是一个融合设计和工程的混合角色,专门负责创新和新产品方向。Snap Map、Spotlight(Snap对标TikTok的短视频产品),他都参与了。
在Snap的这5年里,Misra亲眼看到了短视频从一种内容形式变成了全球最主流的表达方式。TikTok爆发、Reels跟进、Shorts入场,短视频吞噬了几乎所有人的注意力。但他同时也发现,绝大多数想做短视频的人根本不会剪辑。拍摄多次、剪辑门槛高、配音和字幕费时费力,这些摩擦拦住了大量潜在的创作者。
另一位创始人Dwight Churchill,COO,走的是完全不同的路线。他在高盛做过消费金融平台Marcus的产品开发,是Marcus团队的早期成员。在高盛之前,他还在Taboola做过开发,后来转型成了产品经理。增长和商业化是他的强项,他很清楚怎么把一个产品变成一门生意。
两个人最早在一家叫Localytics的移动分析公司认识,当时在不同团队工作,但都留意到了同一件事:短视频平台正在疯狂增长,可是做视频的门槛完全没有降下来。
2021年初,两人先后离开大公司,凑在一起,花了两天时间做出了第一个产品原型。这就是前面提到的字幕App。上线几天冲到App Store榜首,但每个月自费超过1万美元维护服务器,两个人扛不住成本压力,决定先转向做照片社交。
后面的事情我们已经知道了。照片App拿到了融资和日活,但被遗忘的字幕App在没有任何推广和维护的情况下自己增长到了50万用户、50万美元收入。
这个数据说明了一件事:市场在用钱投票。
Misra和Churchill反复讨论之后,做了一个让投资人和团队都有点紧张的决定:砍掉照片分享App,所有资源转向AI视频。用Misra后来的话说,这是他职业生涯中机器学习、设计和快速产品原型制作完美交汇的时刻。
从管理风格来看,Misra很推崇速度和取舍。他有几个被团队反复引用的原则:「每个工程师每周都应该发布一个可以推向市场的东西」,如果时间不够,就 「砍范围,砍到再砍就没用了为止」,以及**「作为初创公司,你的工作就是承担技术债务」**。
公司内部有两套产品路线图:一套基于用户需求,对外公开;另一套充满实验性的创新想法,只在内部流通。Misra认为,最大的胜利往往来自那些没人预见到的东西。
在招人上,Mirage的标准卡得很死。Churchill曾经在LinkedIn上发布了一个帖子,2025年,公司工程岗的候选人录取率只有0.05%。做个对比,Ramp是0.23%,Y Combinator是1%,哈佛大学本科录取率是2.58%。
先看看Mirage正在进入的这个市场有多大。
AI视频编辑工具市场2024年规模约16亿美元,到2030年预计将达到93亿美元,复合年增长率超过42%。如果把视野放得更宽,整个AI视频市场(包括生成、编辑、分发)在2024年就已经是112亿美元 的体量,到2034年预计膨胀到2460亿美元。

但数字再大,也需要有人买单。买单的人是谁?是全球超过2亿的内容创作者。
高盛估算,创作者经济在2024年的规模大约是2500亿美元,预计到2027年将逼近5000亿美元。这些创作者中,84%已经在使用AI工具。但同时,超过一半的创作者年收入不到1.5万美元,这意味着他们对工具价格非常敏感。任何想在这个市场里站住脚的产品,都必须足够便宜,或者足够让人觉得“值”。
市场够大,但竞争也够残酷。
大厂们早就动手了。CapCut(字节跳动旗下)是Mirage在消费级市场遇到的最大对手。2025年,根据breakevenpointcalculator统计,CapCut的收入达到8.15亿美元,是全球收入最高的照片和视频应用。月活用户超过3亿,Android端下载量超10亿次,在移动视频编辑领域占据81%的市场份额。更关键的是,CapCut基本免费,背后还有TikTok的巨大分发渠道。
Adobe在把AI全面嵌入Premiere Pro和After Effects,Firefly Video Model已经进入公测,还支持第三方模型接入。Google通过Veo模型和YouTube Shorts生态切入。Meta也推出了免费的Edits视频编辑应用,直接对接Instagram和Facebook的分发体系。
对用户来说,这些功能几乎是“顺手就能用”的体验,不用额外安装,不用学习成本,也不用额外花钱。
创业公司这边,竞争同样激烈。
Runway是AI视频生成领域的标杆,累计融了5.44亿美元,最新估值30亿美元,年化收入约9000万美元。
Synthesia是企业级AI视频的头部,它的数字人平台提供230多个虚拟形象,支持140多种语言,超过90%的财富100强企业是它的客户。2025年,Synthesia甚至拒绝了Adobe一笔30亿美元的收购要约。
HeyGen的客户年增长率超过1000%,Descript年化收入接近1亿美元,Opus Clip拿了超过6000万美元融资做AI视频裁剪。光是2025年1月以来,AI视频领域的创业公司就总共筹集了超过5亿美元的新资金。
这里有一个更深层的问题:AI视频功能正在快速商品化。 以前需要几个月才能做出来的功能,现在几周就能复制。a16z合伙人Justine Moore说得很直接:下一阶段的差异化不在生成层,而在“编辑层”。谁能把AI变成一个隐形的后期制作团队,谁就能赢。
这也是Mirage从Captions改名背后更深的逻辑。它不想只做一个App,它想做一个平台,一个让AI端到端完成从素材到成片的工作流的平台。CEO Misra在2026年的融资公告里说了一句很有意思的话:在AI时代,光有好产品不够。赢在获客效率和增长速度。
这句话可以理解为,Mirage已经意识到,在一个功能趋同、竞争越来越激烈的市场里,技术优势的保质期越来越短。真正的护城河,可能是分发效率和资本效率的组合。
Gaurav Misra说过一句话,被反复引用:AI视频的真正竞赛还没有开始。
放在2026年的语境下看,这句话有两层意思。一层是乐观的:AI视频的市场还远远没有到天花板,机会依然巨大。另一层更冷静:目前的格局随时可能被推翻,谁也不知道最终赢家是谁。
回看Mirage这5年的路,从两天做出的字幕原型,到被遗忘一年半后自己长出来的产品,再到砍掉照片App全力转向AI视频,它的每一次关键转折都来自于对市场信号的敏感捕捉。用户用脚投票说字幕是刚需,他们就回头做字幕。短视频创作者需要更低门槛的生产工具,他们就把所有AI功能塞进一个App。后来发现企业也需要批量生成短视频广告,他们又开了Mirage Studio。
这家公司最特别的地方可能就在这里:它从来没有什么宏大的起点,一直是被市场推着走的,但每一步都踩对了。
在AI视频这个赛道里,大厂有钱有渠道,创业公司有速度有创意。Mirage的赌注是,在这两者之间存在一个精确的生态位:用自研模型的技术壁垒加上全球化分发的效率,在短视频这个最大众、最高频的场景里跑出来。
这个赌注能不能赢,取决于三件事:自研模型能不能持续领先、企业客户能不能真正跑起来、全球监管收紧的环境下能不能守住合规底线。
但至少有一件事是确定的:当一个没人管的App自己长出了50万用户和50万美元收入的时候,它背后代表的那个需求,是真实的。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4856233.html?f=wyxwapp