华为天才少年王裕鑫再创业,首月拿下数千万融资:流式视频能打开新局面吗?

2026-06-111000人工智能(AI)

具身智能大讲堂获悉,近日华为"天才少年"、元石科技早期核心技术成员王裕鑫创立的形界智能(北京磐如科技有限公司),在成立首月完成数千万级天使轮融资。公司成立于2026年5月7日,方向是"流式视频生成",让视频像文本对话一样持续生成,实时响应用户交互。

Image
 

这个选择有些反常识。Sora、Runway、可灵这些产品已经把文生视频、图生视频做得有模有样,形界智能却绕开这条拥挤赛道,去啃一块更硬的骨头。王裕鑫的判断是:视频生成的下一个阶段不在画质和时长,在交互性。

 

PART 01

为什么不做"更好的Sora"?

 

王裕鑫作为元石科技007号员工,主导过200B+规模的大模型训练,牵头开发了问小白o4、问小白5等核心模型。

Image
 

2025年底他所在团队发布的XBai o4,以32B参数量在LiveCodeBench上超越OpenAI o3-mini、Claude 4 Opus。这个团队被硅谷开发者Simon Willison列入2025年中国TOP6大模型团队,与Minimax、智谱、千问、Kimi、DeepSeek并列。

Image
 
Image
 

但王裕鑫没有继续在大模型推理上深挖,转身去做视频生成。中间有个过渡:他担任过Muset视频Agent技术负责人,参与过海外AI陪伴产品的技术落地。这段经历让他看到了现有视频生成产品的一个硬伤,它们都是"提交-等待-生成"模式,用户输入提示词,等几分钟到几十分钟,得到一段视频,然后交互结束。

这个流程对制作短视频素材够用,但支撑不了需要连续交互的场景。AI陪伴应用里,虚拟角色要根据用户语音、表情实时生成视频反馈;互动娱乐中,内容需要根据用户选择即时演变;视频Agent执行复杂任务时,要边推理边生成可视化过程。这些场景的共同点是:视频不再是独立内容单元,而是交互过程的一部分。

形界智能要做的就是这个,把视频生成变成"流式"的。技术路径是把大模型推理、视频生成和AI Agent结合起来,瞄准的是实时视频模型、AI陪伴、互动娱乐、虚拟角色和视频Agent等更具交互属性的场景。这是在避开单次视频生成质量的存量竞争,去开辟增量市场。

 

PART 02

流式生成要解决什么问题?

 

传统视频生成模型追求单帧画质、运镜流畅度、物理一致性,这些都是静态指标。流式生成面对的是动态问题:延迟要控制在多少毫秒内用户才不会感知卡顿?如何保证前后帧的连贯性?如何根据实时输入调整生成内容?

Image
 

从视频生成到世界模型:四代技术演进与三大核心能力总览。(拓展阅读论文:https://arxiv.org/pdf/2511.08585)

更麻烦的是,流式视频的评价标准还没建立起来。文生视频可以比画质、比时长,流式视频比什么?延迟低到什么程度算达标?画质可以妥协到什么地步?交互方式该怎么设计?这些问题都得在产品中试错。

王裕鑫在视频Agent和AI陪伴产品上的技术积累,加上大模型训练经验、并行思考模型的开源实践,构成了形界智能的起点。但从MoE架构大模型到流式视频生成,这个跨度不小。流式生成要求模型在极短时间内完成推理和渲染,同时保持连贯性,还要能根据实时输入调整内容。这不仅需要模型架构创新,也需要工程优化和硬件加速配合。

Image
 

即便是Meta的Llama Video、OpenAI的Sora,也没展示出真正的实时交互能力。形界智能面对的不是已验证的市场,而是需要自己去定义的新场景。AI陪伴、虚拟角色这些应用对流式视频的需求是真实存在的,但用户能接受什么样的画质换取实时性?愿意为这种体验付多少钱?这些问题都还没有答案。

 

PART 03

数千万融资能够坚持多久?

 

形界智能选择的方向有明显的长周期特征。文生图、文生视频工具可以快速推出demo、积累用户反馈,流式视频生成得先解决底层技术问题,才能构建可用产品。更长的研发周期、更高的资金消耗、更大的不确定性

Image
 

RunwayAI融资历程

Image
 

Pika融资历程

从融资节奏看,成立首月完成天使轮,说明投资方认可技术积累和团队背景。但数千万级融资规模,对这个方向来说只是起点。参考Runway、Pika的融资历程,从技术验证到产品成熟通常需要数亿美元。形界智能需要在短期内证明技术路径可行,才能拿到下轮融资。

这个压力会体现在产品策略上。现实选择可能是先在垂直场景落地——AI陪伴、虚拟主播这些对画质要求相对较低、但对实时性要求高的领域,积累技术和数据,再逐步拓展。这些场景的用户对"AI味"的容忍度更高,更看重交互体验而非视觉保真度。

商业模式也需要探索。文生视频工具按次收费或订阅制变现,流式视频的使用场景更分散、成本更难预测。ToB路线需要面对大客户的定制化需求和漫长销售周期,但如果能给AI陪伴平台、虚拟偶像公司提供底层能力,客户需求明确、付费意愿强。ToC路线需要在产品设计上找到足够强的用户粘性,这更难。

 

PART 04

窗口期还剩多少时间?

 

2025年是视频生成技术快速迭代的一年,Sora发布让整个行业看到商业潜力,国内外涌现大量跟进者。到2026年上半年,赛道已经开始分化:头部公司在画质和时长上持续突破,长尾公司在垂直场景和成本优化上找机会。但几乎没有人在做真正意义上的"流式视频生成"。

形界智能此时切入,是在赛道过度拥挤前抢占新方向。从技术成熟度看,流式视频生成仍处于早期。从竞争格局看,这个方向门槛够高,短期内不会有大量竞争者。但一旦技术路径被验证,头部公司的资源优势会迅速显现。

形界智能需要在窗口期建立技术壁垒——模型架构、工程优化、交互数据积累,都得形成难以被快速复制的护城河。王裕鑫在元石科技期间的大模型训练经验、XBai o4的开源实践、视频Agent的产品落地,是起点优势。但从起点到建立壁垒,需要在真实场景中反复打磨。

这笔天使轮融资,更像是对这个方向的一次押注:押注技术路径可行,押注应用场景成熟时机,也押注创始团队执行能力。当文生视频的画质竞赛趋于同质化,实时交互能否打开新的增长空间?王裕鑫给出的答案是肯定的,但市场会在接下来的一段时间内给出自己的判断。AI陪伴、虚拟角色、互动娱乐这些场景对流式视频的需求是否足够强劲,用户是否愿意为实时交互牺牲一部分画质,这些问题的答案将决定形界智能能走多远。