06 Jan 2026
1h 6m

2026,AI视频「大年」将至|对谈OiiOii创始人闹闹:亲历微信与字节后,如何抓住下一波机会?

Podcast cover

十字路口Crossing

Summary

本期《十字路口》访谈了 OiiOii 的创始人兼 CEO 闹闹,探讨了 AI 动画创作工具 OiiOii 的创新与发展。闹闹分享了从腾讯到字节跳动再到 B 站的产品经理经历,以及对动画创作的长期热情如何驱动她创立 OiiOii。讨论深入 OiiOii 如何利用 Agent 技术调用不同的 AI 模型,针对不同镜头需求匹配最佳模型,实现高效动画制作。闹闹用 “川菜馆” 的比喻,阐释了 OiiOii 作为 Agent 产品,如何在大模型提供的素材基础上,通过精细调校,为用户提供独特价值。访谈还涉及对产品经理职业的思考,强调移情能力、自信与自省的平衡,以及对技术保持敏感的重要性。

Outlines

Part 1: 嘉宾背景与创业初衷

00:00

视频 Agent OiiOii 创始人闹闹:用 AI 制作动画的惊喜之旅

Koji 介绍了本期嘉宾闹闹,视频 Agent OiiOii 的创始人和 CEO。有网友表示,OiiOii 是半年内遇到的最令人惊喜的新产品。Koji 用 OiiOii 为女儿制作了圣诞歌曲 MV,孩子们非常喜欢。闹闹提到,现在有些家长每天都会给孩子做一个小视频,还有老师用动画给孩子们做科普视频,这与他们设想的创作者不太一样。

02:32

创业前的产品经理经历:腾讯、极限运动社区、剪影、B 站动画

闹闹在快问快答环节分享了个人信息:毕业于中山大学,MBTI 是 INTJ,星座是十字座,目前用 AI 做动画,公司正在做 Pre-Alien 轮融资,刚成立四个月,没有收入和利润,产品刚发布一个月,还需要邀请码,团队规模 18 到 19 人。创业前一直在做产品经理,从事视频创作相关工作,曾在腾讯微信事业群做 QQ 相关工作,14 年开始创业,做一个极限运动的内容社区,积累了内容制作经验,后担任剪影负责人,负责抖音 TikTok 特效业务,并在 B 站担任动画负责人。

04:30

隐居生活的向往与动画学习经历:为爱发电的动画行业

闹闹表示,如果不创业,可能会在一个没人的地方隐居,养些小动物,享受安静的状态。她认为,以前的闲不住是因为总觉得应该做点什么,现在享受安静是一种充电状态。她曾有半年 GAP 期去学习动画,报班学习角色设计和 Maya 等 3D 动画软件,但觉得 Maya 太难用,且动画行业薪资低,属于为爱发电,所以没有勇气进入这个行业。她曾参观一家特效公司,建模总监工作五年工资一万,但眼神里充满光芒,让她非常钦佩。

06:40

OiiOii 的起心动念:AI Agent 是制作动画的完美形态

闹闹大学时就想做动画,在字节工作时开始考虑用 AI 做动画,但不知道如何切入。通过在 B 站了解动画行业和之前做离谱的经验,最终找到了切入口。她认为,被动原因是前一个环境很难再做下去,主动原因是多模态模型开始涌现,类似于之前的语言模型。Agent 的出现是一个非常完美的形态,因为它可以调用各种模型,且动画制作是一个流程化的过程,适合用 agent 的方式来做,同时 agent 的自由度非常高,不像传统的 GUI 会无限叠加功能。

Part 2: 产品核心技术与模型演进

08:53

OiiOii 的模型能力解锁:首尾帧与 Task Agent 的创新

OiiOii 从 7 月份规划,8 月份开始做,第一个版本与其他 agent 路线类似。AI 视频赛道分为多参和首尾帧两种模式,国内很多视频模型是首尾帧模式。OiiOii 也采用了首尾帧的方式来调用各种模型,因为其稳定性更好。创新点在于,每个分镜要表达的内容不一样,所以用到的模型也不一样。Task Agent 会知道每个模型的优缺点,自动为每个镜头匹配最佳模型。

12:01

Sora2 的出现与 OiiOii 的改变:Agent 犹如餐馆,模型犹如超市

Sora2 出来后,闹闹很吃惊,因为它完全看不出 AI 痕迹。OiiOii 决定全部切换到 Sora2,虽然它有一些问题,但效果非常好。闹闹认为,Sora2 对 agent 类产品非常友好,各种视频模型各有特色,犹如大型超市,而 agent 则像用这些食材做菜的餐馆。OiiOii 定位为川菜馆,挑选最适合喜欢川菜人群的食材,厨师需要调味道和火候。用户可以选择去超市买菜自己做,也可以去餐馆吃现成的。视频 agent 可以像小吃街一样,大家一起繁荣。

14:50

OiiOii 与 Sora2 的区别:知识库、镜头语言与场景一致性的平衡

闹闹用 MV 举例,相同的 prompt 和图喂给 Sora2,达不到 OiiOii 的水平。OiiOii 会扩写用户输入的一句话,并用自己的方法让模型学习市面上优秀的二次元 MV,形成知识库,再用知识库模型生成 prompt,搭配镜头语言和音效。剧情方面,OiiOii 的分镜之间会有断点感,因为如果太连贯,剧情会很平淡。最近的例子是,用户反馈场景一致性不好,喂了场景图后又太一致,导致画面死板,场景和人物贴合感差。

Part 3: 用户画像与市场定位

17:57

OiiOii 的目标用户:自媒体人与不做 UGC 的原因

闹闹认为,即使 Sora2 未来解决了场景一致性问题,OiiOii 仍然有价值,就像超市里有熟食,但和餐馆还是不一样。OiiOii 的目标用户是自媒体人,他们做的内容适合用动画呈现。不做 UGC 的原因是 UGC 内容消费属性太短,信息量不足以支撑大型 APP,且投入和推理成本高。

20:30

OiiOii 的用户画像:动画自媒体、MV 制作者与科普视频创作者

OiiOii 想做的自媒体人分为三类:一是本身做动画的,可以做一个 IP 角色,反复做很多集;二是 ACG 里做 MV 的;三是做历史、科普的,适合用动画展示,但以前成本高。内测时,这些目标人群的反馈不错,但也出现了一些意想不到的人群,比如慢剧制作者,他们只需要分镜对得上,下载后自己剪辑即可;还有不爱出镜,想用动画展现状态的 C 端用户,以及为社交关系制作视频的用户。

23:34

OiiOii 的未来发展:服务好每一个垂类用户与 Agent 的魅力

闹闹表示,未来 OiiOii 会像抖音做垂类一样,找科普类 APP 合作,将动画呈现的视频变成知识库,服务好他们。她认为 Agent 是一个非常好的载体,以前的创作工具都会从简单到臃肿,再被简单的替代,但 Agent 不会太臃肿,因为很多功能藏在里头,用户和产品在共建,用户可以探索出产品团队都不知道的功能。

Part 4: 产品架构与行业洞察

25:21

OiiOii 的架构迭代:平衡 Agent 的灵活性与可控性

Agent 灵活但不可控,传统的剪映和 Final Cut 是可控的。主流 agent 分为自由度高的和 workflow 稳定性高的。OiiOii 在两个月里迭代了四次架构,第一次用 sysprompt 定义 agent,但非常不可控;第二次是严格的 workflow,但没有修改的自由度;第三次是在 workflow 基础上让他有信号,可以跳出来修改;第四版在第三版基础上强化。目前还在调整,容易出现问题,需要不断提高稳定性。

27:45

OiiOii 与剪影:增量市场与内容类型的嫁接

闹闹认为,OiiOii 会带来增量市场。剪影分为工具性的轨道和模板生态,前者具备一定的替代属性,后者嫁接了抖音生态,具有不可替代性。OiiOii 类似于剪影的后一部分,要做 MV 和科普,嫁接的是内容类型,其他工具很难一键生成,所以具有独特性。

29:07

AI 视频编辑的未来:重度剪辑将被替代,轻量剪辑不可取代

用户在 OiiOii 生成的内容,之后还会回到剪辑器做后期编辑。Sora2 之前,剪辑在切镜不够的情况下发挥很大作用,但 Sora2 出来后,剪辑的很多重度工作可以被替代。剪辑工具不太可能被完全取代,因为一些基础的、简单的剪辑反而不容易替代,复杂的剪辑能力反而容易被模型替代。

31:11

OiiOii 的多 Agent 设计:赋予角色与 workflow 的群聊

OiiOii 的 Agent 都有自己的名字,剧本 agent 会召唤角色设计 agent,就像邀请大家加入群聊。最初的想法是有一个 team 服务于导演这个角色,赋予每个 agent 自己的角色感受,让他加入群聊就是一个 workflow 的过程。这样设计第一是好玩,第二是感觉可以做很多东西。

32:52

OiiOii 的视频效果:情绪词与影视学知识的结合

闹闹举例,OiiOii 能让普通用户做出有感觉的片子,这种感觉来自于情绪词,比如悲伤、欢乐、治愈。普通人不会镜头语言,OiiOii 会用镜头语言、构图、画面元素来表现情绪,比如孤独的情绪会用长长的走廊和灰白色调来表现。这是用理性的要素去表达感性的东西。

Part 5: 互联网大厂的方法论思考

34:40

微信体系的产品价值观:对人性的深入思考与力量感的凸显

闹闹认为,OiiOii 可以学习很多东西,比如响应各种电影大导演,输入导演名和图片,就可以出来那个导演味道的东西。在微信体系做产品经理,对她最大的影响是培养了深刻的产品价值观,让她看到了张小龙对人性的深入思考,并能嫁接到产品上。微信每更新一个版本,都要做一个版本的语言,比如 “我所说的都是错的”,搭配 Max Jackson 的图,看起来简单,但背后隐藏了很多思考,能凸显出力量感。

37:11

微信与抖音体系的差异:用户反馈与数据导向

微信体系非常注重用户反馈,每天要过很多用户反馈,识别真需求和假需求。张小龙认为,要识别真需求,就要泡到用户的反馈里,看用户到底在说什么。用户体验是一种训练出来的直觉。抖音体系非常注重数据,但数据好并不代表体验最佳。

40:07

产品经理的左右脑:微信的产品感觉与抖音的数据策略

闹闹认为,在字节和微信做产品经理,像是右脑和左脑的结合。在特效团队时,她体会到了数据的力量,懂得了策略产品的含义,即通过用户的行为来判断他使用功能的概率。原来的产品 sense 和数据可以完美结合,是一个逻辑推演的过程,比用户的反馈更真实。

41:17

微信与抖音的相同之处:将优势发挥到极致

微信和抖音的相同之处在于,都将自己的优势发挥到极致。字节注重数据科学,推荐引擎和增长体系是其优势。微信对用户的理解和认知非常深刻,能浮现人性的东西,并将其转化为体验。就像创业公司一样,创始人知道自己的优势和长处,并将其发挥到极致。

Part 6: 创业心法与人才素质

43:09

OiiOii 的优势:对动画和技术的了解与相信

OiiOii 的优势在于,团队对动画和技术非常了解和相信。在动画领域,商业世界会奖励纯粹和热爱,这比较适合闹闹。在动画这个领域里头,它是少数的,在商业世界会奖励到很纯粹,会奖励到热爱的这个行业,所以它比较适合我。

44:16

创业的准备:能力、团队与天时地利人和

闹闹认为,做 OiiOii 不是一拍脑袋的想法,而是想做很久的东西,在 AI 时代有了机会能做得更好。她经历了很多公司,具备了一定的能力,团队能力也非常匹配,既有信念又有能力。在赛道上长期有能力的人不多。

45:04

优秀产品经理的必备素质:移情能力、自信自省与技术敏感

闹闹认为,优秀的产品经理要具备移情能力,能迅速切换到小白状态,抽身出来做观察者。其次要有 50% 的自信和 50% 的自省,自信容易变成自负,自省让你冷静看到自己的不足,用自信加强自信。自我感太强会导致盲区。还要对技术敏感,知道什么样的技术能实现什么样的东西。

47:00

幸运的创业:儿时兴趣与经验积累的完美结合

闹闹认为,AI 时代创业,对技术的敏感程度变得更加重要。她小时候对视觉、听觉和物理规则敏感,这让她对多模态技术非常擅长。她感到非常幸运,小时候感兴趣的事情,现在可以做了。过去的弯路都不是弯路,每一步都在为这次创业做准备,一切都刚刚好。

48:20

OiiOii 名字的由来:二次元打招呼与踏实蜗牛的形象

OiiOii 这个名字是技术人员提议的,Oii 有点像二次元打招呼,很亲切可爱。叫 OiiOii 是因为它是两声,更可爱,double,而且很像两只小蜗牛,希望自己像蜗牛一样踏实,但又很可爱。

Part 7: 个人哲学与未来展望

49:00

愿力显化与团队选择:精纯力量的追求

闹闹分享了朋友圈的一句话,“将隐形的愿力显化到产品上,是密集掌握着寥寥无几,要更精纯,还远远不够”,当时准备离开离谱,做新的东西,放弃离谱有点难,因为它是做动画的起点。这次创业,希望用自己主导的力量去做更精纯的事情,希望愿力更多来自自己和团队。

50:25

冲突是做事的力量:不打不相识的队友与时间证明一切

闹闹分享了另一句话,“要允许冲突,甚至要去制造冲突,因为冲突是做事的力量,是筛选做事的人的方式”。她喜欢竞技体育,对手会激发潜力。在字节做特效时,多个团队都想做,后来由她的团队做了,与其他团队产生冲突,但大家一起打过仗后,由对手转变成了队友。第一次创业时,她开掉了好朋友,朋友骂她狗血淋头,一年后加回微信说理解她了。

52:58

从闹爷到 Peaceful:寻找自由的一体两面

大家都叫闹闹闹爷,因为她很闹,像男孩子。但她现在很 peaceful,因为经历了一些事情。她认为 peace 是一种更大的力量。她以前做过极限运动,组过乐队,内心叛逆,这种力量是外放的,在外界寻求高度自由,但实际上是不满足的状态,反而消耗自己。审视内心后,发现自由在内心,不是那么用力,而是细水长流。

55:00

偶像皮克斯创始人:在动画中找到自己的擅长点

闹闹最喜欢的企业家是皮克斯创始人,但他过去做工具,后来做动画片。她喜欢他不是因为他做了动画片,而是因为他找到了自己的擅长点,并在动画里展示到极致。皮克斯创始人喜欢电脑和物理,用图形学做了世界上第一个电脑的一只手,由此打开了用电脑做虚拟图像的世界。

57:07

OiiOii 的未来:工具基础上的更多可能性

闹闹希望 OiiOii 长成一个工具,并在此基础上可能有更多的可能性。至少在工具这一层,能做到让每一个想做动画的人都能做出来。其他的可能性脑海里有模糊的概念和想法,但不愿意说死。

57:54

2026 年 AI 视频领域的变化:质量、可编辑性与时效性

闹闹认为,过去一两年判断视频模型的趋势大致都是对的,比如质量越来越好,可编辑性越来越好。接下来可能是在时效性上越来越好,可能会进行一些互动性的东西。但她不觉得这是一个很大的革新,因为要看受众是否买单。

59:05

不同视频模型的差异化:先天数据与后天战略

闹闹提到,OiiOii 最早会把用户的不同镜头分配给不同的模型去做,因为不同的模型擅长不同的东西。比如打斗镜头调用海罗,人物表情调用 C,CG 感调用可灵。这与初始数据和后面想要做的方向都有关系,有先天和后天之分。视频模型很难打通,即使模型完全一样,可调用的手法不一样,出来的东西也不一样。

1:02:20

视频模型厂商的竞争与天使投资的选择

OiiOii 里用户暂时不能选模型,后面可能会做这一步。闹闹认为,视频模型厂商的竞争会往加强自己擅长的部分和补足自己不擅长的部分两个方向发展。如果给她 300 万美金做天使投资,她会投给自己,因为她最熟悉自己。

1:03:11

容器与通道:OiiOii 的表达与李安的电影之神

闹闹用十个 “我是什么什么” 来介绍自己,她是一个正在尽量减少 “我是什么什么” 的人。她是一个容器,感觉有一个动画之神通过她这个容器来表达,不是她在表达,而是有个东西想要表达,只不过这个容器非常适合。OiiOii 本身不做表达,它是在帮助想表达的人更好地表达他们,它是个容器。灵感来自李安的一次采访,他说电影之神选中了他,他是一个容器,把电影这件事通过他表达了出来。

Sign in to continue reading, translating and more.

Open full episode in Podwise