Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

在本期的 AI 局内人播客中，我们邀请了生数科技的联合创始人兼 CTO 鲍凡，深入探讨视频生成技术的最新进展和商业化现状。重点介绍了生数科技刚发布的 Vidu 1.5 版本，这一版本在视频生成模型上取得了重要突破，特别是多图参考功能的实现，成功解决了视频生成中的一致性问题，并展现出类似 GPT 的 “智能涌现” 能力，能够理解多模态提示词并保持多个主体的一致性。鲍凡详细阐述了这一技术突破背后的转变，从以特定任务微调的 BERT 模式转向基于上下文学习的 GPT 模式。他还讨论了这项技术在推理速度、商业化应用及未来发展方向上的潜力，以及视频生成模型作为通向 AGI 的一种新路径的可能性。

Outlines

Sign in to continue reading, translating and more.

Continue

AI局内人 | AGI Insider

AI 局内人：生数科技与视频生成大模型的突破

Vidu 1.5 的技术突破：多图参考与一致性难题

技术路线的转变：从 BERT 到 GPT 模式的迁移

多主体一致性的涌现与技术实现

性能与效率：上下文窗口与推理速度优化

涌现能力的定义与视频内容创作的影响

未来发展规划：更抽象的概念一致性与技术优化

数据、算法与算力：模型发展要素的权衡

通往 AGI 的路径：视觉模态的优势与多模态模型的未来

生数科技的战略与人才需求

行业趋势与挑战：Scaling Law、模型迭代与商业化

SORA 的启示与生数科技的商业化策略

未来展望：更自然的交互方式与视频生成技术的持续演进

Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

AI局内人 | AGI Insider

00:06AI 局内人：生数科技与视频生成大模型的突破

AI 局内人：生数科技与视频生成大模型的突破

01:45Vidu 1.5 的技术突破：多图参考与一致性难题

Vidu 1.5 的技术突破：多图参考与一致性难题

06:02技术路线的转变：从 BERT 到 GPT 模式的迁移

技术路线的转变：从 BERT 到 GPT 模式的迁移

09:55多主体一致性的涌现与技术实现

多主体一致性的涌现与技术实现

13:59性能与效率：上下文窗口与推理速度优化

性能与效率：上下文窗口与推理速度优化

18:09涌现能力的定义与视频内容创作的影响

涌现能力的定义与视频内容创作的影响

23:50未来发展规划：更抽象的概念一致性与技术优化

未来发展规划：更抽象的概念一致性与技术优化

30:33数据、算法与算力：模型发展要素的权衡

数据、算法与算力：模型发展要素的权衡

34:33通往 AGI 的路径：视觉模态的优势与多模态模型的未来

通往 AGI 的路径：视觉模态的优势与多模态模型的未来

40:37生数科技的战略与人才需求

生数科技的战略与人才需求

48:35行业趋势与挑战：Scaling Law、模型迭代与商业化

行业趋势与挑战：Scaling Law、模型迭代与商业化

1:03:11SORA 的启示与生数科技的商业化策略

SORA 的启示与生数科技的商业化策略

1:14:59未来展望：更自然的交互方式与视频生成技术的持续演进

未来展望：更自然的交互方式与视频生成技术的持续演进