本期播客主要讲述 Deepseek 公司在 AI 大模型领域的三大战役:第一战是通过 V3 模型降低训练成本;第二战是 R1 模型在自然语言处理方面超越 OpenAI;第三战是多模态大模型 Janus Pro,旨在以更小规模的模型超越 OpenAI 在图像理解和生成的领域。播客详细分析了 Janus Pro 的技术细节,包括其架构、训练方法以及与其他模型的比较,并探讨了多模态大模型的技术现状和挑战。最终,播客强调了 Deepseek 通过降低训练成本,为中小企业参与 AI 大模型竞争提供了新的可能性,Janus Pro 的成功也为多模态模型的未来发展提供了新的方向。 Janus Pro 使用了 256 张 A100 显卡,耗时 14 天完成训练。
Sign in to continue reading, translating and more.
Continue