Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
Library
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Send
Translate
Trending
Ask AI
Library
You
Enjoy Podwise!
Enjoy Podwise!
10
10
1x
YouTube
Sign in to sync playlist
Playlist 0/50
Prev
Next
23 Feb 2025
2h
36m
94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”
张小珺Jùn|商业访谈录
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期访谈节目主要解读了 DeepSeek、Kimi 和 MiniMax 三家公司近期发布的关于注意力机制改进的论文。节目首先介绍了注意力机制的概念和重要性,然后由 MIT 博士生杨松琳详细讲解了 DeepSeek 的 Native Sparse Attention,Kimi 的 MOBA 以及 MiniMax 的混合模型,对比分析了它们的技术路线和优缺点,例如 Native Sparse Attention 在训练和推理阶段都比 Full Attention 更快,甚至性能更好。最后,讨论了大模型公司发布论文的竞争态势以及未来注意力机制优化的方向。 通过对三篇论文的解读,听众可以了解大模型公司在注意力机制改进方面的最新进展,以及不同技术路线的选择。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval
94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” | 张小珺Jùn|商业访谈录 | Podwise