本播客节目由 ZOMI 主讲,深入探讨了 Transformer 模型在处理长序列方面的挑战与解决方案。内容回顾了 Attention 机制的核心,并详细介绍了 Longformer 和 Transformer XL 这两种在 2024 年之前的长序列 Transformer 架构,以及 DeepSeek 的 NSA 和 Kimi 的 MOBA 等针对 Attention 架构改进的方案。ZOMI 通过论文和图示,讲解了 sliding window attention、dilated sliding windows 以及 global 加 sliding windows 等技术,并分析了它们在解决长文本处理中的作用。此外,还提到了片段递归、相对位置编码等概念,以及硬件对齐和训练时感知等创新点,最后总结了大模型在高效扩展和长文本处理方面的发展趋势。
Sign in to continue reading, translating and more.
Continue