证券配资公司查找 斯坦福让“GPU 高速运转”的新工具火了,比 FlashAttention2 更快
2024-09-10
AI 算力资源越发紧张的当下,斯坦福新研究将 GPU 运行效率再提升一波 —— 内核只有 100 行代码,让 H100 比使用 FlashAttention-2,性能还要提升 30%。 怎么做到的? 研究人员从“硬件实际需要什么?如何满足这些需求?”这两个问题出发,设计了 一个嵌入式 CUDA DSL 工具,名为 ThunderKittens(暂且译为雷猫)。 雷猫可简化 AI 内核的编写,同时充...