在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。 本文梳理KV cache管理经历的5个时代 ...
本文原创发布于微信公众号“洛奇看世界”。 昨天读了 Baron 大佬写的介绍 Cache 细节的文档,天哪,太详细了,简直面面俱到~ 大佬就是大佬。 看完不禁想起我在 CSDN 博客上公开发表的第一篇文章,关于 Cache 何时需要对作废、何时需要刷新的分析说明,原文写 ...