[具身智能-317]:大模型推理计算过程

张开发
2026/5/18 5:06:38 15 分钟阅读
[具身智能-317]:大模型推理计算过程
在云端大语言服务接收到你的请求后核心的“思考”环节——大模型推理计算便开始了。这个过程在工程上被精细地划分为两个截然不同的阶段预填充 (Prefill)和解码 (Decode)。理解这两个阶段是理解大模型如何从“读懂问题”到“写出答案”的关键。 阶段一预填充 (Prefill) —— 并行理解奠定基础这是模型“阅读”并“消化”你整个提问Prompt的阶段。它的核心特点是并行处理即一次性处理所有输入内容以求最快速度理解上下文。输入处理你的文本请求例如“你好请介绍一下大模型”首先被转换为模型能理解的数字序列Token IDs。这些 Token IDs 随后被转化为高维向量并加入位置信息形成一个完整的输入矩阵。核心计算自注意力机制这个输入矩阵被送入由数十上百层 Transformer 模块组成的神经网络。在这里自注意力机制 (Self-Attention)开始工作。作用它让模型能够同时分析输入文本中所有词之间的关系。例如当模型看到“大模型”这个词组时它能立刻理解“大”是用来修饰“模型”的而不是一个独立的形容词。这个过程让模型全面理解了你的问题背景。关键产出KV 缓存 (KV Cache)这是预填充阶段最重要的成果。模型会将所有输入 Token 经过计算后得到的“键 (Key)”和“值 (Value)”向量存储在显存中形成KV 缓存。你可以把它想象成模型为这次对话建立的“短期记忆”或“知识快照”它包含了理解后续回答所需的所有上下文信息。性能指标首字延迟 (TTFT)这个阶段是计算密集型的其耗时直接决定了你从发送请求到看到第一个字出现需要等多久。这个指标被称为首字延迟 (Time To First Token, TTFT)。✍️ 阶段二解码 (Decode) —— 串行生成逐字输出当预填充阶段完成模型已经“胸有成竹”接下来就是开始“回答”的阶段。这个过程是串行的即一个字接一个字地生成。预测下一个 Token模型基于预填充阶段建立的KV 缓存开始预测最可能出现的下一个 Token。它会在词表中为成千上万个候选 Token 计算概率然后根据一定的策略如“温度”参数选择一个作为输出。循环生成与缓存复用这是解码阶段最精妙的地方。当模型生成了第一个 Token比如“我”后它并不会重新处理整个“提问回答”的序列来预测第二个字。关键优化它会将新生成的 Token “我” 也加入到 KV 缓存中然后只基于这个新增的信息快速计算下一个 Token 的概率。这就像写文章时你不需要从头重读只需接着上一句继续写即可。这个过程不断循环生成一个新 Token → 更新 KV 缓存 → 预测下一个 Token直到模型生成一个代表“结束”的特殊 Token或达到预设的长度限制。性能指标单字生成时间 (TPOT)这个阶段是内存带宽密集型的因为每次生成新字都需要频繁地从显存中读取庞大的模型参数和不断增长的 KV 缓存。其速度由单字生成时间 (Time Per Output Token, TPOT)来衡量它直接影响你看到文字“流淌”出来的流畅度。 总结从“思考”到“回答”简单来说大模型的推理计算过程就像一位才华横溢的作家预填充 (Prefill)阶段他快速通读你的整个提问在脑海中构建出完整的背景和思路建立 KV 缓存。解码 (Decode)阶段他提笔疾书基于脑海中的思路一个字接一个字地写出回答并且每写一个字都会自然地衔接上文复用并更新 KV 缓存。

更多文章