[具身智能-317]：大模型推理计算过程

张开发

• 2026/5/18 5:06:38 • 15 分钟阅读

分享文章

在云端大语言服务接收到你的请求后核心的“思考”环节——大模型推理计算便开始了。这个过程在工程上被精细地划分为两个截然不同的阶段预填充 (Prefill)和解码 (Decode)。理解这两个阶段是理解大模型如何从“读懂问题”到“写出答案”的关键。阶段一预填充 (Prefill) —— 并行理解奠定基础这是模型“阅读”并“消化”你整个提问Prompt的阶段。它的核心特点是并行处理即一次性处理所有输入内容以求最快速度理解上下文。输入处理你的文本请求例如“你好请介绍一下大模型”首先被转换为模型能理解的数字序列Token IDs。这些 Token IDs 随后被转化为高维向量并加入位置信息形成一个完整的输入矩阵。核心计算自注意力机制这个输入矩阵被送入由数十上百层 Transformer 模块组成的神经网络。在这里自注意力机制 (Self-Attention)开始工作。作用它让模型能够同时分析输入文本中所有词之间的关系。例如当模型看到“大模型”这个词组时它能立刻理解“大”是用来修饰“模型”的而不是一个独立的形容词。这个过程让模型全面理解了你的问题背景。关键产出KV 缓存 (KV Cache)这是预填充阶段最重要的成果。模型会将所有输入 Token 经过计算后得到的“键 (Key)”和“值 (Value)”向量存储在显存中形成KV 缓存。你可以把它想象成模型为这次对话建立的“短期记忆”或“知识快照”它包含了理解后续回答所需的所有上下文信息。性能指标首字延迟 (TTFT)这个阶段是计算密集型的其耗时直接决定了你从发送请求到看到第一个字出现需要等多久。这个指标被称为首字延迟 (Time To First Token, TTFT)。✍️ 阶段二解码 (Decode) —— 串行生成逐字输出当预填充阶段完成模型已经“胸有成竹”接下来就是开始“回答”的阶段。这个过程是串行的即一个字接一个字地生成。预测下一个 Token模型基于预填充阶段建立的KV 缓存开始预测最可能出现的下一个 Token。它会在词表中为成千上万个候选 Token 计算概率然后根据一定的策略如“温度”参数选择一个作为输出。循环生成与缓存复用这是解码阶段最精妙的地方。当模型生成了第一个 Token比如“我”后它并不会重新处理整个“提问回答”的序列来预测第二个字。关键优化它会将新生成的 Token “我” 也加入到 KV 缓存中然后只基于这个新增的信息快速计算下一个 Token 的概率。这就像写文章时你不需要从头重读只需接着上一句继续写即可。这个过程不断循环生成一个新 Token → 更新 KV 缓存 → 预测下一个 Token直到模型生成一个代表“结束”的特殊 Token或达到预设的长度限制。性能指标单字生成时间 (TPOT)这个阶段是内存带宽密集型的因为每次生成新字都需要频繁地从显存中读取庞大的模型参数和不断增长的 KV 缓存。其速度由单字生成时间 (Time Per Output Token, TPOT)来衡量它直接影响你看到文字“流淌”出来的流畅度。总结从“思考”到“回答”简单来说大模型的推理计算过程就像一位才华横溢的作家预填充 (Prefill)阶段他快速通读你的整个提问在脑海中构建出完整的背景和思路建立 KV 缓存。解码 (Decode)阶段他提笔疾书基于脑海中的思路一个字接一个字地写出回答并且每写一个字都会自然地衔接上文复用并更新 KV 缓存。

更多文章

前端开发 2026/5/14 2:37:21

RAG技术争议：8大痛点与落地抉择

RAG领域8大核心技术争议：从路线到落地，行业至今没吵明白 RAG从“解决幻觉神器”变成企业AI标配，但学术界和工业界的核心争议从未停止。你踩过的检索不准、幻觉反复、高分低能、工程太复杂……本质都是这些争议的现实投影。争议1：终极路线之争——长上下文LLM，能彻底取代…

概述 TP8116 是一款工作在固定关断时间控制模式的降压型LED 恒流驱动器，用于高效地驱动多颗 LED。TP8116 采用平均电流型的闭环恒流方式，系统应用时输出电流对电感变化不敏感。这极大的提高了输出电流的恒流精度，特别适用于 5~100V 输入电压范…

张开发

前端开发 2026/5/14 2:37:26

ESP32/8266利用闪存文件系统创建 Web服务实现交互控制

ESP32/8266利用SPIFFS(闪存文件系统)创建 Web服务实现交互控制 ✨从ESP8266 Arduino Core 2.7.0版本开始被官方标记为“已弃用”，并推荐使用LittleFS作为替代方案。在本教程中，将展示如何构建一个web服务，以提供存储在ESP32/8266文件系统中的HTML和CSS文件，创建的HTML和CS…

张开发

[具身智能-317]：大模型推理计算过程

最新文章

Windows Cleaner：免费开源工具，高效解决C盘空间不足问题

WarcraftHelper终极指南：魔兽争霸3全版本兼容性修复与性能优化完整方案

除了RTKLIB，还有哪些轻量级工具能一键把坐标序列转KML？实测3种方案对比

第四篇：Vibe Coding 深度解析（四）：生产级落地的工程化体系与避坑指南

python passlib

5分钟快速上手：xrdp开源远程桌面服务器完整配置指南

推荐文章

相关文章

分享文章

更多文章

RAG技术争议：8大痛点与落地抉择

彻底搞懂Agent记忆压缩（附腾讯面经），看这一篇就够了！

ZzzMovingAvg：嵌入式轻量级移动平均滤波库

WeChatMsg：如何从微信聊天记录中提取个人数据宝藏并生成年度报告？

单片机高效按键处理模块设计与实现

EmotiBit ArduinoFilters：嵌入式数字滤波器库深度解析

雪女-斗罗大陆-造相Z-Turbo体验报告：一键生成，效果超乎想象

终极FanControl指南：3步解决Windows电脑风扇噪音问题

Windows系统运行Android应用的终极方案：APK Installer完全指南

问题拆解：绩效管理系统的ROI到底怎么算？

TP8116内置 MOS 平均电流型 LED 降压恒流驱动器

ESP32/8266利用闪存文件系统创建 Web服务实现交互控制