llama.cpp部署QWEN3.5-9B和Gemma4-e4b，用Claude Code对比测试

张开发

• 2026/5/21 20:38:18 • 15 分钟阅读

分享文章

llama.cpp部署QWEN3.5-9B和Gemma4-e4b，用Claude Code对比测试

昨天部署了Gemma4:26B和E4B一是自己显存不够部署的时候总是爆显存。二是claude code与Gemma4配合有问题claude爆内存任务进行不下去。所以今天我又通过llama.cpp部署了QWEN3.9-9B并做了些测试。结论llama.cpp性能比Ollama强很多我没做量化测试网上其他博主给的数据显示llama.cpp是Ollama的1.8倍。Qwen3.5-9B效果比Gemma4-e4b要好些能跟Claude配合做一些相对复杂的事情。12GB显存的RTX5070 Ti 移动版只能用量化版本最终我选的是Qwen3.5-9B-GGUF:UD-Q4_K_XL。运行QWEN3.5-9B在上一篇的基础上我只要执行下面的命令就可以顺利运行大模型。Q8版本显存爆了。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q8_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ6版本占用显存8G左右勉强能跑所剩显存很少。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q6_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ4版本占用显存6G左右能顺利执行且剩余空间足够。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinja小诀窍可以登录HuggingFace添加自己的显卡设备就可以看到官方给的建议哪些模型能顺利执行。与Claude Code对接还是通过CC Switch配置让claude创建一个多Agent协作机制下面的内容是我发给Claude的内容我用Qwen3.5-9B和Gemma4-34b各做了一遍提示词有细微差别。## 用户提出的问题/需求 ### 1. 初始询问你是谁 ### 2. 查看配置查看 claude.md ### 3. 创建工作流机制创建一个新工作流机制有 4 个 Agent每个 agent 负责一项工作 ### 4. 确认 Agent 职责选题研究写稿校对这样 4 步用来编写文章、博客 ### 5. 确认实现方式先创建完整的方案并与我确认然后再规划并实施 ### 6. 确认方案确认 ### 7. 询问启动方式我该怎么启动这 4 个 agent ### 8. 询问协作机制解释一下他们协作的机制 ### 9. 询问任务派发我该怎么给他们派发任务 ### 10. 提出多文章管理需求如果有很多文章怎么管理 ### 11. 提出机制不足感觉这个机制还不够啊 ### 12. 确认改进方式痛点选择选择了以下痛点 - 手动复制指令太麻烦 - 无法批量处理文章 - 无法查看文章状态 - 数据无法复用 ### 13. 确认系统功能需求选择了以下功能 - 文章列表管理 - 批量任务派发 - 状态自动追踪 - 结果复用、 ### 14. 选择管理方式混合模式按项目分类每个文章独立工作区 ### 15. 整理会话记录把我这轮沟通我发的消息整理下来写入一个 md 文件 --- ## 最终确认的需求总结 ### 核心功能 1. **4-Agent 顺序工作流** - Agent 1: 选题策划 - Agent 2: 研究调研 - Agent 3: 写作执行 - Agent 4: 校对审核 1. **混合模式管理** - 按项目分类如保险智能营销系列 - 每个文章独立工作区 1. **改进机制** - 自动显示指令无需手动复制 - 批量处理支持 - 状态自动追踪 - 数据可复用 --- ## 已创建的脚本文件 | 文件 | 用途 | |------|------| | workflows/article-writing/run-all.ps1 | 总启动脚本 | | workflows/article-writing/start-topic-planner.ps1 | Agent 1 启动脚本 | | workflows/article-writing/start-researcher.ps1 | Agent 2 启动脚本 | | workflows/article-writing/start-writer.ps1 | Agent 3 启动脚本 | | workflows/article-writing/start-reviewer.ps1 | Agent 4 启动脚本 | | workflows/article-writing/run.ps1 | 快捷启动脚本 | | workflows/article-writing/new-project.ps1 | 创建新项目 | | workflows/article-writing/new-article.ps1 | 创建新文章 | | workflows/article-writing/view-status.ps1 | 查看状态 | | workflows/article-writing/README.md | 使用说明 | | workflows/article-writing/state.json | 全局状态索引 | ## 下一步等待用户开始使用新创建的工作流系统。两次运行的结果对比Gemma4-E4B也能正常干下去没有昨天26B-A3B那样的问题估计是爆显存导致Claude也爆内存了。主要对比点Qweb3.5-9BGemma4-E4B回复语言默认是中文默认是英文即使我让它用中文回复也会用英文长任务良好会不断问我问题直到任务完成偶尔会中断也不会发出“下一步继续要做什么这类问题。所以我会按照第一遍的流程直接发指示给如下图所示每次回复完就不动了。看llama.cpp的控制台日志也不打GPU也是0%。对比来看用Qwen3.5-9B的时候基本都能一直往下执行。修改上下文大小我设置的上下文大小是128k在claude界面显示的是200k用的Claude-hud插件。网上说可以在~/.claude/settings.json加上环境变量CLAUDE_CODE_AUTO_COMPACT_WINDOW: 131072但我配置之后还是这样。调用过程中的问题只是记录下来应该不需要我处理系统自动修复了。⎿ Error: [Fact-Forcing Gate] Before creating \bandcompany2\workflows\article-writing\start-topic-planner.ps1, present these facts: 1. Name the file(s) and line(s) that will call this new file 2. Confirm no existing file serves the same purpose (use Glob) 3. If this file reads/writes data files, show field names, structure, and date format (use redacted or synthetic values, not raw production data) 4. Quote the users current instruction verbatim Present the facts, then retry the same operation.

llama.cpp部署QWEN3.5-9B和Gemma4-e4b，用Claude Code对比测试

最新文章

Windows Cleaner：免费开源工具，高效解决C盘空间不足问题

WarcraftHelper终极指南：魔兽争霸3全版本兼容性修复与性能优化完整方案

除了RTKLIB，还有哪些轻量级工具能一键把坐标序列转KML？实测3种方案对比

第四篇：Vibe Coding 深度解析（四）：生产级落地的工程化体系与避坑指南

python passlib

5分钟快速上手：xrdp开源远程桌面服务器完整配置指南

推荐文章

相关文章

分享文章

更多文章

算法训练营第7天｜环形链表判定 142. 环形链表

从NANO 2.x到33 BLE：一文理清Arduino NANO家族谱系与升级路线

如何快速上手NVIDIA Profile Inspector：新手必看的完整显卡优化教程

面试官：Skills是什么？讲一讲它的工作原理

一文看懂推荐系统：召回04：从相似度到索引，详解UserCF的工业级实现与优化

构建跨平台物联网协议解析器：基于CGO与LuaJIT的Go/Lua混合编程实践

华为设备SSH远程登录实战：从零配置到安全连接

Windows平台SQL Server 2019部署与核心配置实战

动态IP自动切换机制详解，优化切换效率的关键

NLP实战：融合Bert与TextCNN的文本分类模型架构详解与PyTorch实现

告别环境配置烦恼：用Docker一键部署RKNN-Toolkit2开发环境（支持RK3566/RK3588）

Docker中的挂载与卷的使用