llama.cpp部署QWEN3.5-9B和Gemma4-e4b,用Claude Code对比测试

张开发
2026/5/21 20:38:18 15 分钟阅读
llama.cpp部署QWEN3.5-9B和Gemma4-e4b,用Claude Code对比测试
昨天部署了Gemma4:26B和E4B一是自己显存不够部署的时候总是爆显存。二是claude code与Gemma4配合有问题claude爆内存任务进行不下去。所以今天我又通过llama.cpp部署了QWEN3.9-9B并做了些测试。结论llama.cpp性能比Ollama强很多我没做量化测试网上其他博主给的数据显示llama.cpp是Ollama的1.8倍。Qwen3.5-9B效果比Gemma4-e4b要好些能跟Claude配合做一些相对复杂的事情。12GB显存的RTX5070 Ti 移动版只能用量化版本最终我选的是Qwen3.5-9B-GGUF:UD-Q4_K_XL。运行QWEN3.5-9B在上一篇的基础上我只要执行下面的命令就可以顺利运行大模型。Q8版本显存爆了。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q8_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ6版本占用显存8G左右勉强能跑所剩显存很少。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q6_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinjaQ4版本占用显存6G左右能顺利执行且剩余空间足够。llama-server -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL --host 0.0.0.0 --port 17691 --ctx-size 131072 --temp 1.0 --top-p 0.95 --top-k 64 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --flash-attn on --batch-size 1024 --ubatch-size 512 --threads 10 --threads-batch 12 --no-mmap --mlock --parallel 1 --no-warmup --jinja小诀窍可以登录HuggingFace添加自己的显卡设备就可以看到官方给的建议哪些模型能顺利执行。与Claude Code对接还是通过CC Switch配置让claude创建一个多Agent协作机制下面的内容是我发给Claude的内容我用Qwen3.5-9B和Gemma4-34b各做了一遍提示词有细微差别。## 用户提出的问题/需求 ### 1. 初始询问 你是谁 ### 2. 查看配置 查看 claude.md ### 3. 创建工作流机制 创建一个新工作流机制有 4 个 Agent每个 agent 负责一项工作 ### 4. 确认 Agent 职责 选题 研究 写稿 校对这样 4 步用来编写文章、博客 ### 5. 确认实现方式 先创建完整的方案并与我确认然后再规划并实施 ### 6. 确认方案 确认 ### 7. 询问启动方式 我该怎么启动这 4 个 agent ### 8. 询问协作机制 解释一下他们协作的机制 ### 9. 询问任务派发 我该怎么给他们派发任务 ### 10. 提出多文章管理需求 如果有很多文章怎么管理 ### 11. 提出机制不足 感觉这个机制还不够啊 ### 12. 确认改进方式痛点选择 选择了以下痛点 - 手动复制指令太麻烦 - 无法批量处理文章 - 无法查看文章状态 - 数据无法复用 ### 13. 确认系统功能需求 选择了以下功能 - 文章列表管理 - 批量任务派发 - 状态自动追踪 - 结果复用、 ### 14. 选择管理方式 混合模式按项目分类每个文章独立工作区 ### 15. 整理会话记录 把我这轮沟通我发的消息整理下来写入一个 md 文件 --- ## 最终确认的需求总结 ### 核心功能 1. **4-Agent 顺序工作流** - Agent 1: 选题策划 - Agent 2: 研究调研 - Agent 3: 写作执行 - Agent 4: 校对审核 1. **混合模式管理** - 按项目分类如保险智能营销系列 - 每个文章独立工作区 1. **改进机制** - 自动显示指令无需手动复制 - 批量处理支持 - 状态自动追踪 - 数据可复用 --- ## 已创建的脚本文件 | 文件 | 用途 | |------|------| | workflows/article-writing/run-all.ps1 | 总启动脚本 | | workflows/article-writing/start-topic-planner.ps1 | Agent 1 启动脚本 | | workflows/article-writing/start-researcher.ps1 | Agent 2 启动脚本 | | workflows/article-writing/start-writer.ps1 | Agent 3 启动脚本 | | workflows/article-writing/start-reviewer.ps1 | Agent 4 启动脚本 | | workflows/article-writing/run.ps1 | 快捷启动脚本 | | workflows/article-writing/new-project.ps1 | 创建新项目 | | workflows/article-writing/new-article.ps1 | 创建新文章 | | workflows/article-writing/view-status.ps1 | 查看状态 | | workflows/article-writing/README.md | 使用说明 | | workflows/article-writing/state.json | 全局状态索引 | ## 下一步 等待用户开始使用新创建的工作流系统。两次运行的结果对比Gemma4-E4B也能正常干下去没有昨天26B-A3B那样的问题估计是爆显存导致Claude也爆内存了。主要对比点Qweb3.5-9BGemma4-E4B回复语言默认是中文默认是英文即使我让它用中文回复也会用英文长任务良好会不断问我问题直到任务完成偶尔会中断也不会发出“下一步继续要做什么这类问题。所以我会按照第一遍的流程直接发指示给如下图所示每次回复完就不动了。看llama.cpp的控制台日志也不打GPU也是0%。对比来看用Qwen3.5-9B的时候基本都能一直往下执行。修改上下文大小我设置的上下文大小是128k在claude界面显示的是200k用的Claude-hud插件。网上说可以在~/.claude/settings.json加上环境变量CLAUDE_CODE_AUTO_COMPACT_WINDOW: 131072但我配置之后还是这样。调用过程中的问题只是记录下来应该不需要我处理系统自动修复了。⎿ Error: [Fact-Forcing Gate] Before creating \bandcompany2\workflows\article-writing\start-topic-planner.ps1, present these facts: 1. Name the file(s) and line(s) that will call this new file 2. Confirm no existing file serves the same purpose (use Glob) 3. If this file reads/writes data files, show field names, structure, and date format (use redacted or synthetic values, not raw production data) 4. Quote the users current instruction verbatim Present the facts, then retry the same operation.

更多文章