Xinference实战：如何将ChatGLM3接入LangChain-Chatchat，打造私有知识库问答系统

张开发

• 2026/5/17 10:43:36 • 15 分钟阅读

分享文章

Xinference实战：如何将ChatGLM3接入LangChain-Chatchat，打造私有知识库问答系统

基于Xinference与LangChain-Chatchat构建企业级知识库问答系统实战指南当企业需要将大语言模型能力深度整合到业务系统中时单纯部署模型只是第一步。真正创造价值的关键在于如何让模型与现有应用生态无缝衔接。本文将手把手带您完成从ChatGLM3模型部署到LangChain-Chatchat集成的全流程打造一个支持私有知识库查询的智能问答系统。1. 环境准备与Xinference部署1.1 基础环境配置为避免依赖冲突建议使用conda创建独立Python环境conda create -n xinference_env python3.11 -y conda activate xinference_env安装完整版Xinference包含所有引擎支持pip install xinference[all] --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple提示若需使用GGML量化模型建议根据硬件类型单独安装优化版llama-cpp-pythonApple M系列CMAKE_ARGS-DLLAMA_METALon pip install llama-cpp-pythonNVIDIA显卡CMAKE_ARGS-DLLAMA_CUBLASon pip install llama-cpp-python1.2 启动Xinference服务运行以下命令启动服务默认端口9997xinference-local --host 0.0.0.0 --port 9997验证服务是否正常curl http://localhost:9997/v1/models成功启动后将返回空列表尚未部署任何模型此时可通过以下地址访问WebUIhttp://localhost:9997/uiAPI文档http://localhost:9997/docs2. ChatGLM3模型部署实战2.1 通过WebUI部署模型访问http://localhost:9997/ui选择Launch Model → LANGUAGE MODELS搜索chatglm3并选择对应卡片配置部署参数参数推荐值说明Model Formatpytorch原始模型格式兼容性最佳Quantizationnone保持全精度确保问答质量N-GPU0单卡环境选择第一个GPUModel UIDchatglm3-custom自定义标识便于后续调用点击启动按钮后控制台将显示下载进度。6B模型约需12GB存储空间下载速度取决于网络环境。2.2 验证模型API通过curl测试模型响应curl -X POST \ http://localhost:9997/v1/chat/completions \ -H accept: application/json \ -H Content-Type: application/json \ -d { model: chatglm3-custom, messages: [ { role: user, content: 请用中文回答大语言模型部署的关键挑战是什么 } ] }正常响应应包含符合问题的连贯回答类似{ choices: [{ message: { content: 大语言模型部署主要面临三大挑战1.显存需求大..., role: assistant } }] }3. LangChain-Chatchat集成方案3.1 项目环境搭建克隆最新版LangChain-Chatchatgit clone https://github.com/chatchat-space/LangChain-Chatchat.git cd LangChain-Chatchat创建独立环境并安装依赖conda create -n lcc_env python3.10 -y conda activate lcc_env pip install -r requirements.txt --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple3.2 关键配置修改编辑configs/model_config.py重点调整以下部分# Xinference服务配置 XINFERENCE_CONFIG { host: 127.0.0.1, port: 9997, model_uid: chatglm3-custom # 与部署时设置的UID一致 } # 将LLM服务提供商改为Xinference LLM_MODEL xinference修改知识库相关配置以默认FAISS向量库为例# 嵌入模型配置可继续使用Xinference部署的embedding模型 EMBEDDING_MODEL bge-large-zh-v1.5 EMBEDDING_DEVICE cuda if torch.cuda.is_available() else cpu # 知识库存储路径 KB_ROOT_PATH os.path.join(os.path.dirname(os.path.dirname(__file__)), knowledge_base)3.3 知识库构建与测试准备文档数据将企业文档PDF/Word/TXT等放入knowledge_base/company_docs/content支持子目录结构系统会自动递归处理执行知识库初始化python init_database.py --recreate-vs该命令将自动解析文档内容生成文本分块创建向量索引典型处理速度约100页/分钟取决于GPU性能启动Web服务python startup.py -a访问http://localhost:8501即可体验知识库问答多文档上传对话历史管理4. 高级功能与性能优化4.1 混合检索策略配置编辑configs/kb_config.py启用混合检索# 检索器组合配置 SEARCH_ENGINE { type: hybrid, weight: [0.3, 0.7], # [关键词权重, 向量权重] methods: [ {name: bm25, top_k: 5}, {name: faiss, top_k: 10} ] }这种配置能同时利用BM25精准匹配关键词向量检索捕捉语义相关性4.2 缓存层加速实践在configs/server_config.py中添加Redis缓存CACHE_CONFIG { type: redis, host: localhost, port: 6379, db: 0, expire_time: 3600 # 缓存1小时 }典型性能提升重复问题响应时间从1.2s降至0.2sGPU利用率降低40%4.3 负载均衡部署方案当并发量超过50QPS时建议采用多实例部署启动多个Xinference实例不同端口xinference-local --port 9998 --worker-num 2 xinference-local --port 9999 --worker-num 2配置Nginx负载均衡upstream xinference_cluster { server 127.0.0.1:9998; server 127.0.0.1:9999; } server { listen 9997; location / { proxy_pass http://xinference_cluster; } }修改LangChain-Chatchat配置指向Nginx入口5. 企业级功能扩展5.1 审计日志集成在server/api.py中添加日志记录中间件app.middleware(http) async def log_requests(request: Request, call_next): start_time time.time() response await call_next(request) process_time (time.time() - start_time) * 1000 audit_logger.info( fmethod{request.method} path{request.url.path} fstatus{response.status_code} latency{process_time:.2f}ms ) return response建议日志字段包含用户ID需对接企业认证系统问题内容响应时间知识库来源5.2 敏感信息过滤创建utils/content_filter.pyclass SecurityFilter: def __init__(self): self.patterns [ r\b\d{18}\b, # 身份证号 r\b\d{11}\b # 手机号 ] def filter(self, text): for pattern in self.patterns: text re.sub(pattern, [REDACTED], text) return text在知识库入库和问答输出两个环节调用过滤filter SecurityFilter() safe_content filter.filter(raw_content)5.3 性能监控看板使用PrometheusGrafana搭建监控系统添加指标采集monitoring/metrics.pyfrom prometheus_client import Counter, Histogram REQUEST_COUNT Counter( api_requests_total, Total API requests, [method, endpoint, status] ) RESPONSE_TIME Histogram( api_response_time_seconds, API response time distribution, [method, endpoint] )配置Grafana看板关键指标请求吞吐量QPS平均响应时间错误率GPU内存利用率知识库命中率实际部署中发现合理的分块大小建议256-512 tokens能使知识库检索准确率提升15-20%。对于技术文档类内容添加章节标题作为元数据能进一步改善检索质量。