LangChain-AI应用开发框架(十)

张开发

• 2026/5/18 4:33:45 • 15 分钟阅读

分享文章

一.文本分割器Text splitters二.概念三.根据文档长度与文档语义拆分1.基于字符长度拆分from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_core.documents import Document from langchain_text_splitters import CharacterTextSplitter # single模式,只生成单个 loader UnstructuredMarkdownLoader( ../Docs/markdown/脚手架级微服务租房平台QA.md ) data loader.load() #文本分类器 text_splitter CharacterTextSplitter( separator\n\n, #分割符,可以设置分割符列表 chunk_size400, #块大小 chunk_overlap50, #块重叠大小 length_functionlen,#测量字符长度的函数 is_separator_regexFalse, #是否正则表达式描写分割符 ) #分割文档 documents text_splitter.split_documents(data) for document in documents[:10]: print(* * 30) print() print(document)链接地址:https://reference.langchain.com/python/langchain-text-splitters/character/CharacterTextSplitter2.基于Token长度拆分import tiktoken # 定于cl100k_base编码⽅式的分词器 enc tiktoken.get_encoding(cl100k_base) # 进⾏切分编码 enc_output enc.encode(my name is LiHua!) # 打印结果 print(f编码后的token{str(enc_output)}) for token in enc_output: print(f将token: {str(token)} 变成⽂本: {str(enc.decode_single_token_bytes(token))})from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_core.documents import Document from langchain_text_splitters import CharacterTextSplitter from zipp.glob import separate # single模式,只生成单个 loader UnstructuredMarkdownLoader( ../Docs/markdown/脚手架级微服务租房平台QA.md ) data loader.load() #tiktoken分词器 text_splitter CharacterTextSplitter.from_tiktoken_encoder( encoding_namecl100k_base, #tiktoken分词器中的一种编码方式 chunk_size400, #token大小 chunk_overlap50, #块重叠大小 ) #分割文档 documents text_splitter.split_documents(data) for document in documents[:10]: print(* * 30) print() print(document)3.硬性约束长度拆分from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_core.documents import Document from langchain_text_splitters import CharacterTextSplitter, RecursiveCharacterTextSplitter from zipp.glob import separate # single模式,只生成单个 loader UnstructuredMarkdownLoader( ../Docs/markdown/脚手架级微服务租房平台QA.md ) data loader.load() #强制按照约定的块大小进行分割 # text_splitter RecursiveCharacterTextSplitter.from_tiktoken_encoder( # encoding_namecl100k_base, #tiktoken分词器中的一种编码方式 # chunk_size100, #token大小 # chunk_overlap0, #块重叠大小 # ) text_splitter RecursiveCharacterTextSplitter.from_tiktoken_encoder( separator[\n\n,\n, ], #分割符,可以设置分割符列表 chunk_size400, #块大小 chunk_overlap50, #块重叠大小 length_functionlen,#测量字符长度的函数 is_separator_regexFalse, #是否正则表达式描写分割符 ) #分割文档 documents text_splitter.split_documents(data) for document in documents[:10]: print(* * 30) print() print(document) # import tiktoken # # 定于cl100k_base编码⽅式的分词器 # enc tiktoken.get_encoding(cl100k_base) # # 进⾏切分编码 # enc_output enc.encode(my name is LiHua!) # # 打印结果 # print(f编码后的token{str(enc_output)}) # for token in enc_output: # print(f将token: {str(token)} 变成⽂本:{str(enc.decode_single_token_bytes(token))})四.特殊文档结构拆分from langchain_text_splitters import PythonCodeTextSplitter # 字符串文档 PYTHON_CODE def hello_world(): print(Hello, World!) def hello_python(): print(Hello, Python!) python_splitter PythonCodeTextSplitter(chunk_size50, chunk_overlap0) python_docs python_splitter.create_documents([PYTHON_CODE]) for document in python_docs[:2]: print(* * 30) print(f{document}\n)

LangChain-AI应用开发框架(十)

最新文章

Windows Cleaner：免费开源工具，高效解决C盘空间不足问题

WarcraftHelper终极指南：魔兽争霸3全版本兼容性修复与性能优化完整方案

除了RTKLIB，还有哪些轻量级工具能一键把坐标序列转KML？实测3种方案对比

第四篇：Vibe Coding 深度解析（四）：生产级落地的工程化体系与避坑指南

python passlib

5分钟快速上手：xrdp开源远程桌面服务器完整配置指南

推荐文章

相关文章

分享文章

更多文章

再次革新 .NET 的构建和发布方式（一）富

如何在3天内搞定东南大学论文格式？这个模板库让你告别排版噩梦

Akebi-GC终极指南：快速掌握原神智能辅助工具的完整使用教程

从单体到微服务？Pear Admin Pro的多数据源与缓存监控功能实战解析

3个高效技巧：快速掌握漫画下载工具的终极指南

西门子PLC大型伺服控制系统：20轴程序+多通讯方式+智能IO+机械手与气缸控制

RS485接口电路设计：从标准解读到自动收发实战

深度解密FUXA：重新定义工业可视化的架构范式

理查德·班德勒 | 心智掌控与自我重塑

微信聊天记录备份终极指南：如何完整保存你的数字记忆

手把手教你为泰山派RK3566编写第一个Linux GPIO驱动（点亮LED灯）

LyricsX：在Mac桌面打造专业级歌词显示体验