文档解析器概述
文档解析器(Parser)是 CatWiki 知识库平台中用于文档预处理的核心组件。通过解析器,您可以接入不同的文档解析引擎,将 PDF、Word、图片等非结构化文档转换为可被 AI 理解的结构化文本。
什么是文档解析器
文档解析器是一种标准化的文档处理对接方式,它负责:
- 文档解析:将 PDF、Word、PPT 等文档转换为结构化文本
- OCR 识别:识别扫描件和图片中的文字内容
- 版面分析:识别文档结构(标题、段落、表格、图片等)
- 格式保留:尽可能保留原文档的格式和层次结构
为什么需要文档解析器
传统的文档处理方式存在以下问题:
| 问题 | 影响 |
|---|---|
| PDF 文字乱码 | 无法正确提取文本内容 |
| 扫描件无法识别 | 图片形式的文档无法被检索 |
| 表格丢失结构 | 数据关系无法被正确理解 |
| 表格解析不准 | 即使有文字,表格内部结构也会乱码 |
| 格式混乱 | 标题、段落层次丢失 |
文档解析器通过专业的文档解析引擎解决这些问题,确保高质量的文档内容进入知识库。
目前集成的解析器
TIP
集成状态提示 下表列出的解析器已正式集成。CatWiki 目前首选支持 MinerU 和 Docling 作为核心解析引擎。
| 解析器 | 说明 | 特点 | 官方文档 | 状态 |
|---|---|---|---|---|
| MinerU | (首选支持) 高质量文档解析工具 | 解析精度高、支持复杂版面 | Docker 部署 | ✅ 已集成 |
| Docling | IBM 开源文档处理引擎 | 轻量级、易部署 | 部署指南 | ✅ 已集成 |
| PaddleOCR | 百度开源 OCR 引擎 | 中文识别率高、支持 VL 模型 | 官方文档 | ✅ 已集成 |
核心优势
🔌 灵活对接
支持多种主流文档解析引擎,可根据需求选择最适合的方案。
⚡ 高效处理
异步处理架构,支持大批量文档的并行解析。
🎯 高精度解析
专业引擎支持复杂版面分析,准确识别表格、公式、图表等。
🖼️ 图文混排支持
自动提取文档中的图片并生成公开访问链接,支持 AI 在回答中直接引用和展示图片,实现真正的多模态问答体验。
🔄 按需切换
可同时配置多个解析器,根据文档类型选择最优引擎。
快速开始
1. 进入配置页面
管理后台 → 设置 → 文档解析
2. 添加解析器
- 点击 添加解析器
- 选择连接器类型(如 MinerU)
- 填写服务地址和 API 密钥(如需要)
- 点击 测试连接 确认服务可用
- 保存配置
3. 使用解析器
在上传文档时,系统会自动使用已启用的解析器进行文档处理。如果配置了多个解析器,可在上传时选择使用哪个。
下一步
- MinerU 解析器 - (优先支持) 高精度版面分析
- Docling 解析器 - 轻量级文档处理
- PaddleOCR 解析器 - 中文 OCR 与视觉语言模型
