文档解析器概述

文档解析器（Parser）是 CatWiki 知识库平台中用于文档预处理的核心组件。通过解析器，您可以接入不同的文档解析引擎，将 PDF、Word、图片等非结构化文档转换为可被 AI 理解的结构化文本。

什么是文档解析器

文档解析器是一种标准化的文档处理对接方式，它负责：

文档解析：将 PDF、Word、PPT 等文档转换为结构化文本
OCR 识别：识别扫描件和图片中的文字内容
版面分析：识别文档结构（标题、段落、表格、图片等）
格式保留：尽可能保留原文档的格式和层次结构

为什么需要文档解析器

传统的文档处理方式存在以下问题：

问题	影响
PDF 文字乱码	无法正确提取文本内容
扫描件无法识别	图片形式的文档无法被检索
表格丢失结构	数据关系无法被正确理解
表格解析不准	即使有文字，表格内部结构也会乱码
格式混乱	标题、段落层次丢失

文档解析器通过专业的文档解析引擎解决这些问题，确保高质量的文档内容进入知识库。

目前集成的解析器

TIP

集成状态提示 下表列出的解析器已正式集成。CatWiki 目前首选支持 MinerU 和 Docling 作为核心解析引擎。

解析器	说明	支持格式	版本要求	官方文档	状态
MinerU	(首选支持) 高质量文档解析工具	PDF、Word、Image	>= 3.0.0	Docker 部署	✅ 已集成
Docling	IBM 开源文档处理引擎	PDF、Word、PPT、Excel、HTML、Image、Markdown	无特殊要求	部署指南	✅ 已集成
PaddleOCR	百度开源 OCR 引擎	PDF、Image	无特殊要求	官方文档	✅ 已集成

核心优势

🔌 灵活对接

支持多种主流文档解析引擎，可根据需求选择最适合的方案。

⚡ 高效处理

异步处理架构，支持大批量文档的并行解析。

🎯 高精度解析

专业引擎支持复杂版面分析，准确识别表格、公式、图表等。

🖼️ 图文混排支持

自动提取文档中的图片并生成公开访问链接，支持 AI 在回答中直接引用和展示图片，实现真正的多模态问答体验。

🔄 按需切换

可同时配置多个解析器，根据文档类型选择最优引擎。

快速开始

1. 进入配置页面

管理后台 → 设置 → 文档解析

2. 添加解析器

点击 添加解析器
选择连接器类型（如 MinerU）
填写服务地址和 API 密钥（如需要）
点击 测试连接 确认服务可用
保存配置

3. 使用解析器

在上传文档时，系统会自动使用已启用的解析器进行文档处理。如果配置了多个解析器，可在上传时选择使用哪个。

下一步

MinerU 解析器 - (优先支持) 高精度版面分析
Docling 解析器 - 轻量级文档处理
PaddleOCR 解析器 - 中文 OCR 与视觉语言模型

文档解析器概述 ​

什么是文档解析器 ​

为什么需要文档解析器 ​

目前集成的解析器 ​

核心优势 ​

🔌 灵活对接 ​

⚡ 高效处理 ​

🎯 高精度解析 ​

🖼️ 图文混排支持 ​

🔄 按需切换 ​

快速开始 ​

1. 进入配置页面 ​

2. 添加解析器 ​

3. 使用解析器 ​

下一步 ​