Skip to content

文档解析器概述

文档解析器(Parser)是 CatWiki 知识库平台中用于文档预处理的核心组件。通过解析器,您可以接入不同的文档解析引擎,将 PDF、Word、图片等非结构化文档转换为可被 AI 理解的结构化文本。

什么是文档解析器

文档解析器是一种标准化的文档处理对接方式,它负责:

  • 文档解析:将 PDF、Word、PPT 等文档转换为结构化文本
  • OCR 识别:识别扫描件和图片中的文字内容
  • 版面分析:识别文档结构(标题、段落、表格、图片等)
  • 格式保留:尽可能保留原文档的格式和层次结构

为什么需要文档解析器

传统的文档处理方式存在以下问题:

问题影响
PDF 文字乱码无法正确提取文本内容
扫描件无法识别图片形式的文档无法被检索
表格丢失结构数据关系无法被正确理解
表格解析不准即使有文字,表格内部结构也会乱码
格式混乱标题、段落层次丢失

文档解析器通过专业的文档解析引擎解决这些问题,确保高质量的文档内容进入知识库。

目前集成的解析器

TIP

集成状态提示 下表列出的解析器已正式集成。CatWiki 目前首选支持 MinerU 和 Docling 作为核心解析引擎。

解析器说明特点官方文档状态
MinerU(首选支持) 高质量文档解析工具解析精度高、支持复杂版面Docker 部署✅ 已集成
DoclingIBM 开源文档处理引擎轻量级、易部署部署指南✅ 已集成
PaddleOCR百度开源 OCR 引擎中文识别率高、支持 VL 模型官方文档✅ 已集成

核心优势

🔌 灵活对接

支持多种主流文档解析引擎,可根据需求选择最适合的方案。

⚡ 高效处理

异步处理架构,支持大批量文档的并行解析。

🎯 高精度解析

专业引擎支持复杂版面分析,准确识别表格、公式、图表等。

🖼️ 图文混排支持

自动提取文档中的图片并生成公开访问链接,支持 AI 在回答中直接引用和展示图片,实现真正的多模态问答体验。

🔄 按需切换

可同时配置多个解析器,根据文档类型选择最优引擎。

快速开始

1. 进入配置页面

管理后台 → 设置文档解析

2. 添加解析器

  1. 点击 添加解析器
  2. 选择连接器类型(如 MinerU)
  3. 填写服务地址和 API 密钥(如需要)
  4. 点击 测试连接 确认服务可用
  5. 保存配置

3. 使用解析器

在上传文档时,系统会自动使用已启用的解析器进行文档处理。如果配置了多个解析器,可在上传时选择使用哪个。

下一步