更新日志 (Changelog)
CatWiki 始终保持快速演进。在这里,您可以了解到项目的每一个重大改进。
2026-05-09 🔍 Elasticsearch 混合检索 & 全面升级 (v1.1.0)
🚨 Breaking Change:v1.1.0 不兼容旧版数据库,无法从 v1.0.x 直接升级,需全新部署。
🔍 Elasticsearch 混合检索(核心新特性)
- ES 向量引擎:新增
elasticsearch作为向量存储后端,与原有postgres(PGVector)引擎并列支持,通过VECTOR_STORE_TYPE=elasticsearch切换。 - IK 中文分词:Elasticsearch 镜像内置 IK 分词插件,无需手动安装,开箱即用。
- 混合检索(Hybrid Search):结合向量相似度与 BM25 关键词检索,通过 RRF(Reciprocal Rank Fusion)算法融合排序,显著提升中文语义召回精度。
- 一键启用:
make dev-up ES=1即可同时拉起 Elasticsearch 容器,Makefile 新增 ES 环境变量前置校验,配置不一致时直接报错拦截。 - 向量层工业级重构:PGVector / ES 共用统一抽象接口,6 项架构改进 + 4 项缺陷修复,业务层完全无感切换;修复并发写入竞态、索引缺失、BM25 权重未生效等实质性问题。
💬 Response API 重构聊天
- AI 聊天核心完整迁移至 Response API 模式,摒弃旧版流式拼接方案。
- 流式输出更稳定,减少长文本场景下的断流与乱序问题。
- 并发处理能力大幅提升,多用户同时对话时响应延迟更低。
🎯 RAG 检索优化
- 首轮检索用原始提问:第一轮检索不再使用 AI 改写后的问题,直接使用用户原始输入,降低改写偏差对召回的干扰,提升关键词命中率。
- 多轮检索参数:
AGENT_MAX_ITERATIONS/AGENT_MAX_CONSECUTIVE_EMPTY支持通过环境变量细粒度控制 ReAct 迭代次数与空结果终止阈值。 - RAG Pipeline Summary:检索摘要新增向量后端来源展示,区分「阈值实际生效」与「ES 跳过阈值」两种情况,便于排查召回行为。
🤖 AI 自动生成摘要与标签
- 文档编辑器与批量导入均支持一键让 AI 自动生成文章摘要与标签,可配置字数上限和标签数量上限。
- 批量导入时可勾选「AI 自动生成摘要/标签」,无需逐篇手动填写。
🔄 向量状态同步优化
- 新增
OUTDATED(已过期)向量状态:文档内容或关键字段更新后,状态自动由COMPLETED变为OUTDATED,提醒用户重新向量化。 - 文档列表新增过期状态标识,支持一键重新学习。
- 修复 BM25 权重未实际生效、向量状态显示不一致等多项问题。
📊 对话统计与分析
- 管理后台新增对话详情统计功能,可逐条查看每次会话的完整工具调用链路、检索命中文档与 Token 消耗。
- 数据分析页面新增 EE 专属看板,支持多维度运营指标展示。
🔍 客户端检索结果查看
- 客户端对话界面中,点击工具调用记录可直接展开查看 AI 实际命中的文档片段与相关度得分,提升用户对 AI 推理过程的可信度。
🔒 公开站点密码保护
- 支持为知识库站点设置访问密码,实现半公开的权限控制。
- 关闭公开访问时自动生成随机强密码,防止意外泄露。
⚙️ 模型配置增强
- extra_body 通用参数:对话模型配置新增
extra_bodyJSON 输入框,支持透传任意模型特有参数(如关闭思考模式),内置 Qwen3/DeepSeek/Kimi/豆包/混元等主流模型的可点击参考示例。 - 系统引擎信息面板:平台管理新增「系统引擎」标签页,并发探活数据库、向量存储、缓存、对象存储四大组件,实时展示连接状态与后端信息。
🏗️ 基础设施与工程改进
- Docker 目录重构:部署目录拆分为
deploy/docker(CE)与deploy/docker-ee(EE),开发与生产配置全面对齐。 - 数据库迁移整理:将所有建表迁移合并至
initial_schema,EE 专属表独立为 Alembic 分支,使用alembic upgrade heads兼容多分支升级。 - 配置强制覆盖控制:新增
FORCE_UPDATE_AI_CONFIG/FORCE_UPDATE_DOC_PROCESSOR环境变量,重启时可选择是否用.env覆盖数据库中已有的 AI 与解析器配置。 - EE 功能整合:企业版站点配置 API 统一,EE 前端组件独立隔离,CE/EE 同步脚本全面加固。
2026-04-15 🔧 解析器升级与体验优化 (v1.0.9)
- ⚡ 异步解析:Docling 和 MinerU 改为异步提交+轮询模式,解析大文件不再阻塞 Worker。
- 🆕 MinerU 3.x 适配:支持 MinerU 3.0 新异步 API,新增 backend 选择(hybrid-auto-engine / vlm-auto-engine / pipeline 等),标注精度与硬件要求。
- 🔧 Docling v1.12.0:新增 OCR 引擎、PDF 解析后端、处理管线配置项,验证版本
v1.12.0。 - 🗂️ 解析元数据:文档导入后记录解析器类型、文件路径、OCR 配置等,可在编辑页折叠查看,方便排查问题。
- 🔑 API Key 保护:修复编辑解析器时保存会覆盖真实 API Key 的 bug。
- 📋 任务队列入口:导航栏新增任务队列按钮,有进行中任务时显示数量角标,随时可重新打开队列面板。
- 🏢 组织列表优化:平台组织列表改用 React Query 缓存,切换 Tab 不再闪烁,支持关键词搜索。
- 🐳 基础设施修复:修正 RustFS healthcheck 端点,补充 Worker 对 RustFS 的启动依赖,统一开发/生产环境配置。
2026-02-26 🤖 AI 机器人集成
- 🌐 网页挂件: 支持一键嵌入任何网页,提供开箱即用的智能客引导流能力。
- 🔌 问答机器人 API: 深度兼容 OpenAI 协议接口,可对接 Dify、FastGPT 及各类 AI 客户端。
- 🔗 钉钉机器人: 深度对接钉钉 Stream 模式,支持 AI 卡片流式输出与互动卡片交互。
- 💬 企业微信: 同时支持
企业微信客服** 与企业微信智能机器人,覆盖私域流量全场景。 - 🦅 飞书机器人: 对接飞书开放平台,支持长连接模式、事件订阅与富文本消息交互。
- 📚 文档更新: 同步上线全系列机器人集成指引,涵盖各平台详细配置流程。
2026-02-09 🤖 LangGraph Agentic RAG 与多轮自主检索
- LangGraph 集成: 采用 LangGraph 1.x 重构聊天功能,支持工具调用模式。
- RAG 工具化: 将知识库检索封装为
search_knowledge_base工具,由 AI 自主判断是否需要调用。 - ReAct 循环架构: AI 可自主调用知识库进行多轮检索,持续优化答案质量。
- 工具调用展示: 前端 AI 对话支持展示完整的多轮检索历程,用户可以看到所有搜索尝试。
- 会话持久化: 集成 PostgreSQL Checkpointer,后端自动管理并行会话及其历史。
- API 简化: 前端只需传
thread_id,后端自动加载上下文。
2026-02-05 🎨 视觉标准化与品牌优化
- 🚀 全新品牌域名启用: 正式启用 catwiki.ai 官方网站与全线品牌域名。
- 🚀 文档图片公开化: 文档解析过程自动提取图片并上传至对象存储,生成永久公开访问链接。
- 🖼️ AI 图片回复: 知识库问答支持图文混排,AI 可直接引用文档中的图片进行回答。
2026-02-04 📄 文档解析引擎集成
- MinerU 集成: 深度对接 MinerU (Magic-PDF) 高质量解析器,支持复杂版面分析和公式提取。
- Docling 集成: 对接 IBM Docling 解析引擎,提供轻量级高性能文档转换。
- PaddleOCR 集成: 深度对接百度 PaddleOCR 引擎,提供业界领先的 OCR 识别精度,尤其在多语言和复杂场景下表现卓越。
- OCR 动态配置: 管理后台支持按解析器配置开启/关闭 OCR 识别。
- 批量导入优化: 文档上传弹窗深度适配解析器配置,支持一键批量导入并自动解析。
2026-01-18 ⚡ 全新文档站点上线
- VitePress 驱动: 基于 VitePress 构建高性能文档中心。
- 多语言对齐: 重新对齐了中英文 README 说明。
- 架构清理: 优化了项目目录结构和 Docker 配置。
2025-12-30 🚀 CatWiki V0.0.1 发布
- 核心功能: 实现文档层级管理、向量检索、AI 对话及站点配置。
- 双端架构: 独立的管理后台 (Admin) 与 客户端 (Client)。
- 全栈类型安全: 基于 FastAPI + Next.js 14 构建,全链路 TypeScript/Pydantic 支持。
