企业知识库
企业知识库是组织内部的一个集中存储和管理信息、知识的工具,帮助企业有效地组织、存储、检索和分享各种类型的信息和知识资源,为企业特定场景AI应用提供了基础。通过版面识别、文件切片、向量化技术、语义检索等,可以有效地处理和利用企业内部的大量数据,不仅能够提高大模型在特定任务上的表现,还能大幅降低计算资源的消耗,提升数据处理的效率和准确性。
在企业应用中,通过挂载私有知识库来扩充大模型的知识储备(挂载是通过检索增强生成技术/RAG实现的,借助于在大模型输入时携带相关的私有知识上下文,让大模型理解、总结、整理并回答用户问题,使得大型语言模型在实际应用中变得更加实用和可信),以提供基于自然语言的、对话式的企业私有知识访问,解决通用大模型在面向企业应用时领域知识不足导致的幻觉问题。挂载企业知识库后,将企业知识库文档和数据,通过向量特征提取(embedding)后,存储到向量数据库(vector database),应用LLM大语言模型与向量化的知识库检索和比对知识,构建智能应用。您可以在应用-我的应用-应用编排时选择挂载企业知识库,便于AI应用基于知识库文件进行问答(详见:创建应用)。
企业知识库-我的知识库,展示同一租户下的所有用户创建的知识库/知识库目录,及其关联的应用数量。用户仅可维护自己有维护权限的知识库/知识库目录(包括自己创建的知识库/目录、以及别人授权的知识库/目录)。点击左上角“创建知识库”按钮,可以创建新的企业知识库(支持两种方式:①创建平台知识库;②同步外部数据源;),创建成功的企业知识库,会在企业知识库-我的知识库展示。
此外,用户可在日志监控模块的应用日志监控详情页查看对话详细内容,结合用户反馈信息,通过 “录入 QA” ,从对话日志中选取真实问答,编辑校正后回流入库(详见:应用日志监控),快速补充纠偏,提升准确率。
创建知识库
创建平台知识库
原理简介
通过“创建平台知识库”创建企业知识库、并进行知识治理的核心原理如下:
版面识别:核心在于对文档版面的精准解析,通过先进的算法/模型,版面识别技术可以准确地识别文档中的文字、图片、表格等元素,并将解析出的元素和关键信息进行结构化存储和展示。
分段设置:即对知识库的知识进行切片,可选择自动分段或自定义分段(自定义分段标识符,并支持按需设置规则参数)。
- 自动分段与清洗:
- 本地非结构化文档:智能识别文档内容,在保证文档结构与语义完整性的前提下进行分段,单个分段不超过1024个字符。
- 表格:采用/n分段模式,每行数据会单独保存为一个切片。
- 问答集:采用Q&A分段模式。
- Web站点:智能识别文档内容,在保证文档结构与语义完整性的前提下进行分段,单个分段不超过1024个字符。
- 自定义:自定义分段规则、分段长度以及预处理规则等参数,适用于非结构化文档(含Web站点)分段设置。
- 自动分段:在自动分段基础上,可设置分段最大长度(支持长度范围:200-10000整数)。
- 换行:在自动分段基础上,使用换行符对原文进行切分,适用于纯文本内容。对执行版面的文件不生效,仍会按版面分割。
- 双换行:在自动分段的基础上,使用双换行符对原文进行强制切分。推荐设置较大的分段最大长度,以保证分段内容完整。对执行版面的文件不生效,仍会按版面分割。
- 自定义分隔符:在自动分段的基础上,用户可以自行定义分段标识符,并设置分段最大长度。分隔符本身仅作为切分信号,不会保留在最终的分段内容中,示例:===******===,===分隔符===。对执行版面的文件不生效,仍会按版面分割。
- 分段参数说明:
- 关联文件名:在分段开头自动添加文件名引用。
- 关联标题和子标题:为分段补充其上级标题与子标题。
- 元数据提取:非必选项,用户可以按需选择。
- 上下文窗口:切片向量化时,每个切片的相邻切片的内容被封装在切片的meta_data中。检索和召回时,根据命中文档的meta_data,可以获取该段落的上下文信息。
- 摘要:利用大模型文本摘要技术,将切片文本压缩成简洁、全面的摘要,从而提升信息的密度。
- 标签:给切片文本打上特征标签进行关联,基于文本精准匹配的算法,非常适合关键词检索。
- 索引配置:
- 索引模式:Embedding过程是将非结构化的数据编码为向量,将企业的知识和信息转化为计算机能够理解的向量形式,就像将一本书的内容编码成图书馆的索引卡片,使得信息可以被快速检索。
- bge-m3:采用向量引擎与关键词混合索引,嵌入速度快、召回广泛,不消耗 Token,适合快速粗排。
- Qwen3-Embedding-0.6B:提供更高语义精度,嵌入速度较慢,检索精度较好,不消耗 Token,适合精确匹配场景。
- text-embedding-ada-002:调用 Azure OpenAI 的嵌入接口进行处理,以在用户查询时提供更高的准确度。
- 向量数据库:主要作用是存储和处理向量数据,并提供高效的向量检索功能。
- Milvus:涵盖如Faiss、Annoy和hnswlib等主流第三方索引库,性能高,支持对海量向量数据进行相似搜索,支持使用Kubernetes部署,支持在云上扩展。例如,如果需要一个易于扩展、稳定高效且支持多种索引方式的向量数据库,那么Milvus可能是一个更好的选择。
- Oracle:使用Oracle AI Vector Search对任意数据进行向量存储和高效的语义相似性检索,不必引入专门的向量数据库,支持Oracle 23ai及以上版本。
操作指南
开始:进入“数据-企业知识库”,点击左上角的“创建知识库"按钮,进入”创建知识库“弹窗页面。

填写企业知识库信息:填写知识库名称及描述,点击“确认”按钮,开始创建企业知识库。

添加治理文件:填写完企业知识库信息并点击“确认”后,进入知识库详情页面,点击“添加治理文件”即可添加文件、并进行知识治理。(注:通过“添加文件”入口添加文件,仅可进行文本分段并清洗,无法知识治理)

企业知识库支持添加4种类型的文件:本地非结构化文档、本地表格、本地问答集、同步自Web站点。
上传本地非结构化文档:通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件。

上传表格:通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件。

上传本地问答集:您可以通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件(可下载模板后,按照模板编辑后再上传);也可以点击“同步问答集API”,通过API同步的方式导入(问答集API支持同步“相似问题”);还可以直接点击“创建一个空问答集”,填写问答集名称后点击“确定”完成创建(支持创建多个),便于后续在空问答集中直接添加分段信息。



同步自Web站点:需填写网页链接、设置自动刷新频率、并进行数据提取,方可完成此类型的文件添加。

此外,支持自主设置文件有效期,截止到有效期后,文件将会被禁用,不再被召回。

知识治理:添加的文件会在“添加文件”的列表进行展示,此时,可以选择:①点击“下一步”逐步完成知识治理相关设置;②点击“添加模板”选择知识治理模板实现自动化批量处理。

逐步设置知识治理
①版面识别:添加文件后点击“下一步”,即进入版面识别页面,页面左侧展示用户上传的原文档(PDF、DOC、DOCX、PPT、PPTX、PNG、JPG),右侧展示通过模型/工具识别出来的各类版面元素(标题、文字、图片、表格、公式等,将这些元素排版并转换为多模态Markdown格式)。用户批量添加文件时,只预览加载识别出来的文档,支持用户通过切换文件查看不同文件的版面识别原文档和识别出来的文档。如用户单次上传的文件中暂无PDF、DOC、DOCX、PPT、PPTX、PNG、JPG文件,则跳过版面识别步骤,直接进入分段设置。用户可以按需切换选择合适的版面识别模型。

②分段设置:版面识别后点击“下一步”,即进入分段设置页面,页面左侧展示不同类型文档对应的分段设置规则(非结构化文档分段设置、表格分段设置、问答对分段设置),支持用户按需选择合适的分段策略,并在右侧工作区预览展示以分段方式切片的文档内容。

③元数据提取:分段设置后点击“下一步”,即进入元数据提取页面,页面左侧支持用户按需选择元数据提取信息,并在右侧展示分段及元数据预览。

④索引配置:元数据提取后点击“下一步”,即进入索引配置页面,用户可以按需选择索引方式和向量数据库。

完成索引配置后,直接点击“完成”,添加的文件将出现在知识库文件列表、并进行embedding处理。点击“解析服务状态”,可以查看当前文件处理的排队情况。

在此过程中的相关知识治理设置,支持一键保存为知识治理模板。点击“保存为知识治理模板”按钮,将本次配置操作保存,形成一套知识治理模板,保存后在企业知识库-知识治理模板同步展示。

添加知识治理模板
添加文件后点击“添加模板”,用户可以选择合适的知识治理模板(选择范围为企业知识库-知识治理模板中、且与该知识库基础设置不冲突的模板),选择模板后点击“完成”,这些文件将出现在知识库文件列表、并按照模板自动化处理。



手动治理:对于知识库文件列表中通过“添加治理文件”添加的文件,除表格、问答集之外的非结构化文档有“知识治理”按钮,点击“知识治理”按钮,支持用户手动调整版面识别和分段设置的效果(PDF、DOC、DOCX、PPT、PPTX、PNG、JPG文件知识治理包含版面识别、分段设置;TXT、HTML、MARKDOWN、MP4、MP3、AVI、WMV文件知识治理仅可调整分段设置)。

①版面识别:通过“添加治理文件”添加的PDF、DOC、DOCX、PPT、PPTX、PNG、JPG支持手动调整版面识别结果,点击“知识治理”按钮即可调整版面识别结果。左侧工作区为对应的原文件,右侧工作区为识别出来的文档,用户可以通过选中已解析出来的色块,进行拖拉拽进行顺序调整,也可以点击“编辑”进行内容修改,编辑后点击框外即为保存(如识别到用户修改内容较多,系统将会进行提示确认)。

②分段设置:对于PDF、DOC、DOCX、PPT、PPTX、PNG、JPG,通过“知识治理”按钮,在版面识别界面点击“下一步”即可手动调整分段设置结果。对于TXT、HTML、MARKDOWN、MP4、MP3、AVI、WMV,通过“知识治理”按钮,直接进入分段设置。左侧仅展示对应文档的分段设置数据,支持用户修改分段设置,右侧工作区展示以对应分段方式切片的文件预览。分段设置调整完成后,点击“保存并处理”即完成手动治理。

编辑修改:您可以在知识库详情页,对该知识库进行文件添加、修改、删除、设置等操作,也可以查看该知识库的变更记录。

如需为某知识库添加更多的文件,在知识库详情页点击“添加治理文件”进行相关操作即可。企业知识库支持 “查重” 功能,用户上传文件后,点击 “查重” 按钮就能对当前上传文件与库内已有文档进行相似度判断,支持按需自定义相似度阈值,支持按需替换原文档。

在知识库详情页,您可以对知识库中的文件进行重命名,也可以进行文件预览、可用/禁用设置、知识治理/文本分段并清洗设置、分段查看、文件下载、Meta信息维护、文件删除等操作。

同时支持批量操作,包括下载、启用 / 禁用、删除及重新 Embedding。

查看分段:对于本地非结构化文档可以点击“查看分段”按钮,查看文件全部分段内容并进行分段调整。

用户可以针对某一个分段进行编辑,点击 “编辑” 按钮进入分段详情页,弹窗中可自由切换富文本或 Markdown 格式编辑内容,编辑完成后点击 “保存” 按钮即可完成操作。同时,点击该分段右侧的对应按钮可取消当前分段,点击 “删除” 按钮则能直接删除该分段。




在分段信息页,支持添加单个分段。点击右上角“添加分段” 按钮后即可进入分段详情编辑界面,完成编辑并点击 “保存” 按钮,即可成功添加分段。

对于问答集类型的文件(含空问答集),点击“查看分段”图标,进入分段信息页面,点击“添加分段”即可进行分段添加,支持为一个Answer同时对应零个或多个Question,并支持在Answer中添加图片、视频等富文本信息。对于已添加的分段,支持进行分段编辑、启用/禁用设置、分段移动、分段删除等操作。



Meta信息:对于知识库中的文件支持添加Meta信息(Meta信息是与文档内容相关的一系列附加属性,这些属性以key-value键值对的形式集成到文本切片中,为文本切片提供了重要的上下文信息,可显著提升知识库检索的准确性)。


分段标签:对于基础设置中勾选“标签”的知识库,支持对非结构化文档和问答集的分段进行“批量打标”。


同步外部数据源
开始:进入“数据-企业知识库”,点击左上角的“创建企业知识库"按钮,进入”创建企业知识库“弹窗页面。

选择知识来源:选择已有的知识来源,或者点击“添加知识来源”绑定新的知识来源。

选择知识库&设置:选择要添加的知识库,并进行知识库设置,点击“确认”即完成了同步外部数据源,并在企业知识库列表中展示。



编辑修改:点击通过“同步外部数据源”添加的知识库,可以查看该知识库中的文件、也可以查看该知识库的变更记录,并支持进行启用/禁用/分段修改等操作。除支持对单个文件进行同步外,也可以一键进行全库同步。

命中测试
在知识库详情-命中测试,可以输入查询文本进行命中效果测试。点击某个命中段落,可以查看该分段的详情。支持进行召回设置,按需切换合适的模型。


基础设置
您可以在知识库详情-基础设置中,修改知识库名称、知识库描述、元数据、索引模式、向量数据库,修改后所有该知识库的文件都会按此设置执行。

权限设置
您可以在知识库详情-权限设置中设置使用权限,支持设置公开、内部、私有三种权限,按需授权可访问的用户即可。配置知识库权限后,AI仅对拥有权限的角色回答与该知识库相关的问题,若角色未获得相应权限,AI将不会提供相关回答。

管理协作者
对于您创建的知识库,您可以在知识库详情-管理协作者中设置协作者权限。您可按需邀请平台其他用户作为协作者,仅创建人和协作者拥有当前知识库的维护权限,拥有协作者权限的用户可执行除“删除知识库”之外的所有操作,但不可管理其他协作者。

创建知识目录
知识目录是企业知识库的集合,是一个结构化的知识组织方式,按照特定的主题或分类将知识进行整理和归类,使得用户可以通过知识目录更加便捷地查找和获取所需的知识资源。
如您的知识资源较多或覆盖了多种主题,您可以先在企业知识库-我的知识库,创建知识目录,之后在此知识目录下创建知识库。创建成功的知识目录,会在企业知识库-我的知识库展示。
创建知识目录

开始:进入“数据-企业知识库”,点击左上角的“创建知识目录"按钮,进入”创建知识目录“弹窗页面。
填写知识目录信息:填写知识目录名称及描述,点击“确认”按钮,开始创建知识目录。

创建企业知识库:填写完知识目录信息并点击“确认”后,进入知识库目录详情页面,点击“创建企业知识库”即可(操作流程同直接创建企业知识库)。您可以通过右上角的“变更记录”,查看该知识目录的变更历史。

基础设置
在知识库目录详情页,您可以点击“基础设置”Tab,对知识目录的名称和描述进行修改。

权限设置
您可以在知识库目录详情-权限设置中设置使用权限,支持设置公开、内部、私有三种权限,按需授权可访问的用户即可。配置权限后,AI仅对拥有权限的角色回答与该知识库目录相关的问题,若角色未获得相应权限,AI将不会提供相关回答。

管理协作者
对于您创建的知识目录,您可以在知识目录详情-管理协作者中设置协作者权限。您可按需邀请平台其他用户作为协作者,仅创建人和协作者拥有当前知识目录的维护权限,拥有协作者权限的用户可执行除“删除知识库”之外的所有操作,但不可管理其他协作者。

知识库目录配置的协作者会继承给此目录下的所有知识库,从知识库目录继承的协作者不能在知识库层级删除。

导入知识库
在数据-企业知识库,点击左上角的“导入知识库”按钮,可以直接导入已有的知识库压缩包文件、并按照其知识库配置执行治理,导入后的知识库会在“我的知识库”进行展示,便于您直接使用或在其基础上进行调整。对于导入的知识库,其修改、设置、命中测试同创建的企业知识库。

知识治理模板
数据-企业知识库-知识治理模板展示所有可供选择的知识治理模板,包括神州问学平台预置的、以及您自己创建的知识治理模板,供用户在企业知识库-添加治理文件-选择知识治理模板使用。

体验知识治理模板
点击知识治理模板列表中的某个知识治理模板,可以查看模板配置详情,可以按需进行编辑修改,也可以点击“去体验”体验该模板的效果,如在体验过程中修改了配置,系统会进行提示,便于用户按需更新模板。



创建知识治理模板
点击左上角“创建知识治理模板”按钮,可以按需创建知识治理模板,并可以点击“去体验”体验该新增模板的效果(同已有模板体验),点击“保存”即完成模板创建。

知识来源
问学支持接入并整合来自外部的多样化知识数据资源,帮助企业全面管理企业知识。问学目前支持通过飞书应用凭证,实现从飞书同步知识库内容。

点击“配置”后,填写飞书应用凭证信息,即可绑定飞书应用,并在知识来源配置中显示“已绑定”。


新绑定的飞书应用,会出现在“创建企业知识库-同步外部数据源”的列表中,便于按需选择同步。

企业知识治理指导手册
在人工智能技术深度融入企业核心业务、驱动产业数字化转型向纵深发展的时代背景下,高质量、体系化、标准化的企业知识体系,已成为人工智能应用实现场景化落地、规模化推广与价值化释放的核心支撑与关键底座。当前,企业内部知识广泛沉淀于业务系统、操作流程、管理规范、技术文档、专家经验及历史数据之中,普遍呈现分布零散、结构异构、标准不一、更新滞后等碎片化特征。此类未经系统化梳理、规范化治理与体系化优化的知识资产,难以形成统一、可用、可信的数据资源,无法被大语言模型高效识别、精准理解与深度利用,更难以转化为支撑企业智能决策、优化业务流程、提升服务能力的核心生产要素。
知识治理作为面向人工智能时代的系统性工程,是挖掘企业知识资产内在价值、保障大语言模型应用效能、赋能人工智能项目高质量落地的核心抓手与基础路径。其通过构建科学严谨的治理框架、制定统一规范的标准体系、运用专业高效的技术工具,对企业全域知识开展全生命周期管理,涵盖知识梳理、整合汇聚、质量优化、分类标引、权限管控及迭代运营等关键环节,实现知识资产的标准化、结构化、可溯化与可复用化,有效提升大语言模型对业务场景的理解精度、内容生成的可靠程度与任务执行的专业水平,降低模型应用风险,强化人工智能输出的准确性、实用性与安全性,成为企业人工智能项目从试点验证走向全面落地的关键前提与重要保障。
本指南立足企业知识治理全生命周期实践,系统阐释知识治理的核心目标、价值内涵、实施前提与基础条件,明确全流程工作分工、组织协同机制与责任边界,细化各阶段实操方法、实施路径与关键控制点,并提出长效化运营管理与持续性优化策略。指南基于行业实践提炼通用性方法论与可落地实施要点,为各类企业提供科学、规范、高效的知识治理指引,助力企业降低实施成本、减少试错风险、提升建设效率,全面夯实智能应用发展的知识底座,为企业人工智能技术深度应用与数字化高质量发展提供坚实支撑。
一、知识治理的核心逻辑与目标
在人工智能与企业业务深度融合的背景下,知识治理已成为企业知识资产化、AI 应用规模化的基础性工程。其底层逻辑建立在数据 — 信息 — 知识的逐层转化模型之上:原始数据通过场景化定义、上下文赋予与结构化组织形成有效信息;信息再经归纳提炼、逻辑关联、经验内化与体系化重构,最终形成可指导实践、可复用传播、可支撑决策的企业知识。这一转化过程,既是知识从无序到有序的沉淀过程,也是知识治理发挥价值的核心路径。
知识治理以企业内外部结构化与非结构化信息为核心治理对象,覆盖制度文件、操作规范、技术资料、业务流程、专家经验、历史案例等多元知识载体。通过标准化、体系化、全生命周期的治理手段,实现对信息的清洗、标引、整合、优化与运营,其最终目标是使大语言模型能够对企业知识进行高效萃取、精准关联、可信应用,显著提升模型在业务场景中的理解能力、应答精度与输出专业性,为企业智能化应用提供稳定可靠的知识保障。
遵循“输入决定输出”的人工智能应用基本规律,知识治理的核心目的在于构建高质量、标准化、可复用的企业知识集,为 AI 项目落地提供准确、有序、高质量的知识供给。高质量知识体系的形成,依赖于两次关键转化:
一是隐性知识显性化,即将存在于员工个体、团队协作中的经验、技能、诀窍、判断逻辑等难以编码的隐性知识,通过梳理、萃取、提炼与固化,转化为可记录、可传播、可复用的显性知识;
二是显性知识体系化,即将分散在各系统、各部门、各环节的碎片化显性知识,进行统一规范、标准对齐、结构整合与逻辑关联,形成自洽、完备、高效的企业统一知识体系,实现知识的高效共享、便捷调用与持续迭代。
为保障知识治理工作方向清晰、路径可行、成效可量化,避免资源错配、重复建设与目标偏离,企业在开展知识治理前,必须锚定三大核心前提,确立治理工作的 “坐标系” 与 “度量衡”:
第一,明确业务范围。以业务价值为导向,聚焦知识密集型、高复用性、高风险的核心业务环节,科学界定知识治理的覆盖广度与实施深度,区分核心业务知识、重要支撑知识与一般辅助知识,实现资源精准投入、重点优先突破。
第二,量化知识文档量级。通过全面、系统的知识资产盘点,对企业内部知识载体的数量、类型、格式、来源、更新频率、使用主体及权限要求等关键信息进行摸底统计,形成清晰、完整、可动态更新的知识资产清单,为治理方案设计、资源配置与进度规划提供数据支撑。
第三,锚定问答准确率目标。结合不同业务场景的专业要求、容错阈值与应用目标,设定合理、可落地的问答准确率指标,明确定义准确率口径、评估方法与验收标准,并制定分阶段、阶梯式的提升计划,使知识治理成效可衡量、可对比、可持续优化。
二、知识治理的全流程分工与实施步骤
知识治理是一项融合业务场景、技术能力与管理规范的系统性工程,并非单一技术团队可独立完成的工作,其落地成效依赖于业务部门与专项治理团队的协同联动、各司其职、紧密配合,需明确各阶段、各环节的对接责任,建立“专人对接、分层沟通、快速响应”的协作机制,消除部门壁垒,确保信息传递及时、问题处置高效,推动知识治理工作有序落地。
协作对接机制的核心的是明确责任分工与对接流程,具体要求包括:一是明确各阶段对接人,针对知识治理的准备、治理、测试、优化各阶段,分别指定对应的执行对接人、质量对接人、问题反馈对接人,明确对接人的岗位职责、工作权限与沟通范围,确保各环节工作有人负责、有人对接;二是建立分层沟通机制,针对日常协作中的常规问题,由对接人直接沟通解决;针对复杂问题、跨部门协调问题,建立专项沟通会议制度,定期汇总问题、研讨解决方案,确保问题及时闭环;三是建立快速响应机制,明确问题反馈、处置的时限要求,对接人需在规定时间内响应业务需求、反馈治理进度、处置存在问题,避免因沟通不畅、响应滞后导致治理工作延误,提升协作效率与满意度。
业务部门为治理工作提供场景导向与内容支撑,保障知识治理的实用性与业务适配性;专项治理团队提供技术支撑与流程管控,保障治理工作的标准化与高效性。整个知识治理流程遵循“闭环管理”原则,划分为准备、治理、测试、优化四大核心阶段,各阶段明确界定参与主体、核心工作内容、实施标准与时间规划,形成“梳理—治理—验证—迭代”的全生命周期闭环,确保知识治理工作有序推进、成效可控。
(一)准备阶段:夯实基础,共识方案
准备阶段是知识治理工作的前提与基础,核心目标是完成待治理知识资产的初步梳理、摸底,制定科学可行的治理方案,实现业务部门与治理团队的认知统一、目标统一、方案统一,为后续治理工作筑牢基础。本阶段由业务部门与专项治理团队协同推进,明确分工、高效联动。
业务部门作为知识的产生者与使用者,核心职责是提供真实、完整的待治理知识资源,具体包括:全面梳理本部门内待入库的各类知识文档,涵盖制度文件、操作规范、业务案例、专家经验等,完成文档的初步分类与筛选,剔除无效、过期、重复的内容;明确各类知识的管理要求,包括访问权限分级、使用范围、更新频率、责任主体等,确保知识治理与业务实际需求精准匹配。
专项治理团队作为流程主导者与技术支撑者,核心职责是开展知识资产摸底与治理方案设计,具体包括:对业务部门提交的待治理文档进行预处理,全面检查文档类型、格式、内容完整性与规范性,排查文档中的无效信息、敏感内容;依据文档的格式复杂度、内容专业性、关联度等特征,对治理难度进行分级,划分为简单、中等、困难三个等级,建立治理难度分级标准与评估台账;针对治理难度较高的文档(如非结构化程度高、专业术语密集、逻辑复杂的文档),制定替代解决方案,包括人工萃取、分拆治理、协同标注等;最终组织业务部门开展方案评审,就治理范围、难度分级、实施路径、时间节点、质量标准等核心内容达成共识,形成正式的治理方案与详细的实施计划,明确各阶段工作任务、责任主体与交付物,确保治理工作有序推进。
(二)治理阶段:技术处理,标准化落地
治理阶段是知识治理的核心环节,核心目标是通过标准化、专业化的技术处理,实现知识资产的结构化、规范化、可复用化,确保知识能够被大语言模型高效识别、精准调用。本阶段由专项治理团队主导实施,业务部门提供专业支撑,围绕十余项核心技术处理环节开展循环迭代,推动知识治理成果标准化入库。
本阶段核心工作内容围绕知识的“清洗—结构化—标签化—入库—适配”展开,具体包括:
- 文档预处理:针对PDF、Word、Excel、图片等各类非结构化、半结构化文档,开展清洗、格式统一与分块处理,剔除冗余信息、乱码、重复内容,统一文档格式与编码标准,确保文档内容的可读性与规范性;
- 知识体系搭建:结合企业业务领域划分与知识分类标准,搭建标准化的知识目录体系与知识库架构,明确各知识模块的层级关系、分类规则,完成各类文档的分类上传,实现知识的有序归档;
- 知识切片与结构化:通过智能识别技术,精准提取文档中的文本、表格、图片等核心元素,按照“单个切片对应完整知识点”的原则,对知识进行精细化切片,确保切片内容的完整性、独立性与逻辑性;
- 知识标签与问答对构建:为每个知识切片补充标准化的元数据标签,包括业务领域、知识类型、关键词、更新时间、责任主体等,提升知识检索效率;根据业务场景需求,按需创建标准化问答对,明确问题表述与精准应答,适配大语言模型的问答交互需求;
- 权限配置与质量校验:依据业务部门明确的权限管理要求,按用户角色、业务岗位分级配置知识库访问权限,实现知识的安全可控;开展知识命中测试与知识库质量校验,排查识别错误、知识切片错误、标签偏差等问题,确保知识质量符合预设标准;
- 模型适配优化:接入企业现有工作流/应用,配置知识检索参数与大语言模型推理参数,结合具体业务场景设计、优化提示词模板,确保知识治理成果能够精准适配大语言模型的使用需求,实现知识的高效调用与精准输出。
(三)测试阶段:验证效果,迭代优化
测试阶段是检验知识治理成效、发现问题、优化提升的关键环节,核心目标是通过贴合实际业务场景的测试,验证知识治理成果的实用性与准确性,确保问答准确率达到预设目标,为知识治理成果的正式上线奠定基础。本阶段由业务部门与专项治理团队共同参与,分工协作、闭环迭代。
业务部门作为业务场景的核心使用者,主导测试工作的场景适配性,具体职责包括:结合日常业务痛点、高频咨询问题、核心业务需求,准备贴合实际的测试问题集,优先采用业务端专业测试集,确保测试样例的专业性、全面性与代表性,能够精准暴露知识治理过程中存在的问题;组织业务骨干参与人工测试,通过点赞、点踩、人工评价等方式,对模型应答效果进行反馈,明确指出回答偏差、知识点缺失、表述不专业等问题,为优化工作提供方向。
专项治理团队主导测试实施与问题优化,具体职责包括:搭建自动化测试框架,执行大规模自动化测试,统计问答准确率、知识命中 rate、响应速度等核心指标;对测试结果进行深度分析,定位问题根源,区分是知识切片不完整、知识缺失、表述歧义、提示词设计不合理,还是模型参数配置不当等原因;针对发现的问题,制定针对性优化方案,调整提示词模板、完善知识切片、优化模型参数,完成优化后再次开展测试;最终输出完整的测试报告,明确测试结果、存在问题、优化措施及优化效果。若测试结果未达到预设的问答准确率目标,则回溯至治理阶段,重新开展人工治理与优化,直至测试结果符合要求,形成“测试—分析—优化—复测”的闭环。
(四)优化阶段:持续运营,长效保障
知识治理并非一次性工作,而是一项长期的运营优化工程,核心目标是确保企业知识库能够持续可用、安全可控、不断迭代,始终适配企业业务发展与AI应用升级的需求。本阶段由专项治理团队负责搭建长效运营体系,业务部门配合开展知识更新与反馈,实现知识治理成果的持续优化与价值最大化。
本阶段重点工作内容围绕知识的“迭代—监控—回流—运营”展开,具体包括:
- 建立知识迭代机制:结合企业业务更新、制度修订、技术升级等情况,制定定期知识更新计划,明确更新频率、责任主体与审核流程;针对知识库中的过期知识、无效知识,提醒业务部门补充相关知识,确保知识内容的时效性与完整性;
- 开展全流程质量监控:搭建知识库质量监控体系,监测大语言模型的问答准确率、知识命中 rate、用户反馈满意度等核心指标;定期开展人工审核,重点排查敏感知识、错误知识、违规内容,确保知识的准确性与合规性;建立异常预警机制,当核心指标出现异常波动时,及时触发预警并开展排查优化;
- 推动知识回流沉淀:建立优质问答对回流机制,将用户咨询过程中产生的优质问答、业务专家补充的专业知识、测试过程中优化的知识点,及时沉淀至知识库,丰富知识体系,反哺知识治理成果,提升知识的覆盖面与实用性;
- 搭建可视化运营看板:整合知识覆盖率、问答准确率、知识更新频率、用户访问量等核心运营指标,搭建可视化运营监控看板,实现运营数据的实时展示、动态跟踪与趋势分析,为治理优化与决策调整提供数据支撑;
- 强化用户引导与培训:针对用户提问不规范、表述模糊导致的问答效果不佳等问题,制定用户引导方案,通过示例问题、提问模板等形式,引导用户精准提问;开展用户培训,讲解知识库的使用方法、提问技巧,提升用户对知识治理成果的使用效率,最大化发挥知识价值。
三、知识治理实操落地要点
知识治理的实操落地是连接理论方案与实际价值的核心环节,需围绕知识库运维、多类型文件治理、知识切片优化、问答效果调优等关键场景,遵循标准化、精细化、适配性原则,明确实操规范、优化操作方法,确保知识治理成果可落地、可复用、可优化,切实提升知识资产质量与AI应用效能。本章节重点梳理各核心场景的实操落地要点,为企业知识治理实操工作提供明确指引。
(一)知识库基础维护
知识库作为企业知识资产的核心载体,其基础维护的规范性直接决定知识治理的效率与知识使用的便捷性。企业知识库支持分级管理模式,实操核心是通过科学的结构规划、精准的权限配置与标准化模板应用,实现知识资产的有序管理、安全可控与高效治理。
具体实操要点包括:
一是合理规划知识目录与知识库架构,结合企业业务领域、组织架构与知识类型,搭建层级清晰、逻辑严谨的知识目录体系,根据管理权限与访问权限的差异化要求,对各类知识内容进行分类归集,确保知识检索与管理的便捷性;
二是精细化配置权限体系,明确区分管理权限与访问权限,根据协作者的岗位职责、工作需求,按需分配知识库维护权限,同时设置公开、内部、私有等分级访问权限,严格控制知识访问范围,确保不同用户仅能操作与访问其权限范围内的知识内容,保障知识资产的安全性与保密性;
三是推行标准化模板应用,针对同类结构、同类型别的知识文档,创建标准化的知识治理模板,将文档格式、标签配置、权限设置等标准化信息保存为模板,在上传相似结构文档时直接调用模板,减少重复配置工作,显著提升知识治理的标准化水平与实操效率。

(二)多类型文件上传治理
企业知识载体呈现多元化特征,涵盖本地文档、表格、问答集、Web站点等多种类型,不同类型文件的结构、内容特征存在显著差异。实操核心原则是“适配文件特征、保障识别精度、提升检索效能”,需根据各类文件的具体特征,选择针对性的上传方式与治理策略,确保知识能够被精准识别、高效检索与合理利用。
- 本地非结构化文档:针对包含图片、表格、公式等多元元素的本地非结构化文档(如PDF、Word、扫描件等),实操要点为:优先选择带版面识别功能的上传方式,确保文档中的非文本元素(图片、表格、公式)能够被精准识别;根据图片内容类型,合理选择OCR(光学字符识别)、图像理解等适配的识别方式,提升识别准确率;分段处理时可灵活选择自动分段或自定义分段模式,核心是保障知识语义的完整性,避免因分段不当导致知识点断裂;针对英文文档与中文文档的语言差异,可分别设置不同的分段最大长度,适配不同语言的语义表达习惯,进一步提升分段合理性。
- 表格:表格类文件的治理需结合实际业务需求,区分两种核心场景开展实操:若业务场景需要智能体能够完整回答表格全部内容、展示表格整体逻辑,建议将表格转为PDF格式,以非结构化文档形式入库,确保表格的版面结构与内容完整性;若仅需智能体针对表格中的单行数据进行精准应答,可直接以表格类型入库,将每行数据单独保存为独立知识切片,提升单行数据的检索效率与应答精准度。
- 问答集:问答集作为支撑智能问答场景的核心知识载体,实操中可通过三种标准化方式实现入库,兼顾效率与灵活性:一是CSV文件批量上传,适用于问答数量较多、格式统一的场景,通过批量导入减少人工录入工作量;二是手动创建,适用于少量、个性化的问答对录入,可精准控制问答内容的准确性;三是接口同步,通过对接企业现有业务系统接口,实现问答集的自动同步入库,确保问答内容与业务系统实时联动、同步更新。
- Web站点:针对外部Web站点中的知识资源,实操要点为:准确填写目标Web站点链接,根据业务需求设置合理的自动刷新频率,系统完成Web站点数据提取后,自动同步入库,实现外部知识资源的实时更新,确保企业知识体系能够及时吸纳外部优质知识,丰富知识覆盖面。

(三)知识切片精细化治理
知识切片是知识检索、模型调用与智能应答的基本单元,其质量直接决定AI应用的应答精度与知识利用效率。实操核心是实现知识切片的精细化管理,确保每个切片的知识内容完整、语义清晰、精准无误,为AI应用提供高质量的知识单元支撑。
具体实操要点包括:
一是切片查看与人工调整,针对非结构化文档自动分段后的切片,需全面查看全部分段内容,开展人工校验与调整,将同一主题、同一逻辑的知识内容归置于同一片段中,修正识别错误、分段过细、分段不当等问题,确保切片语义的完整性与逻辑性;
二是切片编辑优化,支持对单个切片进行富文本或Markdown格式的编辑,可补充完善切片内容、修正表述偏差、优化格式规范,提升切片的可读性与规范性;
三是切片生命周期管理,对无用、过期、重复的切片进行关闭或删除处理,同时可根据知识补充需求新增切片,填补知识缺口,确保知识库中所有切片均具备实用价值,实现知识切片的动态优化与精准管理。

(四)问答调优方法
问答调优是提升智能体应答准确率、优化AI应用效果的关键实操环节,核心逻辑是“精准定位问题根源、针对性实施优化措施”,通过“问题定位—问题解决”的闭环流程,实现问答效果的持续迭代提升,确保智能体能够精准理解用户需求、输出专业准确的应答内容。
- 问题定位:当发现智能体应答不准确时,需通过标准化流程精准定位问题根源,实操要点为:通过应用调试功能或查看系统日志,获取详细的调试信息,重点检查知识检索的召回片段;若标准应答内容已被成功召回,说明问题根源为模型理解偏差,即模型未正确解读召回知识与用户问题的关联关系;若标准应答内容未被召回,且知识库中已包含相关知识,则需通过知识库命中测试,检查标准应答所在知识切片的排序情况,定位切片排序过低、检索未命中等问题根源。
- 问题解决:针对不同的问题根源,采取针对性的优化措施,确保问答准确率稳步提升,核心实操方法包括:一是调整模型参数,优化模型推理逻辑,提升模型对知识切片与用户问题的理解匹配度;二是设计并优化对话前提示词,通过标准化、场景化的提示词引导模型精准调用知识,减少理解偏差;三是优化知识切片,修正切片内容错误、补充切片元数据标签,提升切片的检索命中率;四是配置RAG(检索增强生成)检索参数,优化检索策略,确保相关知识能够被精准召回;五是设置租户级记忆,强化大语言模型对特定场景、特定知识的记忆能力,提升应答连贯性;六是为文档添加标准化Meta信息,丰富知识的描述维度,帮助模型更精准地识别知识与用户问题的关联,全方位提升问答效果。
四、总结
综上,企业知识治理是一项系统性、长期性、持续性的战略工程,其核心逻辑是围绕企业核心业务需求,依托科学的治理方法论、标准化的实施流程、精细化的实操手段与长效化的运营保障机制,将分散于企业各系统、各环节的碎片化知识,转化为标准化、结构化、可复用的高质量知识资产。
知识治理的价值,最终体现在对企业AI项目的支撑与赋能上。唯有构建完善的长效运营与保障体系,持续推进知识治理的标准化、规范化、常态化,才能为企业AI项目提供稳定、准确、高效的知识支撑,破解AI应用落地过程中的知识瓶颈,推动AI技术与企业业务深度融合,让企业AI项目真正落地见效、规模化推广,充分释放人工智能技术的商业价值,为企业数字化转型与高质量发展注入核心动力。
五、常见问题解答(F&Q)
- 问:导出的知识库,在导入时为什么需要重新知识治理?
答:导出的知识库仅是原文档的下载包,不包含切片数据。重新导入等同于上传新文档,因此需要平台重新进行知识治理操作。
- 问:上传文件时,发现无法选择元数据,是什么原因?
答:平台要求同一知识库的元数据配置保持一致。若该知识库已设置元数据,后续上传的文档将无法单独调整。如需修改,请在知识库 的“基础设置”中统一调整。