企业知识库
企业知识库是组织内部的一个集中存储和管理信息、知识的工具,帮助企业有效地组织、存储、检索和分享各种类型的信息和知识资源,为企业特定场景AI应用提供了基础。通过版面识别、文件切片、向量化技术、语义检索等,可以有效地处理和利用企业内部的大量数据,不仅能够提高大模型在特定任务上的表现,还能大幅降低计算资源的消耗,提升数据处理的效率和准确性。
在企业应用中,通过挂载私有知识库来扩充大模型的知识储备(挂载是通过检索增强生成技术/RAG实现的,借助于在大模型输入时携带相关的私有知识上下文,让大模型理解、总结、整理并回答用户问题,使得大型语言模型在实际应用中变得更加实用和可信),以提供基于自然语言的、对话式的企业私有知识访问,解决通用大模型在面向企业应用时领域知识不足导致的幻觉问题。挂载企业知识库后,将企业知识库文档和数据,通过向量特征提取(embedding)后,存储到向量数据库(vector database),应用LLM大语言模型与向量化的知识库检索和比对知识,构建智能应用。您可以在应用-我的应用-应用编排时选择挂载企业知识库,便于AI应用基于知识库文件进行问答(详见:创建AI应用)。
企业知识库-我的知识库,展示同一租户下的所有用户创建的知识库/知识库目录,及其关联的应用数量。用户仅可维护自己有维护权限的知识库/知识库目录(包括自己创建的知识库/目录、以及别人授权的知识库/目录)。点击左上角“创建知识库”按钮,可以创建新的企业知识库(支持两种方式:①创建平台知识库;②同步外部数据源;),创建成功的企业知识库,会在企业知识库-我的知识库展示。
此外,用户可在日志监控模块的应用日志监控详情页查看对话详细内容,结合用户反馈信息,通过 “录入 QA” ,从对话日志中选取真实问答,编辑校正后回流入库(详见:应用日志监控),快速补充纠偏,提升准确率。
创建知识库
创建平台知识库
原理简介
通过“创建平台知识库”创建企业知识库、并进行知识治理的核心原理如下:
版面识别:核心在于对文档版面的精准解析,通过先进的算法/模型,版面识别技术可以准确地识别文档中的文字、图片、表格等元素,并将解析出的元素和关键信息进行结构化存储和展示。
分段设置:即对知识库的知识进行切片,可选择自动分段或自定义分段(自定义分段标识符,并支持按需设置规则参数)。
- 自动分段与清洗:
- 本地非结构化文档:智能识别文档内容,在保证文档结构与语义完整性的前提下进行分段,单个分段不超过1024个字符。
- 表格:采用\n分段模式,每行数据会单独保存为一个切片。
- 问答集:采用Q&A分段模式。
- Web站点:智能识别文档内容,在保证文档结构与语义完整性的前提下进行分段,单个分段不超过1024个字符。
- 自定义:自定义分段规则、分段长度以及预处理规则等参数,适用于非结构化文档(含Web站点)分段设置。
- 自动分段:在自动分段基础上,可设置分段最大长度(支持长度范围:200-10000整数)。
- 换行:在自动分段基础上,使用换行符对原文进行切分,适用于纯文本内容。对执行版面的文件不生效,仍会按版面分割。
- 双换行:在自动分段的基础上,使用双换行符对原文进行强制切分。推荐设置较大的分段最大长度,以保证分段内容完整。对执行版面的文件不生效,仍会按版面分割。
- 自定义分隔符:在自动分段的基础上,用户可以自行定义分段标识符,并设置分段最大长度。分隔符本身仅作为切分信号,不会保留在最终的分段内容中,示例:===******===,===分隔符===。对执行版面的文件不生效,仍会按版面分割。
- 分段参数说明:
- 关联文件名:在分段开头自动添加文件名引用。
- 关联标题和子标题:为分段补充其上级标题与子标题。
- 元数据提取:非必选项,用户可以按需选择。
- 上下文窗口:切片向量化时,每个切片的相邻切片的内容被封装在切片的meta_data中。检索和召回时,根据命中文档的meta_data,可以获取该段落的上下文信息。
- 摘要:利用大模型文本摘要技术,将切片文本压缩成简洁、全面的摘要,从而提升信息的密度。
- 标签:给切片文本打上特征标签进行关联,基于文本精准匹配的算法,非常适合关键词检索。
- 索引配置:
- 索引模式:Embedding过程是将非结构化的数据编码为向量,将企业的知识和信息转化为计算机能够理解的向量形式,就像将一本书的内容编码成图书馆的索引卡片,使得信息可以被快速检索。
- bge-m3:采用向量引擎与关键词混合索引,嵌入速度快、召回广泛,不消耗 Token,适合快速粗排。
- Qwen3-Embedding-0.6B:提供更高语义精度,嵌入速度较慢,检索精度较好,不消耗 Token,适合精确匹配场景。
- text-embedding-ada-002:调用 Azure OpenAI 的嵌入接口进行处理,以在用户查询时提供更高的准确度。
- 向量数据库:主要作用是存储和处理向量数据,并提供高效的向量检索功能。
- Milvus:涵盖如Faiss、Annoy和hnswlib等主流第三方索引库,性能高,支持对海量向量数据进行相似搜索,支持使用Kubernetes部署,支持在云上扩展。例如,如果需要一个易于扩展、稳定高效且支持多种索引方式的向量数据库,那么Milvus可能是一个更好的选择。
- Oracle:使用Oracle AI Vector Search对任意数据进行向量存储和高效的语义相似性检索,不必引入专门的向量数据库,支持Oracle 23ai及以上版本。
操作指南
开始:进入“数据-企业知识库”,点击左上角的“创建知识库"按钮,进入”创建知识库“弹窗页面。
填写企业知识库信息:填写知识库名称及描述,点击“确认”按钮,开始创建企业知识库。
添加治理文件:填写完企业知识库信息并点击“确认”后,进入知识库详情页面,点击“添加治理文件”即可添加文件、并进行知识治理。(注:通过“添加文件”入口添加文件,仅可进行文本分段并清洗,无法知识治理)
企业知识库支持添加4种类型的文件:本地非结构化文档、本地表格、本地问答集、同步自Web站点。
上传本地非结构化文档:通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件。
上传表格:通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件。
上传本地问答集:您可以通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件(可下载模板后,按照模板编辑后再上传);也可以点击“同步问答集API”,通过API同步的方式导入(问答集API支持同步“相似问题”);还可以直接点击“创建一个空问答集”,填写问答集名称后点击“确定”完成创建(支持创建多个),便于后续在空问答集中直接添加分段信息。
同步自Web站点:需填写网页链接、设置自动刷新频率、并进行数据提取,方可完成此类型的文件添加。
知识治理:添加的文件会在“添加文件”的列表进行展示,此时,可以选择:①点击“下一步”逐步完成知识治理相关设置;②点击“添加模板”选择知识治理模板实现自动化批量处理。
逐步设置知识治理
①版面识别:添加文件后点击“下一步”,即进入版面识别页面,页面左侧展示用户上传的原文档(PDF、DOC、DOCX、PPT、PPTX、PNG、JPG),右侧展示通过模型/工具识别出来的各类版面元素(标题、文字、图片、表格、公式等,将这些元素排版并转换为多模态Markdown格式)。用户批量添加文件时,只预览加载识别出来的文档,支持用户通过切换文件查看不同文件的版面识别原文档和识别出来的文档。如用户单次上传的文件中暂无PDF、DOC、DOCX、PPT、PPTX、PNG、JPG文件,则跳过版面识别步骤,直接进入分段设置。用户可以按需切换选择合适的版面识别模型。
②分段设置:版面识别后点击“下一步”,即进入分段设置页面,页面左侧展示不同类型文档对应的分段设置规则(非结构化文档分段设置、表格分段设置、问答对分段设置),支持用户按需选择合适的分段策略,并在右侧工作区预览展示以分段方式切片的文档内容。
③元数据提取:分段设置后点击“下一步”,即进入元数据提取页面,页面左侧支持用户按需选择元数据提取信息,并在右侧展示分段及元数据预览。
④索引配置:元数据提取后点击“下一步”,即进入索引配置页面,用户可以按需选择索引方式和向量数据库。
完成索引配置后,直接点击“完成”,添加的文件将出现在知识库文件列表、并进行embedding处理。
在此过程中的相关知识治理设置,支持一键保存为知识治理模板。点击“保存为知识治理模板”按钮,将本次配置操作保存,形成一套知识治理模板,保存后在企业知识库-知识治理模板同步展示。
添加知识治理模板
添加文件后点击“添加模板”,用户可以选择合适的知识治理模板(选择范围为企业知识库-知识治理模板中、且与该知识库基础设置不冲突的模板),选择模板后点击“完成”,这些文件将出现在知识库文件列表、并按照模板自动化处理。
手动治理:对于知识库文件列表中通过“添加治理文件”添加的文件,除表格、问答集之外的非结构化文档有“知识治理”按钮,点击“知识治理”按钮,支持用户手动调整版面识别和分段设置的效果(PDF、DOC、DOCX、PPT、PPTX、PNG、JPG文件知识治理包含版面识别、分段设置;TXT、HTML、MARKDOWN、MP4、MP3、AVI、WMV文件知识治理仅可调整分段设置)。
①版面识别:通过“添加治理文件”添加的PDF、DOC、DOCX、PPT、PPTX、PNG、JPG支持手动调整版面识别结果,点击“知识治理”按钮即可调整版面识别结果。左侧工作区为对应的原文件,右侧工作区为识别出来的文档,用户可以通过选中已解析出来的色块,进行拖拉拽进行顺序调整,也可以点击“编辑”进行内容修改,编辑后点击框外即为保存(如识别到用户修改内容较多,系统将会进行提示确认)。对于图片、表格、公式,右侧工作区默认展示其原本样式,可以点击“显示OCR内容”显示所有图片/表格/公式的OCR文字,也可以将鼠标悬停至某个图片/表格/公式、点击“OCR内容”显示其OCR文字,并支持编辑修改。
②分段设置:对于PDF、DOC、DOCX、PPT、PPTX、PNG、JPG,通过“知识治理”按钮,在版面识别界面点击“下一步”即可手动调整分段设置结果。对于TXT、HTML、MARKDOWN、MP4、MP3、AVI、WMV,通过“知识治理”按钮,直接进入分段设置。左侧仅展示对应文档的分段设置数据,支持用户修改分段设置,右侧工作区展示以对应分段方式切片的文件预览。分段设置调整完成后,点击“保存并处理”即完成手动治理。
编辑修改:您可以在知识库详情页,对该知识库进行文件添加、修改、删除、设置等操作,也可以查看该知识库的变更记录。
如需为某知识库添加更多的文件,在知识库详情页点击“添加治理文件”进行相关操作即可。企业知识库支持 “查重” 功能,用户上传文件后,点击 “查重” 按钮就能对当前上传文件与库内已有文档进行相似度查询,同时可根据需求自定义相似度阈值。若需更新文档,可勾选“是否替换”直接替换原文档。
在知识库详情页,您可以对知识库中的文件进行重命名,也可以进行文件预览、可用/禁用设置、知识治理/文本分段并清洗设置、分段查看、文件下载、文件删除等操作。
查看分段:对于本地非结构化文档可以点击“查看分段”按钮,查看文件全部分段内容并进行分段调整。
用户可以针对某一个分段进行编辑,点击 “编辑” 按钮进入分段详情页,弹窗中可自由切换富文本或 Markdown 格式编辑内容,编辑完成后点击 “保存” 按钮即可完成操作。同时,点击该分段右侧的对应按钮可取消当前分段,点击 “删除” 按钮则能直接删除该分段。
在分段信息页,支持添加单个分段。点击右上角“添加分段” 按钮后即可进入分段详情编辑界面,完成编辑并点击 “保存” 按钮,即可成功添加分段。
对于问答集类型的文件(含空问答集),点击“查看分段”图标,进入分段信息页面,点击“添加分段”即可进行分段添加,支持为一个Answer同时对应零个或多个Question,并支持在Answer中添加图片、视频等富文本信息。对于已添加的分段,支持进行分段编辑、启用/禁用设置、分段移动、分段删除等操作。
此外,如该知识库-基础设置-元数据-勾选“标签”,则支持对非结构化文档和问答集的分段进行“批量打标”。
同步外部数据源
开始:进入“数据-企业知识库”,点击左上角的“创建企业知识库"按钮,进入”创建企业知识库“弹窗页面。
选择知识来源:选择已有的知识来源,或者点击“添加知识来源”绑定新的知识来源。
选择知识库&设置:选择要添加的知识库,并进行知识库设置,点击“确认”即完成了同步外部数据源,并在企业知识库列表中展示。
编辑修改:点击通过“同步外部数据源”添加的知识库,可以查看该知识库中的文件、也可以查看该知识库的变更记录,并支持进行启用/禁用/分段修改等操作。除支持对单个文件进行同步外,也可以一键进行全库同步。
命中测试
在知识库详情-命中测试,可以输入查询文本进行命中效果测试。点击某个命中段落,可以查看该分段的详情。支持进行召回设置,按需切换合适的模型。
基础设置
您可以在知识库详情-基础设置中,修改知识库名称、知识库描述、元数据、索引模式、向量数据库,修改后所有该知识库的文件都会按此设置执行。
权限设置
您可以在知识库详情-权限设置中设置使用权限,支持设置公开、内部、私有三种权限,按需授权可访问的用户即可。配置知识库权限后,AI仅对拥有权限的角色回答与该知识库相关的问题,若角色未获得相应权限,AI将不会提供相关回答。
管理协作者
对于您创建的知识库,您可以在知识库详情-管理协作者中设置协作者权限。您可按需邀请平台其他用户作为协作者,仅创建人和协作者拥有当前知识库的维护权限,拥有协作者权限的用户可执行除“删除知识库”之外的所有操作,但不可管理其他协作者。
创建知识目录
知识目录是企业知识库的集合,是一个结构化的知识组织方式,按照特定的主题或分类将知识进行整理和归类,使得用户可以通过知识目录更加便捷地查找和获取所需的知识资源。
如您的知识资源较多或覆盖了多种主题,您可以先在企业知识库-我的知识库,创建知识目录,之后在此知识目录下创建知识库。创建成功的知识目录,会在企业知识库-我的知识库展示。
创建知识目录
开始:进入“数据-企业知识库”,点击左上角的“创建知识目录"按钮,进入”创建知识目录“弹窗页面。
填写知识目录信息:填写知识目录名称及描述,点击“确认”按钮,开始创建知识目录。
创建企业知识库:填写完知识目录信息并点击“确认”后,进入知识库目录详情页面,点击“创建企业知识库”即可(操作流程同直接创建企业知识库)。您可以通过右上角的“变更记录”,查看该知识目录的变更历史。
基础设置
在知识库目录详情页,您可以点击“基础设置”Tab,对知识目录的名称和描述进行修改。
权限设置
您可以在知识库目录详情-权限设置中设置使用权限,支持设置公开、内部、私有三种权限,按需授权可访问的用户即可。配置权限后,AI仅对拥有权限的角色回答与该知识库目录相关的问题,若角色未获得相应权限,AI将不会提供相关回答。
管理协作者
对于您创建的知识目录,您可以在知识目录详情-管理协作者中设置协作者权限。您可按需邀请平台其他用户作为协作者,仅创建人和协作者拥有当前知识目录的维护权限,拥有协作者权限的用户可执行除“删除知识库”之外的所有操作,但不可管理其他协作者。
知识库目录配置的协作者会继承给此目录下的所有知识库,从知识库目录继承的协作者不能在知识库层级删除。
导入知识库
在数据-企业知识库,点击左上角的“导入知识库”按钮,可以直接导入已有的知识库压缩包文件、并按照其知识库配置执行治理,导入后的知识库会在“我的知识库”进行展示,便于您直接使用或在其基础上进行调整。对于导入的知识库,其修改、设置、命中测试同创建的企业知识库。
访问API
在数据-企业知识库,点击“访问 API”Tab 页,可查看企业知识库的 API 访问方式。企业知识库访问 API 支持授权密钥管理,需要使用 API 密钥才能调用 API(点击“API 密钥”按钮,创建 API 密钥)。
知识治理模板
数据-企业知识库-知识治理模板展示所有可供选择的知识治理模板,包括神州问学平台预置的、以及您自己创建的知识治理模板,供用户在企业知识库-添加治理文件-选择知识治理模板使用。
体验知识治理模板
点击知识治理模板列表中的某个知识治理模板,可以查看模板配置详情,可以按需进行编辑修改,也可以点击“去体验”体验该模板的效果,如在体验过程中修改了配置,系统会进行提示,便于用户按需更新模板。
创建知识治理模板
点击左上角“创建知识治理模板”按钮,可以按需创建知识治理模板,并可以点击“去体验”体验该新增模板的效果(同已有模板体验),点击“保存”即完成模板创建。
知识来源
问学支持接入并整合来自外部的多样化知识数据资源,帮助企业全面管理企业知识。问学目前支持通过飞书应用凭证,实现从飞书同步知识库内容。
点击“配置”后,填写飞书应用凭证信息,即可绑定飞书应用,并在知识来源配置中显示“已绑定”。
新绑定的飞书应用,会出现在“创建企业知识库-同步外部数据源”的列表中,便于按需选择同步。