企业知识库
企业知识库是组织内部的一个集中存储和管理信息、知识的工具,帮助企业有效地组织、存储、检索和分享各种类型的信息和知识资源,为企业特定场景 AI 应用提供了基础。通过版面识别、文件切片、向量化技术、语义检索等,可以有效地处理和利用企业内部的大量数据,不仅能够提高大模型在特定任务上的表现,还能大幅降低计算资源的消耗,提升数据处理的效率和准确性。
在企业应用中,通过挂载私有知识库来扩充大模型的知识储备(挂载是通过检索增强生成技术/RAG 实现的,借助于在大模型输入时携带相关的私有知识上下文,让大模型理解、总结、整理并回答用户问题,使得大型语言模型在实际应用中变得更加实用和可信),以提供基于自然语言的、对话式的企业私有知识访问,解决通用大模型在面向企业应用时领域知识不足导致的幻觉问题。挂载企业知识库后,将企业知识库文档和数据,通过向量特征提取(embedding)后,存储到向量数据库(vector database),应用 LLM 大语言模型与向量化的知识库检索和比对知识,构建智能应用。您可以在我的工作台-AI 应用-应用编排时选择挂载企业知识库,便于 AI 应用基于知识库文件进行问答(详见:创建 AI 应用)。
我的工作台-企业知识库展示所有您创建的知识库和知识目录,及其关联的应用数量。点击右上角“创建企业知识库”按钮,可以创建新的企业知识库(支持两种方式:① 创建平台知识库;② 同步外部数据源;),创建成功的企业知识库,会在我的工作台-企业知识库展示。
创建企业知识库
创建平台知识库
原理简介
通过“创建平台知识库”创建企业知识库、并进行知识治理的核心原理如下:
版面识别:核心在于对文档版面的精准解析,通过先进的算法/模型,版面识别技术可以准确地识别文档中的文字、图片、表格等元素,并将解析出的元素和关键信息进行结构化存储和展示 。
分段设置:即对知识库的知识进行切片,可选择自动分段或自定义分段(自由选择分片器类型,并支持按需设置规则参数)。
- 自动分段与清洗:
- 本地非结构化文档:采用递归字符文本分割器,分段最大长度 500,分段重合字符数 10。
- 表格:采用\n 分段模式,每行数据会单独保存为一个切片。
- 问答集:采用 Q&A 分段模式。
- Web 站点:采用递归字符文本分割器,分段最大长度 500,分段重合字符数 10。
- 自定义-ChineseRecursiveTextSplitter:中文递归字符文本分片器,在 RecursiveCharacterTextSplitter 的基础上做了中文标点符号的识别,首先会将文本按照"\n\n"进行切分,如果生成的块过大则依次按照"\n"、"。|!|?"、".\s|!\s|?\s"、";|;\s"、",|,\s"进行切分,若最后的文本还是过大则按照设置的 chunk_size 进行截断。
- 自定义-RecursiveCharacterTextSplitter:递归字符文本分片器,常常被推荐用于拆分普通文本,基于一个字符列表(这些字符作为文本中的分隔符或“分割点”使用),尝试通过依次按照列表中列出的顺序(默认的字符列表是 ["\n\n", "\n", " ", ""])进行拆分来创建文本块,直到生成的块达到可管理的大小为止。首先尝试在每个双换行符 ("\n\n") 处拆分文本,这通常用于分隔文本中的段落;如果生成的块过大,它接着尝试在每个换行符 ("\n") 处拆分,这通常用于分隔句子;如果块仍然过大,它最后尝试在每个空格 (" ") 处拆分,这用于分隔单词;如果块仍然过大,它会在每个字符 ("") 处拆分。这种方法尽量保留了语义上下文,通过保持段落、句子和单词的完整性,对于许多自然语言处理任务是有益的。
- 自定义-MarkdownTextSplitter:Markdown 文档分片器,根据 Markdown 文件的标题结构来对文本进行分块,这种方法可以确保具有相同上下文的文本被分组在一起,从而在 Embedding 等阶段获得更全面的向量表示。
- 自定义-TableOfContentsTitleSplitter:目录标题分片器,将文本按照目录结构进行切分,能够将长文档按照目录标题的出现位置,将文档分割成多个部分,每个部分包含从第一次出现目录标题到下一次相同目录标题出现之间的内容,这种分割方式保留了文档的结构,使得分割后的各部分保持原有的章节或主题结构。
- 元数据提取:非必选项,用户可以按需选择。
- 上下文窗口:切片向量化时,每个切片的相邻切片的内容被封装在切片的 meta_data 中。检索和召回时,根据命中文档的 meta_data,可以获取该段落的上下文信息。
- 摘要:利用大模型文本摘要技术,将切片文本压缩成简洁、全面的摘要,从而提升信息的密度。
- 标签:给切片文本打上特征标签进行关联,基于文本精准匹配的算法,非常适合关键词检索。
- 自动生成问题:自动生成与文本内容相关的问题。
- 索引配置:
- 索引方式:Embedding 过程是将非结构化的数据编码为向量,将企业的知识和信息转化为计算机能够理解的向量形式,就像将一本书的内容编码成图书馆的索引卡片,使得信息可以被快速检索。
- 高质量:调用微软|Azure-GPT-3.5 的嵌入接口进行处理(需要部署微软|Azure-GPT-3.5 模型,方可使用该索引方式),以在用户查询时提供更高的准确率。
- 经济:使用离线的向量引擎/关键词索引等方式,会对准确度有一定损耗。
- 向量数据库:主要作用是存储和处理向量数据,并提供高效的向量检索功能。
- Milvus:涵盖如 Faiss、Annoy 和 hnswlib 等主流第三方索引库,性能高,支持对海量向量数据进行相似搜索,支持使用 Kubernetes 部署,支持在云上扩展。例如,如果需要一个易于扩展、稳定高效且支持多种索引方式的向量数据库,那么 Milvus 可能是一个更好的选择。
- Faiss:一款适用于稠密向量匹配的开源库,支持 c++与 python 调用,支持多种向量检索方式,包括内积、欧氏距离等,同时支持精确检索与模糊搜索。
操作指南(创建平台知识库)
开始:进入“我的工作台-企业知识库”,点击右上角的“创建企业知识库"按钮,进入”创建企业知识库“弹窗页面。
填写企业知识库信息:填写知识库名称及描述,点击“确认”按钮,开始创建企业知识库。
添加治理文件:填写完企业知识库信息并点击“确认”后,进入知识库详情页面,点击“添加治理文件”即可添加文件、并进行知识治理。(注:通过“添加文件”入口添加文件,仅可进行文本分段并清洗,无法知识治理)
企业知识库支持添加 4 种类型的文件:本地非结构化文档、本地表格、本地问答集、同步自 Web 站点。
上传本地非结构化文档:通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件。
上传表格:通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件。
上传本地问答集:您可以通过拖拽文件或选择文件,上传符合格式和大小要求的知识库文件(可下载模板后,按照模板编辑后再上传);也可以点击“同步问答集 API”,通过 API 同步的方式导入;还可以直接点击“创建一个空问答集”,填写问答集名称后点击“确定”完成创建(支持创建多个),便于后续在空问答集中直接添加分段信息。
同步自 Web 站点:需填写网页链接、设置自动刷新频率、并进行数据提取,方可完成此类型的文件添加。
知识治理:添加的文件会在“添加文件”的列表进行展示,此时,可以选择:① 点击“下一步”逐步完成知识治理相关设置;② 点击“添加模板”选择知识治理模板实现自动化批量处理。
逐步设置知识治理
① 版面识别:添加文件后点击“下一步”,即进入版面识别页面,页面左侧展示用户上传的原文档(PDF、DOC、DOCX、PPT、PPTX、PNG、JPG),右侧展示通过模型/工具识别出来的各类版面元素(标题、文字、图片、表格、公式等,将这些元素排版并转换为多模态 Markdown 格式)。用户批量添加文件时,只预览加载识别出来的文档,支持用户通过切换文件查看不同文件的版面识别原文档和识别出来的文档。如用户单次上传的文件中暂无 PDF、DOC、DOCX、PPT、PPTX、PNG、JPG 文件,则跳过版面识别步骤,直接进入分段设置。用户可以按需切换选择合适的版面识别模型。
② 分段设置:版面识别后点击“下一步”,即进入分段设置页面,页面左侧展示不同类型文档对应的分段设置规则(非结构化文档分段设置、表格分段设置、问答对分段设置),支持用户按需选择合适的分段策略,并在右侧工作区预览展示以分段方式切片的 MD 文件。
③ 元数据提取:分段设置后点击“下一步”,即进入元数据提取页面,页面左侧支持用户按需选择元数据提取信息,并在右侧展示分段及元数据预览。
④ 索引配置:元数据提取后点击“下一步”,即进入索引配置页面,用户可以按需选择索引方式和向量数据库。
完成索引配置后,直接点击“完成”,添加的文件将出现在知识库文件列表、并开始 embedding 处理。
在此过程中的相关知识治理设置,支持一键保存为知识治理模板。点击“保存为知识治理模板”按钮,将本次配置操作保存,形成一套知识治理模板,保存后在企业知识库-知识治理模板同步展示。
添加知识治理模板
添加文件后点击“添加模板”,用户可以选择合适的知识治理模板(选择范围为企业知识库-知识治理模板中、且与该知识库基础设置不冲突的模板),选择模板后点击“完成”,这些文件将出现在知识库文件列表、并按照模板自动化处理。
手动治理:对于知识库文件列表中通过“添加治理文件”添加的文件,除表格、问答集之外的非结构化文档有“知识治理”按钮,点击“知识治理”按钮,支持用户手动调整版面识别和分段设置的效果(PDF、DOC、DOCX、PPT、PPTX、PNG、JPG 文件知识治理包含版面识别、分段设置;TXT、HTML、MARKDOWN、MP4、MP3、AVI、WMV 文件知识治理仅可调整分段设置)。
① 版面识别:通过“添加治理文件”添加的 PDF、DOC、DOCX、PPT、PPTX、PNG、JPG 支持手动调整版面识别结果,点击“知识治理”按钮即可调整版面识别结果。左侧工作区为对应的原文件,右侧工作区为识别出来的文档,用户可以通过选中已解析出来的色块,进行拖拉拽进行顺序调整,也可以点击“编辑”进行内容修改,编辑后点击框外即为保存(如识别到用户修改内容较多,系统将会进行提示确认)。对于图片、表格、公式,右侧工作区默认展示其原本样式,可以点击“显示 OCR 内容”显示所有图片/表格/公式的 OCR 文字,也可以将鼠标悬停至某个图片/表格/公式、点击“OCR 内容”显示其 OCR 文字,并支持编辑修改。
② 分段设置:对于 PDF、DOC、DOCX、PPT、PPTX、PNG、JPG,通过“知识治理”按钮,在版面识别界面点击“下一步”即可手动调整分段设置结果。对于 TXT、HTML、MARKDOWN、MP4、MP3、AVI、WMV,通过“知识治理”按钮,直接进入分段设置。左侧仅展示对应文档的分段设置数据,支持用户修改分段设置,右侧工作区展示以对应分段方式切片的 MD 文件,用户鼠标悬停至其中的某一个分段上时,出现“取消分段”按钮和“文本选择光标”,点击“取消分段”功能按钮可取消此单个分段,也可向左/向右拖动文本选择光标来调整分段;用户点击未高亮的文档内容时,出现“添加分段”按钮,点击“添加分段”按钮,则分段新增成功。分段设置调整完成后,点击“保存并治理”即完成手动治理。
编辑修改:您可以在知识库详情页,对知识库进行文件添加、修改、删除、设置等操作。
如需为某知识库添加更多的文件,在知识库详情页点击“添加治理文件”进行相关操作即可。您可以对知识库中的文件,进行文件预览、可用/禁用设置、知识治理/文本分段并清洗设置、分段查看、文件下载、文件删除等操作。
其中,对于问答集类型的文件(含空问答集),点击“查看分段”图标,进入分段信息页面,点击“添加分段”即可进行分段添加,并支持在 ANSWER 中添加图片、视频等富文本信息。对于已添加的分段,支持进行分段编辑、启用/禁用设置、分段移动、分段删除等操作。
同步外部数据源
开始:进入“我的工作台-企业知识库”,点击右上角的“创建企业知识库"按钮,进入”创建企业知识库“弹窗页面。
选择知识来源:选择已有的知识来源,或者点击“添加知识来源”绑定新的知识来源。
选择知识库&设置:选择要添加的知识库,并进行知识库设置,点击“确认”即完成了同步外部数据源,并在企业知识库列表中展示。
编辑修改:点击通过“同步外部数据源”添加的知识库,可以查看该知识库中的文件、并支持进行启用/禁用/分段修改等操作,除支持对单个文件进行同步外,也可以一键进行全库同步。
命中测试
在知识库详情-命中测试,可以输入查询文本进行命中效果测试。点击某个命中段落,可以查看该分段的详情。
基础设置
您可以在知识库详情-基础设置中,修改知识库名称、知识库描述、元数据、索引方式、向量数据库,修改后所有该知识库的文件都会按此设置执行。
权限设置
您可以在知识库详情-权限设置中设置使用权限,支持设置公开、内部、私有三种权限,按需授权可访问的用户即可。配置知识库权限后,AI 仅对拥有权限的角色回答与该知识库相关的问题,若角色未获得相应权限,AI 将不会提供相关回答。
创建知识目录
知识目录是企业知识库的集合,是一个结构化的知识组织方式,按照特定的主题或分类将知识进行整理和归类,使得用户可以通过知识目录更加便捷地查找和获取所需的知识资源。
如您的知识资源较多或覆盖了多种主题,您可以先在我的工作台-企业知识库,创建知识目录,之后在此知识目录下创建知识库。创建成功的知识目录,会在我的工作台-企业知识库展示。
创建知识目录
开始:进入“我的工作台-企业知识库”,点击右上角的“创建知识目录"按钮,进入”创建知识目录“弹窗页面。
填写知识目录信息:填写知识目录名称及描述,点击“确认”按钮,开始创建知识目录。
创建企业知识库:填写完知识目录信息并点击“确认”后,进入知识库目录详情页面,点击“创建企业知识库”即可(操作流程同直接创建企业知识库)。
基础设置
在知识库目录详情页,您可以点击“基础设置”Tab,对知识目录的名称和描述进行修改。
权限设置
您可以在知识库目录详情-权限设置中设置使用权限,支持设置公开、内部、私有三种权限,按需授权可访问的用户即可。配置权限后,AI 仅对拥有权限的角色回答与该知识库目录相关的问题,若角色未获得相应权限,AI 将不会提供相关回答。
访问 API
在我的工作台-企业知识库,点击“访问 API”Tab 页,可查看企业知识库的 API 访问方式。企业知识库访问 API 支持授权密钥管理,需要使用 API 密钥才能调用 API(点击“API 密钥”按钮,创建 API 密钥)。
知识治理模板
我的工作台-企业知识库-知识治理模板展示所有可供选择的知识治理模板,包括神州问学平台预置的、以及您自己创建的知识治理模板,供用户在企业知识库-添加治理文件-选择知识治理模板使用。
体验知识治理模板
点击知识治理模板列表中的某个知识治理模板,可以查看模板配置详情,可以按需进行编辑修改,也可以点击“去体验”体验该模板的效果,如在体验过程中修改了配置,系统会进行提示,便于用户按需更新模板。
创建知识治理模板
点击右上角“创建知识治理模板”按钮,可以按需创建知识治理模板,并可以点击“去体验”体验该新增模板的效果(同已有模板体验),点击“保存”即完成模板创建。
知识来源
问学支持接入并整合来自外部的多样化知识数据资源,帮助企业全面管理企业知识。问学目前支持通过飞书应用凭证,实现从飞书同步知识库内容。
点击“配置”后,填写飞书应用凭证信息,即可绑定飞书应用,并在知识来源配置中显示“已绑定”。
新绑定的飞书应用,会出现在“创建企业知识库-同步外部数据源”的列表中,便于按需选择同步。