企业数据

简介

企业数据是一个专注于企业数据处理与应用的工具，旨在助力企业实现高效的数据管理与智能化应用。

在数据管理方面，企业数据支持新建企业数据并添加数据表。企业能够根据自身业务需求，自定义维度与指标，将原本杂乱无章的数据进行结构化梳理，让数据管理更加清晰、有序。例如，在销售数据管理中，可自定义销售区域、产品类别等维度，销售额、利润等指标，实现精准的数据把控。同时，通过添加数据舱并关联数据表的维度与指标，进一步优化数据整合，构建语义模型，打破数据孤岛，提升数据的可用性与关联性，为深度数据分析奠定基础。

在 AI 数据型应用中（详见：数据型应用），可挂载多个企业数据中的数据舱。应用发布后，用户只需通过简单提问，即可获取精准的数据结果，并以直观的表格和图形呈现。以市场分析为例，用户询问不同季度各产品线的销售占比情况，系统能迅速从结构化数据中提取信息，以图表形式清晰展示，帮助企业管理者快速洞察市场动态并做出决策。

结合图表式应用、数据库连接、字典管理、术语等功能，企业数据为企业提供了全方位的数据处理支持。无论是对话前提示词、指令等个性化设置，还是柱状图、饼图等图表配置展示，都能满足企业多样化的数据交互与展示需求，帮助企业充分挖掘数据价值。

基本原理

企业数据以“语义数据建模 + LLM智能问答 + 可视化报表生成”为核心，构建了从企业数据治理到自然语言交互的数据智能闭环，其原理可分为以下几个关键机制：

语义数据模型驱动（Headless BI）

底层数据建模采用Headless BI理念，强调模型即服务（Model as a Service）的思想，核心包括以下构成：

主题域（Domain）：用于对企业知识进行业务划分，是模型管理和权限设置的基础单位。

数据模型（Model）：每个数据模型基于一张物理表或SQL逻辑视图构建，支持主键、维度、度量、时间周期字段的定义。

维度（Dimension）：用于数据切片与聚合分析。

度量（Measure）：用于承载业务指标计算逻辑（如SUM、AVG、COUNT等）。

指标（Metric）：基于度量字段二次封装，可通过公式定义、阈值判断形成“业务指标集”。

术语（Term）：定义自然语言词汇与模型字段之间的映射，增强大模型的理解能力。

自然语言解析与SQL生成

系统内置大语言模型（LLM），基于术语映射和语义模型，将自然语言问题动态解析为SQL查询，主要流程如下：

问题理解： LLM解析用户输入，识别意图中的度量指标、过滤条件、分组字段与时间范围。

术语映射：将用户使用的“业务语言”映射为具体字段与模型元素。

SQL生成：动态生成标准SQL语句，并适配至对应数据库引擎（MySQL、PostgreSQL等）。

语义纠错与上下文联想：支持问题续问、多轮追问等交互模式，持续优化SQL生成结果。

数据图表自动生成与可视化表达

自然语言问题经SQL查询后，系统会根据结果自动推荐合适的可视化图表，底层原理包括：

图表推荐引擎：基于字段类型、数据特征（分类/数值/时间）、用户历史偏好自动推荐图形类型。

图表渲染引擎：基于ECharts等组件完成图形绘制，支持交互联动、图表区块复用、嵌入导出等。

图表语义保持：每张图表保留原始语义信息（SQL、数据集、用户意图），支持回溯与再生成。

操作指南

结构化数据语义建模指导手册

本手册旨在帮助您快速将企业数据转化为智能分析能力。我们聚焦于真实业务场景，通过一系列循序渐进的实例，手把手指导您完成从数据连接、语义建模到智能问答与图表生成的全过程。无论您是希望快速验证效果，还是系统性地掌握最佳实践，本手册都将带您在15分钟内，创建出第一个智能数据分析应用。

一、背景与适用人群

在基于问学平台的结构化数据项目的 Demo/PoC和项目实施过程中，我们发现很多客户和用户面临语义建模理解门槛高、搭建流程不清晰、模型效果达不到业务预期等实际问题 —— 例如不懂如何将业务语言转化为数据逻辑，或者因对业务语义的理解偏差导致模型搭建后查询和洞察的效果不佳，最终导致业务语言与数据资产的连接存在壁垒，数据价值的释放受到制约。为帮助大家突破这些瓶颈，清晰掌握语义建模的实施逻辑与优化方法，特编制本手册。

手册适用人群

客户决策者：明确语义建模对业务智能化的战略意义，把握数据资产语义化的长期价值；
业务用户（如运营、销售、财务、供应链人员等）：掌握如何通过语义建模让 AI 理解自身业务语言，实现 “自然语言问数据，智能分析出结果” 的高效体验；
技术实施人员：规范语义建模的全流程操作，保障模型的准确性、扩展性，助力结构化数据产品在业务场景中稳定落地。

结构化数据建模的定位

建立企业统一的业务语义层
以企业现有大规模数据仓库为基础——无论是传统数仓、数据湖，还是跨源异构的复杂表结构（千表级规模、百表关联），语义层都能将底层混乱的技术命名、多源字段歧义、异构表关系，抽象为业务可理解、模型可调用的统一视图。
实现数据逻辑的一次定义、多次复用
尤其针对复杂雪花模型、星型模型、以及跨主题域的多张事实表与维度表，语义建模可大幅降低重复关联、重复计算带来的维护成本。一套语义模型，支撑BI报表、AI问答、大屏监控等多个场景，彻底告别每个应用重新建模的工程债务。
提供智能查询与深度分析的能力基础
在千亿级数据量、数百字段的企业级环境下，语义层不仅承担“翻译”职责，更是性能与准确性的过滤器——通过预定义的指标、维度、关联关系，避免模型在大表全扫描、错误关联时失控，确保复杂查询秒级响应。
神州问学结构化数据语义建模，专为企业级大数仓而生——表数量再多、关系再乱，也能让AI精准读懂。

数据与安全

本手册第三部分的实施指南将以微软公开数据集 WideWorldImporters（简称 WWI）为实例展开说明，以增强理解。该数据集模拟虚构的跨国贸易公司业务，包含完整的数据库结构，覆盖采购、库存、销售等全链路业务场景。

手册其他章节（如模型优化与调整指南、常见问题与解决示例）将引用我们在 Demo 及 PoC 阶段遇到的典型案例，此类案例仅用于辅助理解。所有涉及的数据均已完成脱敏处理，不会产生数据安全风险。

二、语义建模定义与价值

什么是语义建模？

语义建模是企业结构化数据建模产品中连接业务语言与数据资产的核心桥梁，通过对 “数据表 - 指标 / 维度 - 术语 - 字典 - 数据舱” 全链路的语义化定义与关联，让 AI 能理解业务人员的自然语言查询，精准定位数据、解析业务逻辑，最终实现自然语言查询和分析数据。

为什么要做语义建模？

业务与技术的 “翻译器”：解决业务人员不懂技术术语、技术人员不懂业务表达的鸿沟，让业务语言能直接驱动数据查询。
扩展应用的基础：结构化数据的洞察分析以及后续的仪表盘、报告生成等功能，均依赖语义模型对数据含义、业务逻辑、术语关联的精准定义。
数据资产的说明书：将分散的数据表、字段转化为业务可理解的资产，避免数据重复建设，指标定义不一致等问题，提升数据复用性与可信度。

三、语义建模全流程实施指南

以下结合结构化数据的语义建模流程图，分步骤详解实施方法。

结构化数据语义建模流程图

步骤 0：从问题出发，完成需求和数据结构分析

建模开始之前，建议从问题出发，完成需求分析和数据结构/数据表结构分析。这一点非常重要：

确保建模目标与业务需求强绑定
业务问题是建模的锚点。例如用户问 “某区域近 3 个月销售订单超时发货率”，需求分析能明确需关注的维度（时间、区域）、指标（订单量、超时率），避免建模时引入过多无意义数据，确保结构化数据最终输出的分析直接解决业务痛点。
保障数据关联与表结构的合理性
表结构分析是 AI 理解数据关系的基础。比如分析 “客户复购率”，需明确订单表、客户表的关联字段（如客户 ID）、时间字段（下单时间），否则 AI 无法正确关联数据生成有效分析。从问题出发拆解表结构，能让结构化数据精准识别数据间的逻辑关系，避免因表结构混乱导致分析错误。
提升 AI 建模的效率与准确性
明确需求和表结构后，结构化数据可直接定位所需数据范围，减少无效计算。例如分析 “会员分层消费偏好”，需求明确后，模型只需聚焦会员表、消费记录表的特定字段，无需遍历全量数据，避免因数据冗余导致的分析偏差。

步骤 1：创建数据表 —— 构建数据基础

核心价值

这一步的作用是将技术层的原始数据转化为业务层可直接使用的数据，为后续指标与术语的定义提供基础。

需要说明的是，采用基于数据库表的创建方式时，结构化数据不会存储数据表的实际数据，该创建操作的核心目的是定义语义层。在自然语言转 SQL 过程中，系统会通过语义层映射至数据库对应字段完成查询。

操作场景与选择
- 单一业务场景：推荐 “基于表” 的方式，选择数据库连接、数据库名称、表名称，直接将物理表转化为业务可识别的数据集（适合数据逻辑简单、单表即可覆盖场景的需求，如 “客户基础信息表”）。
- 复杂业务场景：推荐 “基于 SQL 查询”
  - SQL 查询：编写业务 SQL，将多表关联逻辑固化为 “业务数据表”。
- 数据文件导入创建数据表：考虑到企业部分数据以 Excel 等文件形式存储，系统支持通过数据文件导入的方式创建数据表。文件导入后，后续建模流程与基于数据库表的建模流程完全一致。
示例（请参照问学平台操作手册先完成数据库连接以及企业数据创建）

Tips：

选择语义辅助生成模型：AI企业数据-卡片-编辑-语义辅助生成模型，用于创建数据表时预生成语义信息，建议选择，可提高语义建模效率。但是生成准确的前提是数据DDL等注释标注清晰。建议将单次回复限制拉到最大值。请务必仔细检查生成结果是否准确，是否符合实际场景的业务定义。

步骤 2：维护指标 / 维度 —— 定义数据的业务含义

核心价值：

让 AI 懂业务：明确指标（如复购率）、维度（如客户等级）的含义，为 AI 理解查询提供参照；
统一认知：消除跨部门对指标的歧义（如销售额是否含运费），确保分析结果共识；
支撑灵活分析：为下钻（如按月）提供依据，业务规则调整时仅更新含义即可适配，降低维护成本。

编辑数据表，需对以下元素逐一配置：

元素	定义与操作要点
是否主键	选择数据表中唯一标识一条记录的字段（如 “订单 ID”“客户 ID”），用于数据关联与唯一性校验。
维度	选择用于 “分组、过滤” 的字段（如 “地区”“时间”“产品类别”），是业务分析的 “切片视角”。
指标	选择或自定义 “可计算的业务概念”（如 “销售额 = 订单金额求和”“客单价 = 销售额 / 客户数”），需明确聚合方式（求和、计数、平均值等）。
语义名称	字段对应的业务语义名称（非技术命名），如 “订单成交金额”、“员工考勤天数”。此字段填写的内容，将作为输入传递给大模型，成为大模型进行语义理解与判断的依据。建议完整填写、仔细核对，确保信息无误。
别名	与该字段语义相近的其他常用名称（用于大模型识别同义表述），如 “成交金额” 的近义词 “订单金额”、“交易金额”，提升 AI 对自然语言的理解能力。此字段填写的内容，将作为输入传递给大模型，成为大模型进行语义理解与判断的依据。建议您完整填写、仔细核对，确保信息无误。
描述	说明该字段的业务含义、计算逻辑（如有）或适用场景，如 “统计用户每月实际支付的订单总金额，含优惠券抵扣后金额”。此字段填写的内容，将作为输入传递给大模型，成为大模型进行语义理解与判断的依据。建议您完整填写、仔细核对，确保信息无误。
类型	字段的数据存储类型。
字典绑定	说明该字段是否关联预设的字典表（如 “性别” 绑定 “男 / 女” 字典），及绑定的字典名称（如 “性别字典”“订单状态字典”）。
字段值是否支持语义模糊匹配	判断该字段在数据查询时是否允许模糊匹配（如 “学校名称” 字段输入 “武大” 可模糊匹配 “武汉大学”）。
数据单位	该指标计量时采用的具体单位，用于明确指标数值的度量标准，如金额类指标用 “元”“万元”，数量类指标用 “件”“个”，时长类指标用 “天”“小时” 等。
数据格式	指定该指标数值的呈现形式，如 “销售额”选 “小数”，“利润率”、“增长率” 等指标选 “百分比”。
复杂表达式	通过聚合函数（SUM、COUNT、AVG 等）或逻辑运算，定义复杂指标（如 “毛利率 =(销售收入 - 成本)/ 销售收入”）。

Tips：

自定义字段：前面提到需要从问题出发做需求和数据结构分析，那么简单问题涉及到数据表内的维度和指标的复杂查询，但是有些问题中的指标并不是数据表内已有指标，需要通过计算才能获得。当数据表内字段不满足查询，需要复杂指标时，可以通过自定义表达式的方式添加指标。并可以定义单位和数据格式等信息，在查询结果中展示更友好。
字段描述：填写完语义名称、数据格式、表达式等信息后，可使用AI辅助生成描述信息，帮助大模型更好理解业务含义。

步骤 3：画布 —— 可视化界面定义表关联

核心价值

保障数据关联精准，避免 AI 分析出错
可视化界面能清晰呈现关联字段、关联类型（一对一 / 一对多），还可标注业务含义（如 “订单表 - 客户 ID 关联客户表 - 客户 ID，用于匹配客户订单信息”）。AI 能直接读取明确的关系规则，避免因表关系模糊导致的关联错误（如错配字段、漏关联表），确保分析结果准确。
提升 AI 建模与分析效率
明确的表关系让 AI 无需自主猜测数据关联逻辑，直接定位所需关联表和字段，减少无效计算。比如分析 “客户复购率” 时，AI 可通过画布预设的订单表 - 客户表关联，快速调取数据生成指标，缩短分析周期。
便于迭代维护，适配业务变化
当业务调整（如新增 “物流表” 需关联订单表）时，可在画布上快速新增、修改关联关系，无需重构整个数据模型。同时，可视化的表关系图谱便于团队协作核对，降低后续维护成本。

步骤 4：维护术语 —— 统一业务语言理解

核心价值：

解释行业黑话：明确专属术语（如电商 “GMV”、金融 “不良率”），让 AI 与跨行业协作无认知壁垒；
对齐企业业务：统一企业内部术语定义（如不同部门对 “有效订单” 的界定），消除数据统计偏差；
适配个性化习惯：兼容员工常用简称、俗称，让 AI 精准识别个性化表达，提升查询交互效率。

Tips：

系统智能判断和全局类型：前者指由模型自主决策是否启用该术语，后者指无论何种问题场景，都需强制使用该术语。
术语描述可包含业务定义、名词解释，或者是带条件的语义判断，但是尽量避免包含计算公式。需要定义计算公式的场景，请添加一个自定义指标，通过表达式定义公式。

步骤 5：维护字典 —— 提升交互智能度

核心价值：

枚举值输入建议：用户提问时匹配维度值并弹窗提示，减少输入错误，提升操作效率。
近义词精准适配：覆盖简称、俗称等表达，让大模型快速理解用户意图，避免答非所问。
优化交互体验：降低用户记忆成本，让非专业用户也能高效提问，提升工具易用性。

实际使用效果：用户填写时给出填写推荐

images_2026-02-11_09-48-10

Tips：

举例说明：部门名称“通明湖云和信创研究院”名字较长，很多用户记不清楚或者输入错误，这时如果把部门的枚举值维护成字典和字典标签，用户在输入“通明湖”时，输入框上方会给出建议的维度值“通明湖云和信创研究院”。一方面提升输入效率，另一方面也可以帮助模型精准匹配。
维度值的近义词：如果用户普遍以“通明湖”或者“研究院”代表“通明湖云和信创研究院”，那么可以在字典标签中将“通明湖”和“研究院”维护成“通明湖云和信创研究院”的别名。当然前提是没有别的部门有重复的别名。
维度值语义模糊匹配：如果有些维度值经常有表述差异，比如菜名，“番茄炒蛋”和“西红柿炒蛋”，并不确定用户会填入哪个名字，那么我们可以把菜名这个维度的“字段值是否支持语义模糊匹配”的选项打开，模型就可以语义模糊匹配枚举值。需注意，该操作需谨慎，避免因匹配范围过宽导致查询结果冗余。

步骤 6：创建数据舱 —— 落地业务场景

核心价值：

业务分类，规范数据使用：按业务场景整合指标与维度，形成专属业务目录，明确各场景的指标 / 维度范围，避免跨场景数据混淆。
简化查询操作且对齐业务需求：一次查询仅限定一个数据舱，减少用户筛选成本，提升查询效率。数据舱与实际业务场景强绑定，非专业用户也能快速定位所需数据，降低使用门槛。
拓展查询：支持定义关联查询，查询目标指标 / 维度时可同步调取关联字段，丰富数据维度。
赋能深度分析：预设下钻维度，为查询结果的图表下钻、归因分析提供支撑，助力挖掘数据深层逻辑。

Tips：

关联查询：仅支持同类型字段关联（维度 - 维度、指标 - 指标），适配业务中字段成组使用场景，避免查询结果交叉错乱。
下钻维度：仅配置在指标上，需建模人员介入设计，兼顾分析准确性与查询效率。
查询limit：建议不超过500，平衡数据获取需求与系统稳定性。

步骤 7：记忆管理

核心价值：

动态优化查询：基于历史交互记录修正查询偏差，让后续查询更贴合用户习惯，提升精准度。
沉淀业务知识：手动维护更新问答对，构建专属学习场景，助力大模型积累业务专属逻辑。
支撑评估决策：记录用户反馈，为管理员评估回答准确性提供直接参考，明确优化方向。

images_2026-02-11_09-54-09

images_2026-02-11_09-54-45

Tips：

管理员评估：参考大模型评估结果以及用户反馈信息，可以将比较好的回答标记成正确并启用，后续用户提问匹配该问题时，系统会将对应的语义 S2SQL 作为参考输入，帮助大模型快速输出精准结果。
复杂问题拆分：复杂问题的拆分记录，后续迭代将纳入记忆管理，经标记正确并启用后，若后续出现匹配提问，系统会把已启用的拆分问题作为参考输入提供给大模型，提升复杂问题的处理效果。

步骤 8：权限管理

核心价值：

构建主题域、维度指标、数据行三层级管控体系，实现从表级、列级到行级的全粒度权限管控，满足业务场景下差异化的权限需求。

保障数据安全：通过分层治理（主题域管控、维度指标行级粒度），防范数据泄露与越权访问，确保客户信息、敏感业务记录等数据的绝对安全。
兼顾安全与协同效率：业务部门 / 角色可快速关联专属数据域，避免跨域数据干扰；同时支持灵活权限配置（如部分指标可见但敏感数据隐藏），从业务、分析、记录视角分层适配场景，既保障数据安全，又提升业务协作效率。
满足审计与合规：所有授权操作留痕，支持权限溯源、定期合规报告生成，轻松通过等保、GDPR、HIPAA等审计。

问学平台的权限体系是涵盖数据权限与应用权限的统一管控方案，覆盖从底层数据访问到上层智能体应用调用的全链路，满足超大型组织在多租户、合规、敏感业务隔离、数字员工治理等场景下的苛刻要求。

数据权限：解决“谁能看什么数据”——主题域、字段、行级精细管控。
应用权限：解决“谁能用、谁能改、谁能发布什么智能体应用”——应用访问、功能操作、租户隔离。
统一治理：一套权限模型、同一个授权中心，人员组织同步自企业AD/LDAP，权限策略一处配置、全局生效。

权限管理体系说明

问学平台权限模型覆盖的维度和层级：

维度	说明
授权主体	用户、用户组、角色（LDAP/AD同步或本地创建）
授权客体	数据舱、数据表、字段、行记录
操作类型	查询数据

三层级管控详解：

层级	粒度	典型场景
主题域级	数据舱/数据集	财务部只能访问财务数据舱，市场部只能访问营销数据舱
列级	字段	销售总监可见销售额，销售专员不可见成本；HR可见姓名，不可见薪资
行级	记录	区域经理只能看所属大区的数据；项目经理只能看自己负责的项目

企业级特性一：以上三层可任意组合叠加，例如：

“华东区销售总监” = 主题域：销售数据舱 + 列级：可见销售额/成本 + 行级：region=‘华东’

权限配置步骤

授权列表
- 操作路径：权限管理 > 授权列表
- 功能说明：以列表形式展示全平台已配置的授权策略，支持按授权主体、客体、授权时间快速筛选。

images_2026-02-11_09-57-41

添加授权：数据舱级别 / 数据表级别 / 列与值级别
- 四类授权粒度可选：
- 数据舱级别授权
  - 适用场景：部门级数据隔离
  - 配置项：选择数据舱 → 关联用户/角色 → 设置权限（查询/编辑/导出）
  - 最佳实践：数据舱命名即体现业务域，如“华东销售大区数据舱”，便于快速匹配。
- 数据表级别授权
  - 适用场景：跨舱但需限制特定表
  - 配置项：选择企业数据内的具体表 → 关联授权主体 → 设置权限
- 列与值级别授权
  - 这是问学平台的核心优势，支持两种模式：
    - 字段隐藏：用户查询时，该字段不出现在结果中（如薪资列）
    - 字段脱敏：用户可见字段但数据被模糊化（如手机号显示 138****1234）
  - 值级别权限：同一字段，不同用户看到不同的枚举值范围（如渠道经理只能看“线上渠道”，不能看“线下渠道”）
- 行级别授权
  - 最细粒度控制，通过动态条件表达式实现
  - 配置示例：
    表：销售订单表
    授权给：华东销售团队
    行过滤条件：region = '华东' AND product_line IN ('消费电子', '家电')
  - 支持复杂逻辑：AND/OR/NOT、子查询、函数调用（如 current_user_id() = sales_rep_id）

images_2026-02-11_09-57-54

images_2026-02-25_17-04-45

特殊数据权限规则设置

企业级数据环境的权限诉求远不止“谁可以看哪个表” —— 你需要让权限随业务规则流动：今天的数据范围依赖昨天谁审批了订单，下个月的数据权限根据员工的职级自动调整，甚至某些敏感数据仅在指定时间窗口可见。

问学平台提供一套完整的特殊数据权限规则引擎，将行级权限从静态条件升级为动态、可编程、与业务实时联动的智能策略。以下为核心能力与配置指南。

规则引擎核心要素

在数据权限 - 特殊规则设置界面，一条完整的权限规则由三要素构成：

要素	说明	示例值
规则名称	业务语义化命名，便于管理与审计	“华东区经理自属下权限”
表达式	行级过滤条件，支持字段常量、用户属性变量、函数调用	region = '华东' AND leader = ${userId}

典型特殊规则场景与配置样例

配置操作指引（基于截图界面）

进入菜单：权限管理 - 数据权限 - 特殊规则设置
新建规则：点击“添加规则”，填写：
- 规则名称：使用业务人员可理解的短语
- 表达式：通过表达式编辑器组合字段、运算符、常量、变量、子查询
变量辅助：平台内置常用变量列表，点击即可插入
变量名含义示例值
${userId} 当前登录用户ID 10086
绑定授权：规则定义完成后，在添加授权中选择“行级别授权”，并关联该规则。
验证：使用权限模拟器输入测试用户，确认规则生效。

变量名	含义	示例值
${userId}	当前登录用户ID	10086

最佳实践与注意事项

从简单规则开始：优先使用字段 = 常量或字段 = ${userId}，逐步增加复杂性。谨慎使用子查询：子查询性能与表数据量相关，建议在数据治理层将复杂映射物化为视图。时间字段索引：涉及时间范围过滤时，确保对应字段已建立数据库索引，避免全表扫描。规则命名规范：推荐格式 [业务域]_[用户群体]_[约束条件]，如 订单_销售经理_本团队近3月。

images_2026-02-11_09-58-10

images_2026-02-11_09-58-24

四、模型优化与调整指南

语义模型已按前述步骤初步搭建完成，后续需对照问题清单逐项开展验证与调试工作。

在返回查询结果前，会完整呈现全流程步骤信息，助力建模及调试人员快速发现并定位问题；同时，编排页面中被命中的数据舱、术语、维度与指标支持跳转查看建模详情，方便用户直接查阅与修改。

建模溯源调试功能

步骤展示检查项
- 问题改写验证：核查问题改写的准确性，可根据业务场景调整术语、指标 / 维度的命名及描述信息。
- 数据舱匹配验证：确认是否精准匹配目标数据舱，可优化数据舱的名称定义及描述内容。
- 信息推理验证：核查是否准确命中对应术语，可针对性调整术语配置。
- 语义 SQL 验证：确认生成的 SQL 语句是否能精准响应原始查询需求。
- 查询 SQL 校验：核查 SQL 语句的语法正确性，以及维度、指标等配置的准确性。

images_2026-02-11_10-12-34

Tracing

images_2026-02-11_10-13-19

images_2026-02-11_10-13-26

建模优化项

语义模型需随业务变化持续优化，以下是关键调整场景与操作：

五、常见问题与解决示例

数据舱选择错误问题解析及解决方案
（以药品销售场景为例）

问题场景
现有两个数据舱，均包含销售额、时间、品牌等字段，但分别存储 “实际销售数据” 和 “一级出货商数据”。用户提问时：
- 问 “安达唐的销量是多少？”，应匹配实际销售数据；
- 问 “安达唐的 demand 销量是多少？” 或 “血脂康的一级出货商销量是多少？”，应匹配一级出货商数据。用户尝试通过添加术语定义查询规则（数据舱命名为 “Actual” 和 “Demand”），但测试效果差，始终匹配错误数据舱。
问题根源
- 数据舱名称与描述定义模糊：名称 “Actual”“Demand” 未明确业务含义，描述缺失场景区分逻辑，导致模型无法通过语义识别数据舱适用范围。
- 字段与指标未做差异化区分：两个数据舱的维度 / 指标名称完全一致（如均为 “销售额”），缺乏业务属性标识（如 “实际销售额”“一级出货商销售额”），模型无法通过字段匹配定位正确数据舱。
- 术语规则与数据舱匹配逻辑脱节：用户添加的术语仅用于问题改写，未关联数据舱的核心区分规则，且模型优先通过字段匹配选择数据舱，导致术语规则失效。
解决方案
a. 字段与指标差异化命名（数据治理层面）

修改数据舱内的指标名称，明确业务属性，例如：

实际销售数据舱：将 “销售额” 改为 “实际销售额”，“销量” 改为 “实际销量”；

一级出货商数据舱：将 “销售额” 改为 “一级出货商销售额”，“销量” 改为 “demand 销量”（保留业务术语一致性）。

b. 数据舱名称与描述精准定义（语义层优化）

基于业务场景明确数据舱的适用范围，确保名称和描述互斥且易理解：

实际销售数据舱：名称-“药品实际销售数据”，描述-“用户询问‘实际销量’‘真实销量’‘actual 销量’，或未明确说明销售类型时，默认使用此数据舱。”

一级出货商数据舱：名称-“药品一级出货商销售数据”，描述-“用户询问‘一级出货商销量’‘demand 销量’时，使用此数据舱。”

c. 清理冗余术语规则

删除原用于描述查询规则的术语，避免与数据舱的语义定义冲突。通过数据舱名称、描述及字段的差异化设计，让模型直接通过问题中的业务关键词（如 “实际”“demand”“一级出货商”）匹配正确数据舱。

术语冲突问题解析及规避建议
术语冲突主要分为两类：术语之间语义冲突、术语与数据舱名称 / 描述冲突，均会导致模型判断偏差，影响查询准确性。

术语之间冲突：
指多个术语的定义或描述语义重叠、模糊甚至矛盾，导致模型无法区分适用场景。
- 示例：同时定义 “Actual 销售额” 和 “Demand 销售额” 两个术语，却将两者的描述均写为 “一级出货商销售额”，模型会因语义混淆无法判断正确术语。
- 规避建议：针对同一业务场景的术语，需逐一核查定义与描述，确保语义唯一、无歧义，避免出现同描述对应多术语或术语含义自相矛盾的情况。
术语与数据舱冲突：
指术语的含义的与数据舱名称、描述的定义不一致，即使数据舱配置清晰，也会干扰模型对数据舱的匹配判断。
- 示例：延续前文数据舱选择场景，若已将 “药品实际销售数据” 舱定义为 “匹配 Actual 销量查询”，却额外添加术语 “Actual 销售额”，且描述为 “一级出货商销售额”。此时用户提问 “安达唐的 Actual 销量是多少？”，模型会因术语与数据舱定义冲突，将问题改写为 “一级出货商销量” 查询，最终匹配错误数据舱。
- 规避建议：添加术语前，需先核对数据舱的名称及描述定义，确保术语含义与数据舱的适用范围一致，避免出现术语语义与数据舱核心定义相悖的情况。

维度值识别错误问题解析及解决方案
（以烟草营销场景为例）

问题场景
烟草营销核心维度包括客户维度（客户档位、业态）、产品维度（品牌、规格、价类、省产烟）、市场维度（市场单元）等，维度值识别错误多因术语歧义、分类标准复杂或数据格式不规范导致，具体表现为：
- 规格与品牌混淆：用户提问 “黄鹤楼 1916 的销量” 时，模型误将 “黄鹤楼 1916” 整体识别为 “品牌”，导致仅返回该规格的销量，无法关联 “黄鹤楼” 品牌的整体数据（如品牌总销量、各规格占比）。
- 简称泛化错误：将 “黄鹤楼” 泛化为湖北中烟旗下所有品牌（如错误包含红金龙、黄金龙等非黄鹤楼品牌）。
- 价类划分误判：处理 “高价位卷烟销售情况排序” 时，未按行业价类划分标准筛选，导致高价位卷烟范围界定错误。
解决方案

a. 建立维度值字典并关联维度

针对易混淆的维度（如品牌、规格），分别创建独立字典并明确归属维度

b. 梳理维度值映射关系并补充特征描述

明确 “品牌 - 规格” 层级关系，通过特征描述强化区分：

品牌特征：名称为独立词汇，无 “包装类型（软 / 硬）”“长度（短支 / 中支）”“细分系列（1916 / 阳光）” 等限定词；

规格特征：包含上述限定词，且隶属于某一品牌（如 “黄鹤楼 1916” 中的 “1916” 为细分系列，从属 “黄鹤楼” 品牌）。

c. 规范价类划分标准

在零售价字段描述中明确价类划分规则，可通过表达式量化定义：例如：CASE WHEN wholesale_price >= 600 THEN "高价位" WHEN wholesale_price >= 200 THEN "中价位" ELSE "低价位" END（按批发价阈值精准划分，避免模糊描述）。

指标计算逻辑错误问题解析及解决方案

指标计算逻辑错误多源于计量单位不明确、复杂统计规则模糊、数据格式不规范或默认条件缺失，以下结合烟草营销、物流 BI 助手场景给出具体解决方案：

烟草营销场景

“单箱均价（元 / 箱）” 计算错误

“连续三个月销售额环比增长的品牌” 计算错误
- 问题核心：复杂时序统计规则（连续三月、环比增长）无明确公式，大模型计算存在随机性。
- 解决方案：
  - 自定义基础指标：环比增长率 =（当月销售额 - 上月销售额）/ 上月销售额 ×100%（固化核心计算逻辑）。
  - 明确统计条件：补充 “连续三月” 判定规则（需满足第 N 月、第 N-1 月、第 N-2 月环比增长率均为正值），避免模型遗漏时序连续性要求。

物流 BI 助手场景

a. 默认过滤已撤单出库单未生效

问题核心：未明确查询默认条件，模型未自动过滤 “已撤单” 数据，导致结果包含无效记录。
解决方案：
- 数据字典补充枚举值：新增 “已撤单”“未撤单” 状态枚举，关联至出库单状态字段。
- 字段描述明确默认规则：在状态字段描述中注明 “默认查询条件为‘未撤单’，自动过滤已撤单出库单”，强制模型执行默认过滤。

b. “平均出库时长” 计算错误

问题核心：出库时间字段类型为 varchar（字符串），模型无法自动格式化日期；复杂时间差计算逻辑无统一标准。
解决方案：
- 规范数据格式：将出库时间字段类型调整为时间型，明确时间格式（如 YYYY-MM-DD HH:MM:SS）及数据单位（分钟 / 小时）。
- 自定义指标公式：平均出库时长 =（出库完成时间 - 出库申请时间）的总时长 / 有效出库单数量（固化计算逻辑）。
- 辅助优化：若模型仍存在随机错误，在记忆管理中启用正确的计算示例，强制模型复用标准逻辑。

六、几个关键点

七、总结

语义建模是企业结构化数据产品发挥价值的核心环节，通过 “数据表 - 指标 / 维度 - 术语 - 字典 - 数据舱” 的全链路语义化建设，能让业务语言直接驱动数据洞察，实现 “自然语言问数据，智能分析出结果” 的高效体验。建议定期回顾业务变化、用户反馈，持续优化模型，确保 AI 的理解能力与业务同步成长。

创建企业数据

进入“企业数据”，点击左上角的“创建企业数据"按钮，进入”创建企业数据“弹窗页面。填写企业数据名称和描述并保存。

images_2025-12-31_16-14-04

数据表管理

打开您已创建的企业数据，在“数据表管理”Tab中，点击“添加数据表”进行数据表添加。可通过3种方式添加数据表，均可使用AI辅助生成语义信息。

images_2025-12-31_16-16-22

数据库 - 数据表：通过已添加的数据连接，基于数据库中的物理表创建数据表。选择数据库连接和名称后，可选择数据表添加，支持批量添加，支持选择需添加的字段。
数据库 - SQL查询：通过SQL查询，整合多张物理表之间的关系，创建基于业务场景的数据表。选择数据库连接和名称后，可填写查询SQL后建表，支持选择需添加的字段。
数据文件：通过上传Excel表格、CSV等格式文件创建数据表。