数据集

数据集是机器学习和数据分析的基础，在问学中数据集是您训练自己专有大模型的基础。

您可以从数据集市场添加公有数据集（详见：数据集市场），也可以在我的工作台-数据集构建私有数据集，这些数据集都会在我的工作台-数据集进行展示，便于您通过数据集训练企业的定制化大模型。

在我的工作台-数据集，您可以通过两种方式创建私有数据集：① 数据生成；② 上传文件数据集。

原理简介

数据生成，是通过大模型来生成样例数据。选择大模型后，大模型经过大量的训练数据学习，可以捕捉到数据集中的复杂模式和关系，从而生成更真实、准确的样例数据。

注意：大模型通常需要大量的训练数据来学习复杂的模式和知识，所以大模型的训练数据的数量和质量对生成的数据集有很大影响。此外，为了保证生成数据集的质量，还需要对生成的数据进行适当的评估和验证，以确保它们符合预期的标准和要求。

适用场景

操作指南

原理简介

上传文件数据集的原理，涉及数据传输、接收、解析、存储和提供访问接口：

数据准备：您需要有一个数据集，并检查数据集的大小和格式是否符合平台的要求（目前问学支持上传txt、JSON格式的文件，文件大小不能超过100M），确保您的数据集已经按照所需的格式进行了适当的组织和预处理；确保您有权上传和使用该数据集，如果您使用的是他人的数据集，请确保您已经获得了适当的许可或授权；确保网络连接稳定，以避免在上传过程中出现中断或错误；在上传之前，最好备份原始数据集，以防上传过程中出现问题。
数据传输-接收-解析-存储：通过上传功能将数据集上传到问学平台-我的工作台-数据集后，问学平台会接收到上传的文件，并对不同类型的文件进行相应的解析处理后，将数据集文件存储至问学平台，以供大模型训练时使用。
提供访问接口：对于上传成功的数据集，问学提供访问接口，便于用户通过应用程序或网络访问上传的数据集（点击上传成功的数据集，进入数据集详情-数据集文件，点击右边的”Clone“按钮，查看HTTPS或SSH方式的访问路径）。

适用场景

合作研究：在合作研究中，多个研究团队或机构可能需要共享和使用相同的数据集。通过上传文件数据集，不同团队或机构之间可以方便地共享和使用相同的数据集，提升合作研究和数据分析的效率。
数据隐私保护：在某些情况下，由于数据隐私或敏感信息的限制，不便将数据集直接分享给其他人。通过上传文件数据集，用户可以将数据集上传到问学平台上，将访问方式只分享给需要使用的人，从而保障数据安全。

操作指南