数据集
本文介绍 Bohrium 数据集功能的使用方法。
什么是数据集?
Bohrium 数据集提供了数据的导入、下载、数据版本管理、数据分享及数据集挂载能力。您之前是否遇到过以下问题:
- 大部分任务的输入文件都是一样的,但每次提交任务时,还要等待文件打包上传过程,任务提交效率低;
- 输入文件很大,提交任务时打包上传要等待的时间很久;
- 我有一些文件想分享给其他人,不知道该如何分享。
- ...
现在数据集功能可以为您解决以上问题,提高任务提交效率,解决数据分享需求。
创建数据集
网页端创建数据集
点击 Bohrium 左侧菜单栏的“数据集”按钮,进入数据集列表页,如下图标号 1。点击“创建数据集”按钮,如下图标号 2,进入数据集创建页面。
填写数据集基本信息并上传文件,点击创建后,系统将默认将当前内容创建为数据集的 v1 版本。点此查看填写内容说明
信息及文件准备完成后,点击“创建”,数据集创建成功,页面自动跳转至该数据集版本的详情页。
命令行工具创建数据集
当数据集文件太大时,由于传输时间较长,中途可能会由于网络等其他因素导致创建失败。 因此可以使用支持断点续传的 Bohrium CLI 工具来创建数据集。
如果中途由于网络等因素导致了中断,可以通过重新执行同样的命令,然后根据提示输入y
恢复先前的文件,最后即可做到断点续传。
入口:
bohr dataset create
概要:
Flags:
-m, --comment string dataset description
-h, --help help for create
-l, --lp string file local path
-n, --name string dataset name
-p, --path string dataset path
-i, --pid int project id
参数说明:
参数 | 缩写 | 说明 | 必填 |
---|---|---|---|
--comment | -m | 数据集描述 | 否 |
--name | -n | 数据集名字 | 是 |
--path | -p | 数据集路径 | 是 |
--pid | -i | 项目id | 是 |
--lp | -l | 上传文件的本地路径 | 是 |
案例:
$ bohr dataset create -n bigfile -p bigfile -i 26611 -l "/Users/dp/Downloads/test"
# 将test文件夹上传到bigfile数据集
# 并在上传过程中打断创建
# 重新输入相同命令,并输入y,继续上传
查看数据集
点击 Bohrium 左侧菜单栏的“数据集”按钮,进入数据集列表页。该列表内展示了您可使用的全部数据集,包括您创建的数据集及他人创建后分享给您的数据集。
点击数据集名称进入数据集详情页,可查看数据集基础信息及包含的各版本信息,获取各版本文件路径、查看及下载版本文件。
同时也可以使用 Bohrium CLI 工具来查看数据集。
$ bohr dataset list # 查看所有数据集 (按 Ctrl+C 退出)
数据集的编辑及版本管理
如果您拥有数据集的管理权限,则可以对已创建的数据集进行版本新增、删除及数据集基础信息编辑等操作。
版本管理
若您需要对当前数据集内文件进行变更,您可通过“创建新版本”的方式,来发布一个新的版本。
创建:点击“创建新版本”按钮,进入数据集新版本创建页面。系统会默认导入当前已发布的最新版本内已经存在的文件,您可根据需求进行文件的增加或删除,点击“创建”进行新版本的发布。
等待准备完成:新版本的创建需要一定的准备时间,准备期间其他使用者看不到该版本也无法使用,准备时间的长短与版本文件数量及大小有关,请等待版本准备完成后再进行使用。
版本创建后,版本内文件不可进行变更,如需调整可重新创建版本。
您发布的全部版本均会展示在数据集中,您可根据实际需求进行数据集版本的增加与删除,其他使用者仅可看到您已发布成功的数据集。
注意:被删除的版本不可恢复,将不可被继续查看和使用。
编辑数据集
在数据集列表页或数据集详情页点击“编辑”按钮,可对数据集的名称、描述、权限范围,进行修改。
在数据集详情页内,也可对每个版本的描述进行修改。
使用数据集
当前支持在以下场景下使用数据集:
提交任务
- 命令行提交任务:您只需修改您的
job.json
,在其中添加dataset_path
字段,在该字段内以数组格式填入您需要使用的数据集版本对应路径,即下图红框内内容。
提交任务时,指定输入文件目录的方式依然支持,二者可同时使用。
以下为job.json
的填写示例:
{
"job_name": "DeePMD-kit test",
"command": " cd se_e2_a && dp train input.json > tmp_log 2>&1 && dp freeze -o graph.pb",
"log_file": "se_e2_a/tmp_log",
"backward_files": ["se_e2_a/lcurve.out","se_e2_a/graph.pb"],
"project_id": 0000,
"platform": "ali",
"machine_type": "c4_m15_1 * NVIDIA T4",
"job_type": "container",
"image_address": "registry.dp.tech/dptech/deepmd-kit:2.1.5-cuda11.6",
"dataset_path": ["/bohr/test1-51ov/v1","/bohr/test1-51ov/v2"]
}
- 网页提交任务:在图形化界面上提交任务时,点击“选择数据集”按钮,选择您需要使用的数据集版本即可。
在 Notebook 中使用并分享数据集
编写、发布 notebook 时,可使用并随 notebook 分享其中需要使用的数据集。
步骤一:选择需要使用/分享的数据集
在 Bohrium 首页,点击左上角“新建-Notebook”按钮,进入 Notebook 编辑页。
点击右侧箭头展开扩展面板。
点击“选择已有数据集”,添加在本篇 Notebook 中需要使用的数据集版本。也可点击“新建数据集”创建新的数据集。
注意:请在连接节点前添加数据集,节点开机后添加的数据集需要重启节点后才可生效。
步骤二:在 Notebook 中使用数据集
鼠标移动至已选择的数据集名称上,点击复制按钮即可获取该数据集文件的存储路径,数据集的文件均存储在该路径中。
在 Notebook 中直接填入该路径即可使用,下方举例中使用的路径为 /bohr/rereceshi-yqdf/v3/
:
例 1:进入数据集目录
cd /bohr/rereceshi-yqdf/v3/
例 2:列出数据集下全部文件
ls /bohr/rereceshi-yqdf/v3/
步骤三:发布 Notebook 并分享数据集
添加了数据集的 Notebook 发布后,其他用户可在详情页查看并使用相应的数据集。
在管理节点上使用数据集
您可在开启容器管理节点的时候,挂载需要使用的数据集版本,如下图中 1 所示。挂载并开机成功后,您可通过 2 处所展示路径,在管理节点上找到数据集文件。
数据集填写内容说明
字段名称 | 字段含义 | 填写示例 |
---|---|---|
数据集名称 | 数据集的名称,可随时修改 | testdataset |
数据集路径 | 数据集文件将上传至该路径,数据集创建后则不可修改。请在输入框内填入可用于辨识该数据集的内容,系统将自动生成版本对应的唯一路径 注意:上传文件后再进行路径修改将会清空您已经上传的文件,请谨慎修改 | /bohr/testdataset-b2dh/v1 |
文件 | 该数据集版本所包含的文件,支持上传本地文件或文件夹 注意:文件上传中请不要刷新或离开页面,避免上传失败 | -- |
项目 | 该数据集所属项目,项目内人员默认可使用该数据集 | testproject |
权限 | 可管理:数据集的编辑、删除、新建版本等权限;数据集创建者和数据集所属项目的创建者及管理员默认拥有该权限且不可更改 可使用:数据集的查看和使用权限;数据集所属项目内人员默认拥有该权限且不可更改,可将该权限开放给其他项目或用用户 | 可管理:数据集创建者及数据集所属项目的创建者及管理员 可使用:数据集所属项目内全部人员 |
描述 | 数据集的描述 | 该数据集用于测试 |