跳到主要内容

任务常见问题

1. 任务问题

1.2. 缺少或错误填写job.json中image_address字段。

  • job.json中image_address为必填项,所以您在提交任务的时候只填写image_address即可。

  • 【注意】:

  • image_address需要填写完整的镜像地址而非镜像名称,在Bohrium中镜像分为公共镜像和私有镜像,您可在镜像中心处查看需要填写的镜像地址。

  • 例如:ubuntu:22.04-py3.10-intel2022

  • 镜像地址为:registry.dp.tech/dptech/ubuntu:22.04-py3.10-intel2022

1.3. 使用Lebesgue Utility提交任务失败,报错为项目不存在或找不到该项目。

  • 原因可能为lbg project switch登陆失效,或者项目已经被删除。

  • 您可以使用以下命令查看所有项目的列表lbg project ls确保您当前所在的项目ID是正确的。

  • 如果您发现当前项目ID不正确,可以使用以下命令修改默认项目lbg project switch <project_id>其中,<project_id>是您想要切换到的正确项目的ID。

1.3. 任务结果文件回传Bohrium管理节点异常,导致节点无法开机

  • 请您先自查当前任务所执行的程序回传结果文件默认位置是否为系统盘,是您在开机时选择的磁盘大小,最大为100g多用于存放系统软件包,打满后会导致任务失败,甚至管理节点无法开机。需要您自行调整程序脚本后再次提交。

  • 若仍然无法解决请联系技术支持bohrium@dp.tech

1.4. 如何使用Lebesgue Utilit批量下载任务

1.5. 使用Lebesgue Utility将结果文件如何自动下载到指定目录。

  • 请使用lbg job submit中的-r参数,该参数可以将结果文件自动下载至指定目录

  • 【注意】:数据仅支持自动下载至 data 盘,参数 -r 后指定路径请以 /data

  • 开头具体可参考https://bohrium-doc.dp.tech/docs/commandline/job

2. 产品问题

2.1. Bohrium相同规格的机型提交任务效率存在差异

  • 由于算法本身也存在30%左右的浮动性,同时 Bohrium后端的算力调度中心会根据调度规则动态分配资源厂商,不同的厂商资源会有略微差异,会产生任务效率不一致的情况。

2.2. 任务资源调度时间较长

  • 任务提交过程中会出现厂商缓存自定义镜像到服务器集群、或者是算力资源紧张等原因,请您耐心等待,如果需要了解任务详细情况请联系技术支持bohrium@dp.tech帮助查询。

2.3. 脚本中选择的机型和任务中心展示的实际计算机型不一致。

  • 云厂商会根据当期库存调整可提供的算力资源,这会导致出现算力紧张进而导致任务提交失败,为解决这一状况Bohrium采用智能调度策略,在全网搜索并匹配满足用户需求的计算资源。我们会尽可能保证在机型、核数、内存等因素一致或相似的基础上,为您提供最优惠的价格以获取所需算力资源,如有其他问题请及时联系我们的技术支持bohrium@dp.tech以获得进一步的帮助与解决方案

2.4. 任务进度始终徘徊在资源调度和环境准备两个阶段

  • 这种情况一般是平台资源正在重新调度中,导致的原因是可能有厂商正在缓存自定义镜像或者资源不足。您可以联系技术支持bohrium@dp.tech以获得进一步的帮助与解决方案

2.5. lbg job submit提交任务后没有任何输出提示

  • 执行lbg job submit命令后,lbg开始压缩-p参数后指定文件夹中的全部文件以提交任务,请您检查-p ./文件夹下是否有较大的隐藏文件,导致文件压缩时间过长。

2.6. 根据Bohrium价格计算器,所需机型是可用的,然而lbg提交任务时报告称该机型不可用

  • 在使用Bohrium价格计算器遇到此类情况时,说明该机型资源紧缺,建议尝试选择其他可用的机型。