文档中心 > 创建训练任务
创建训练任务

最近更新时间:2021-06-07

训练任务提供了自定义算法和预置算法。

在自定义算法中,集成了多种开源的深度学习框架和不同版本,您可以使用不同的框架,编写代码进行多轮训练和迭代,并使用分布式训练任务。

除支持您自己开发的算法外,平台还提供了预置算法,您可以不关注代码开发,直接使用预置算法和数据,得到一个满意的模型。

训练任务提供了版本管理功能,您可以修改已完成的任务配置,快速建立新的任务版本。

1 前提条件

  • 训练数据已完成准备:已在AI开发平台本地存储中创建可用的数据集,或者您已将用于训练的数据集上传至对象存储目录,或者您已经完成标注并发布了数据集版本。

  • 训练代码已准备完成,训练代码上传到对象存储目录或者本地存储中。

  • 已在对象存储或者本地存储创建1个文件夹,用于存储训练输出的内容。

  • 由于训练作业运行需消耗资源,确保账户未欠费。

  • 如果使用对象存储,确保您使用的对象存储目录与AI开发平台在同一区域。

2 创建训练任务

登录紫光云控制台,选择产品与服务->人工智能->AI开发平台。

选择左侧“训练任务”,点击“创建任务”,进入新建任务弹窗。在弹窗中填写任务名称等配置。

配置是否必填说明
名称仅支持小写字母、数字和'-',且需以小写字母开头、总长度不超过32,同用户下不重复
任务版本以v0.0.1形式默认递增
描述128字符以内
算法来源提供预置算法和自定义算法两种方式
1. 预置算法:平台提供3种预置算法,并提供公共训练数据,您可以直接使用。详见预置算法。
2. 自定义算法:选择训练框架,您还需提供训练代码和数据。
计算框架下拉选择计算框架的版本
算法文件路径从对象存储/本地存储中选择算法文件路径,该路径会读写挂载(RW)到运行环境内部"./"目录下,在"./"目录下的操作会同步到对象存储/本地存储中。
启动命令训练任务启动时的运行命令,当前目录为上方算法文件路径选择的目录
数据来源选择的数据来源会被只读挂载(RO)到运行环境内“../data”目录下,数据来源支持本地存储/对象存储/数据集
环境变量以Key和Value的形式填写,并export到在线服务容器中
训练输出路径从对象存储/本地存储中选择训练输出路径,平台会在该路径下建立"./job-{ID}-{VERSION}"子目录, 并将该子目录读写挂载到运行环境内"../output"目录下。请您将模型和日志等重要内容保存到运行环境"../output"路径下,这些内容会自动同步到对象存储/本地存储"训练输出路径/job-{ID}-{VERSION}"目录。
分布式训练模式根据选择不同的计算框架,支持多种分布式训练模式
资源池资源池可选公共资源池或者专属资源池
1. 选择公共资源池时,需要从资源规格中选择一种套餐,CPU比GPU套餐价格便宜
2. 选择专属资源池的前提是您已经创建了专属资源,在资源规格中列出了专属资源列表,您填写资源套餐后,Notebook实例会启动在您自己的专属资源池中。
注意:资源套餐填写要合理。
资源套餐请选择CPU或者GPU的套餐

点击确定后,即可创建训练任务。

训练任务完成后,任务状态流转为“已成功”。

3 计算框架和模式

框架框架版本训练模式
TensorFlowTensorFlow-v1.12.0-py27
TensorFlow-v1.12.0-py36
TensorFlow-v1.14.0-py27
TensorFlow-v1.14.0-py36
单机
MultiWorker
PsWorker
Horovod
PytorchPyTorch-v1.1.0-py27
PyTorch-v1.1.0-py36
PyTorch-v1.2.0-py27
PyTorch-v1.2.0-py36
单机
MasterWorker
Horovod
CaffeCaffe-v1.0.0-py27
Caffe-v1.0.0-py36
单机
Caffe2Caffe2-pt1.1.0-py27
Caffe2-pt1.1.0-py36
单机
MXNetMXNet-v1.4.0-py27
MXNet-v1.4.0-py36
单机
SKLearnSKLearn-v0.21.2-py27
SKLearn-v0.21.2-py36
单机
KerasKeras-v2.2.4-tf1.12-py27
Keras-v2.2.4-tf1.12-py36
单机
Horovod