文档中心 > 从对象存储导入的规范说明
从对象存储导入的规范说明

最近更新时间:2021-06-07

从对象存储导入数据集时,数据格式需要遵守一定的规范,平台才能理解数据的标注信息。如果不遵守数据格式规范,则导入的数据是未标注数据。

当前“图像分类”“物体检测”“文本分类”“声音分类”4种类型的数据集支持从对象存储导入。

1 图像分类

图像分类的数据要求将相同标签的图片放在一个目录里,并且目录名字即为标签名。

对象存储目录示例如下所示,其中Apple和Pear分别为标签名。

  • 您需要具备此对象存储目录的读取权限。

  • 每类标签只支持单标签。

  • 只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB。

2 物体检测

物体检测的数据要求将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“image-1.jpg”,那么标注文件的文件名应为“image-1.xml”。

物体检测的标注文件需要满足PASCAL VOC格式:

<?xml version="1.0" encoding="UTF-8"?>
    <annotation>
        <filename>street1.jpg</filename>
        <size>
                <width>300</width>
                <height>225</height>
        </size>
        <object>
                 <name>people</name>
                 <bndbox>
                       <xmin>145</xmin>
                       <ymin>87</ymin>
                       <xmax>291</xmax>
                       <ymax>185</ymax>
                  </bndbox>
        </object>
        <object>
                  <name>car</name>
                  <bndbox>
                        <xmin>18</xmin>
                        <ymin>50</ymin>
                        <xmax>142</xmax>
                        <ymax>158</ymax>
                  </bndbox>
        </object>
     </annotation>


配置是否必填说明
filename被标注文件的文件名。
size表示图像的像素信息。
· width:必选字段,图片的宽度。
· height:必选字段,图片的高度。
object表示物体检测信息,多个物体标注会有多个object体。
· name:必选字段,标注内容的类别标签。
· bndbox:必选字段,标注框的4点坐标。

对象存储目录示例如下所示。

  • 您需要具备此对象存储目录的读取权限。

  • 只支持JPG、JPEG、PNG、BMP格式的图片,单张图片大小不能超过5MB。

3 文本分类

文本分类的标注对象和标注文件均为文本文件,并且以行数进行一一对应,例如标注文件中的第一行表示的是标注对象中第一行的标注。

例如,标注对象“file-1.txt”的内容如下所示。

标注文件“file-1_result.txt”的内容如下所示。

对象存储目录示例如下所示。

  • 您需要具备此对象存储目录的读取权限。

  • 只支持txt或者csv格式的文件,以换行符作为分隔符,每行数据代表一个标注对象。单个文本大小不能超过8MB。文本的编码格式只能是:ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16这6种,其他的编码格式文本不会导入。

4 声音分类

声音分类的数据要求将相同标签的声音文件放在一个目录里,并且目录名字即为标签名。

对象存储目录示例如下所示,其中Bird和Plane分别为标签名。

  • 您需要具备此对象存储目录的读取权限。

  • 只支持wav格式的音频,单个音频文件不能超过4MB。