文档中心 > 标注数据-文本分类
文本分类

最近更新时间:2021-08-10

在模型训练之前需对没有标签的文本文件添加标签,也可以对已标注文本修改或删除标签进行重新标注。文本分类标注的要求:

  • 文本标注支持多标签,即一行文本可添加多个标签。

  • 标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。

1 开始标注

登录紫光云控制台,选择产品与服务->人工智能->AI开发平台。

点击左侧“数据文件” -> “数据集”,进入数据集列表页面。选择某个标注类型为“文本分类”的数据集,单击数据集名称进入数据集概览页。

此操作默认进入数据集当前版本的概览页,如果需要对其他版本进行数据标注,请先在“版本管理”操作中,将需要进行数据标注的版本设置为“当前版本。

在数据集概览页中,单击上方“开始标注”,进入数据集详情页。数据集详情页默认展示此数据集下全部数据。

2 标注文本

数据集详情页中,展示了此数据集中“未标注”“已标注”的文本,默认显示“未标注”的文本列表(对应上传文件每行文本)。

  • 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。不断选中文本行,为其添加标签。

  • 当进行了一些标注,单击页面下方“保存当前”保存当前标注的所有操作内容。标注的文本会出现在“已标注”页面。

3 添加标签

在“未标注”页签添加:单击页面中标签集右侧的“+”加号,然后在弹出的“新增标签”页中,添加标签名称,选择标签颜色,单击“确定”完成标签的新增。

4 查看已标注文本

在数据集详情页,单击“已标注”页签,您可以查看已完成标注的文本列表。也可以在右侧的“全部标签”中了解当前数据集支持的所有标签信息。

5 修改标注

当数据完成标注后,您还可以进入“已标注”页签,对已标注的文本进行修改。

  • 基于文本修改

    • 在“已标注”页面,文本列表中选择一个待修改的文本。

    • 删除标签:当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的“x”删除按钮,删除单个标签。

    • 修改标签:当文本背景变为蓝色时,表示已选择。删除文本的所有标签,此文本行会出现在“未标注”页签。重新为此文本行进行标注。

  • 基于标签修改:

    • 在“已标注”页面,在文本列表右侧,显示全部标签的信息。

    • 批量修改标签:单击操作列的,然后在弹出的对话框中输入修改后的标签名,然后单击“确定”完成修改。修改后,之前添加了此标签的文本,都将被标注为新的标签名称。

    • 批量删除标签:单击操作列的垃圾桶按钮,在弹出的对话框中,二次确定后,之前添加了此标签的文本,都将去掉此标签。

6 添加文件

除了从数据集输入位置自动同步的数据外,还可以在页面上直接添加文本,用于文本分类标注。

  • 在数据集详情页面,单击“未标注”页签,然后单击上方“添加文件”。弹出添加文件对话框。

  • 在弹出的“添加文件”对话框中,添加要上传的文件。上传文件格式要求为txt或者csv,单个文本大小不能超过8MB。以换行符作为分隔符,每行数据代表一个标注对象。文本的编码格式只能是:ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16这6种,其他的编码格式文本不会导入。

  • 单击“确定”,文本将自动呈现在“未标注”的文本列表中。且文本将自动存储至此“数据集输入位置”对应的对象存储目录中。

7 删除文件

通过数据删除操作,可将需要丢弃的文件数据快速删除。

  • 在“未标注”页面中,单击选中需要删除的文本,然后单击“删除”按钮,即可完成文本的删除操作。

  • 在“已标注”页面中,选中待删除的文本,然后单击“删除”,删除单个文本。或者选择“勾选当前页”选中该页面所有文本,然后单击“删除”,即可完成当前页所有文本的删除操作。

其中,被选中的文本,其背景将显示为蓝色。如果当前页面无选中文本时,“删除”按钮为灰色,无法执行删除操作。