百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。

为了满足此类需求,EasyData近期推出文本数据清洗功能,可以通过平台提供的数据清洗功能对文本数据集进行清洗。

当文本数据中存在emoji表情、无用url数据时,您可以使用数据清洗的功能进行去除。

文本数据清洗另外提供了繁体字转简体字功能,通常情况下在使用简体字可以取得更好的模型效果。可以使用该功能将文本数据中的繁体字转为简体字。

需要注意的是,文本数据清洗功能仅支持未标注数据的清洗。具体如何使用,可以参考以下步骤使用文本数据清洗功能。

如何使用文本数据清洗功能

 

Part 1-创建清洗任务

进入EasyData后台,点击左侧导航栏中的【清洗任务管理】,可进入清洗任务管理页面,点击【新建清洗任务】即可跳转到创建页面,清洗方式选择【文本数据清洗】。

 

Part 2-选择数据集版本

为保证清洗任务顺利进行: 当您的清洗前后数据集版本为两个数据集时,清洗前后两个数据集版本均会为您保留;

在清洗前选择数据集及版本号,在清洗后选择与清洗前相同的数据集,在版本号的地方新建版本号并选中。在选择数据集版本时您需要注意以下几点:

  • 清洗前的数据集需为非空且未标注的数据集;
  • 目前本系统不支持清洗前后的数据集版本相同;您可以新建清洗后的数据集版本;
  • 清洗后数据集版本标注信息需与清洗前保持一致,即清洗前后的数据集名称相同。

Part 3-选择数据集清洗方式

文本数据的清洗方式目前仅支持通用清洗方案,共有三种,根据清洗文本数据的需要,可同时选择1到多种清洗方式(最多可添加3种清洗方式),下面我们来分别对三种清洗方式进行具体介绍。

·  去掉清洗前文本中的表情等符号

·  去除文本数据中的网页链接

·  繁体转简体:指将文本中繁体字转为简体字(通常情况下在使用简体字可以取得更好的模型效果)

在完成以上步骤后,点击提交,即可完成清洗任务的创建,并返回清洗任务管理页面对清洗任务进行管理。 

关于EasyData

EasyData是百度大脑推出的智能数据服务平台,为具有AI开发需求的企业及个人开发者提供一站式数据处理服务。针对AI开发过程中的数据采集、数据标注、数据清洗等环节提供了软硬一体的自动化数据采集方案、智能标注、定制化清洗等领先能力。 同时EasyData已全面内置在EasyDL零门槛AI开发平台和BML全功能AI开发平台中,可以将EasyData处理的数据应用于EasyDL、BML的模型训练。

立即体验

EasyDL零门槛AI开发平台:https://ai.baidu.com/easydl/

BML 全功能AI开发平台:https://ai.baidu.com/bml/

如果你在使用中遇到了一些问题,欢迎在下方跟帖留言

已标记关键词 清除标记
相关推荐