一种用于评估人工标注数据质量的方法及系统
Abstract:
本发明公开了一种用于评估人工标注数据质量的方法及系统,包括根据每个分类的维度,从数据库中读取已标注数据,并根据标注策略对已标注数据进行数据预处理;对进行过数据预处理后的已标注数据,进行低质量标签的贡献度评估、标签丰富度评估、标签准确率评估和高频标签的多样性和贡献度评估;并根据各个评估结果,计算每个标注人员的标注评分。优点是:提供了一种以极低成本监督数据标注质量的技术方案,从标注标签的多样性、总标签数目、高频标签的贡献度、低质量标签的贡献度、标签丰富度以及标注准确度等方面对标注人员标注结果进行评估并排序,避免了以往设置多次品检或安排专职人员对已标注数据进行审核对人力成本和时间成本的消耗。
Public/Granted literature
Patent Agency Ranking
0/0