1
1
这很难回答,但我会根据我的经验尽最大努力。 过去,我对3个数据集进行了文本分类;括号中的数字表示我的数据集有多大: 餐厅评论(5万句)、reddit评论(25万句) 和 问题跟踪系统的开发人员意见(10000句) . 每一个都有多个标签。 在这三个案例中,包括一个有10k句的案例,我的F1得分都超过了80%。我特别强调这个数据集,因为有人告诉我,这个数据集的大小更小。 因此,在您的情况下,假设您至少有1000个平均7分钟通话的实例(包括客户和代理之间的对话),这应该是一个不错的开始。如果结果不令人满意,您可以选择以下选项: 1) 使用不同的模型(MNB、随机林、决策树等,以及您正在使用的任何模型) 2) 如果第1点给出的结果或多或少相似,请检查您拥有的所有类的实例的比率(此处所述的3轴)。如果他们的比率不高,请获取更多数据或尝试不同的方法 balancing techniques 如果无法获取更多数据。 3) 另一种方法是在句子级别而不是消息或会话级别对它们进行分类,以便为句子生成更多的数据和单独的标签,而不是消息或会话本身。 |
Lau Kumra · 如何为货币重新训练现有spacy-NER模型 6 年前 |
Abhishek Ram · 如何在Spacy中添加其他货币字符 6 年前 |
max · 我怎样才能得到作为某个动词宾语的名词从句? 6 年前 |
Thoc theodox · Spacy培训多线程CPU使用率 6 年前 |
Marc P. · 文本分类TA的训练样本数 6 年前 |
jamesk · 在空间中识别“it”主题 6 年前 |