1
1
为了实现这种功能,我建议您执行以下操作: 我假设在您的文本分类算法中,您可以为每个标签的每个文档获得一个概率分数。 例如。:
你现在也许可以看到我的方向了。 使用argmax函数(返回每个文档的最大概率标签)。 在这种情况下,argmax函数将为文档“the Big Apple”和“the Bigh City”返回标签“New York”,为文档“Detroit”返回标签《the Big City》,为文档《City of Angels》返回标签“Los Angeles”。 由于在这种情况下,在为文档分配标签“New York”时存在冲突(我不想称之为冲突)(因为您需要一对一映射),所以我建议您转到下一个标签。可以将标签“The Big City”明确指定给文档“Detroit”,因为它具有最大的可能性(匹配),然后从可能的标签集中删除标签“Detroti”(其余标签-“New York”和“Los Angeles”)。然后转到下一个标签“Los Angeles”,argmax函数告诉您,文档“City of Angels”具有标签“Los-Angeles“的最大可能性(最大匹配)。然后从其余标签中删除标签“Lost Angeles”。此时,剩余标签->“纽约”。然后转到下一个标签“New York”,看到它可以分配给的唯一文档是“the Big Apple”,并且文档和标签之间有一对一的映射。 我以前用过两种方法,通过随机给文档分配标签来打破平局,或者通过计算下一个标签的概率打破平局。该技术还用于决策树算法中,以在树的给定级别查找最合适的属性。它被称为该属性的熵或信息增益。这个实现是从ID3决策树算法中获得信息的一个简单版本。 关于ID3决策树算法的更多信息 here . |
bz_jf · CNN训练损失太不稳定了 2 年前 |
Bad Coder · 如何在Pyte中使用SMOTE? 2 年前 |
Sherwin R · 随机森林预测错误的输出形状 2 年前 |
Palkin Jangra · 如何迭代一列以获得每行的平均值? 2 年前 |