我有一个非常简单的数据/标签示例,我遇到的问题是生成的决策树(pdf)重复类名:
from sklearn import tree
from sklearn.externals.six import StringIO
import pydotplus
features_names = ['weight', 'texture']
features = [[140, 1], [130, 1], [150, 0], [110, 0]]
labels = ['apple', 'apple', 'orange', 'orange']
clf = tree.DecisionTreeClassifier()
clf.fit(features, labels)
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data,
feature_names=features_names,
class_names=labels,
filled=True, rounded=True,
special_characters=True,
impurity=False)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("apples_oranges.pdf")
生成的pdf如下所示:
所以,问题很明显,这两种可能性都是苹果的。我做错了什么?
从
DOCS
:
字符串列表,布尔或无,可选(默认值=无)
每个目标类的名称按升序排列。仅与分类相关,不支持多输出。如果为True,则显示类名的符号表示。
“…升序数字顺序”如果我改变
kwarg
收件人:
class_names=sorted(labels)
结果是一样的(在这种情况下很明显)。