代码之家 › 专栏 › 技术社区 › Anshul Tripathi

DBS可能需要很长时间才能对数据集进行聚类

dbscan cluster-analysis scikit-learn machine-learning python

Anshul Tripathi · 技术社区 · 6 年前

我正在尝试对一个拥有100多万个数据点的数据集进行聚类。一列有文本,另一列有与其对应的数值。我面临的问题是,它被卡住了,永远不会完成。我曾尝试使用大约10万个较小的数据集,它工作得相当快,但随着我开始增加数据点,它开始变慢,对于100万个数据集来说,它永远不会完成并挂起。起初,我认为这可能是因为我有一个文本tfidf矩阵,有100个维度,所以需要很长时间。然后我尝试了基于数量的聚类,每个数据点只有一个值,但仍然没有完成。下面是代码片段。知道我做错了什么吗?我见过有人使用更大的数据集,而且没有问题。

Y=data['amount'].values
Y=Y.reshape(-1,1)
dbscan = DBSCAN(eps=0.3, min_samples= 10, algorithm='kd_tree')
dbscan.fit_predict(Y)
labels = dbscan.labels_
print(labels.size)
clusters = labels.tolist()
#printing the value and its label
for a, b in zip(labels, Y):
    print(a, b)

2 回复 | 直到 5 年前

Has QUIT--Anony-Mousse 6 年前

很可能你的ε太大了。

如果大多数点在其他大多数点的ε范围内,那么运行时间将是二次O(n²)。所以从小的价值观

你不能只添加/删除特性而保持epsilon不变。

seralouk 5 年前

使用更多内核。

使用 n_jobs 参数 定义为: n_jobs=-1 在…内 DBSCAN 班

例子:

Y=data['amount'].values
Y=Y.reshape(-1,1)
dbscan = DBSCAN(eps=0.3, min_samples= 10, algorithm='kd_tree', n_jobs=-1)
dbscan.fit_predict(Y)
labels = dbscan.labels_
print(labels.size)
clusters = labels.tolist()
#printing the value and its label
for a, b in zip(labels, Y):
    print(a, b)

推荐文章

bz_jf · CNN训练损失太不稳定了

2 年前

ReactJs newbie · yolov4自定义培训,检测结果不正确

2 年前

Tushar Nautiyal · 我们需要在Flask应用程序中进行功能缩放吗

2 年前

Mahin Rahman · 我的培训和测试图表保持不变,有人能帮我解释一下,或者解释一下我哪里出错了?

2 年前

Mucida · BERT2:如何使用GPT2LMHeadModel开始一个句子,而不是完成它

2 年前

Bad Coder · 如何在Pyte中使用SMOTE?

2 年前

Sherwin R · 随机森林预测错误的输出形状

2 年前

Joseph · 重塑BatchDataset训练模型的输入-Tensorflow

3 年前

curiousninja · 如何从pandas中的特定列中删除非数值?

3 年前

Palkin Jangra · 如何迭代一列以获得每行的平均值?

3 年前