1
1
supervised learning
培训数据由网站数据本身(文本文档)及其标签组成的技术(
RNN 但还有其他 natural language processing 技术和更快的技术。
通常,您应该在训练数据上使用适当的矢量器(例如,将每个网站页面视为文本文档)
tf-idf
scikit
这提供了许多有用的机器学习技术,并提到
sklearn.TfidfVectorizer
已在中)。重点是以增强的方式对文本文档进行矢量化。想象一下,例如英语单词
Support Vector Machines 当涉及到二进制分类器时也是不错的选择。你可能也想试试,看看它是否比SGD表现更好。
N、 B.不要忘记有效案例。例如,可能有一本完全安全的在线杂志,其中只在某些文章中提及有害主题;但这并不意味着网站本身就是有害的。 online course 因为尽管有API和库的知识,但你仍然需要知道它的功能和幕后的数学知识(至少大致如此)。 |
2
1
你试图做的是所谓的情感分类,通常是用递归神经网络(RNN)或长-短期记忆网络(LSTM)来完成的。从机器学习开始,这不是一个容易的话题。如果你是新手,你应该先研究线性/逻辑回归、支持向量机和基本神经网络。否则很难理解发生了什么。
这就是说:有许多用于构建神经网络的库。可能最容易使用的是
|
3
0
对于没有NLP或ML经验的人,我建议使用 TFIDF vectorizer 而不是使用深度学习库。简而言之,它将句子转换为向量,将词汇表中的每个单词都转换为一个维度(程度即出现)。 然后,你可以计算 cosine similarity 到生成的向量。 要提高性能,请使用 stemming / lemmatizing / stopwords NLTK库支持。 |
inf3rno · 无训练集的字符串模式识别 6 年前 |
Lich · 很难将Alpha-beta修剪实现为minimax算法 6 年前 |
Freakant · NLTK。检测句子是否是疑问句? 6 年前 |
Andrey Proskurin · 有没有办法改进我的遗传算法? 6 年前 |
NASEEM FASAL · 如何跟踪用户兴趣并根据他们的兴趣显示产品 6 年前 |
Sakhri Houssem · 我们如何计算卷积输出的深度? 7 年前 |
Samo PoláÄek · sigmoid和tanh的数据集值分布 7 年前 |
Randoms · R: 检查培训数据中的变量 7 年前 |
Shiva Reddy · 了解CNN和RNN之间的基本区别 7 年前 |