代码之家 › 专栏 › 技术社区 › Lars Holdgaard

算法:确定主页类型?

heuristics web-crawler algorithm

Lars Holdgaard · 技术社区 · 14 年前

我已经考虑了一段时间了,所以我想我应该征求一下建议:

我有一个爬虫进入某个站点的根目录(可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我访问的是什么样的“主页”。。例如,不同的类型可以是:

我已经脑力激荡了一段时间,最好的解决方案似乎是一些启发式的点系统。我的意思是不同的趋势给出了不同类型的一些点,然后程序会做出猜测。

但这就是我陷入困境的地方。。你如何发现趋势?

但我真的找不到太多的趋势。

所以:我的问题是: 有什么办法吗?

非常感谢。。

2 回复 | 直到 14 年前

Skilldrick 14 年前

neural network 才能认出他们。给出链接的数量/类型,也许还有HTML标记的类型。

agorenst 14 年前

我相信你在尝试文档分类,这是一个很好的研究课题。

你会看到很多不同的方法。但是,在确定你所称的“趋势”之前,提出任何一种(或神经网络等)建议都是过早的。我建议研究“web文档分类”等。这显然是文献分类的一个相当大的子集,如果你能接触到学术期刊,就会有很多令人费解的文章供你欣赏。

最后,我认为这是一个可访问的(如果格式奇怪的话)网站,有一个一般的,也许过时的讨论: http://www.webology.ir/2008/v5n1/a52.html

推荐文章

SkyWalker · 在JavaScript中,合并日期-时间序列的有效算法是什么?

1 年前

root · 计数算法

1 年前

André Silveira · 使用循环将数组的每个槽递增1。数组的大小是传递给函数的参数

2 年前

danial · 如何在多个字符串的每个位置找到最频繁的字符

2 年前

Manny · 如何比较Perl中的字符串?

2 年前

Suhail Gupta · 在排序阵列中查找目标范围的时间复杂度-此解在最坏情况下是否为O(N)?

2 年前

Diret · 获取范围内每个数字的子倍数的算法

2 年前

Saif · 排序时python如何决定何时调用比较器?

2 年前

TryingToLearn · 我如何为通用遥控器构造一个类,该遥控器向连接到它的各种设备发送开/关命令?

2 年前

Sneha Sharma · 滑动窗口-在我的代码中找不到错误(非常基本的算法)

2 年前