1
0
如果你知道自己在做什么。您将不需要Web服务器和Web应用程序,因为Web爬虫毕竟只是一个客户机。 |
2
10
大多数语言可能是合理的,关键组件是
今天,大多数语言都有对上述内容有良好支持的库,当然,您需要某种方法来保存可能是某种数据库的结果。 比语言更重要的是理解你需要处理的所有概念。下面是一些可以帮助您入门的Python示例。 |
3
6
任何一种语言,只要有一个好的网络库,并且支持解析你想要爬行的格式,你就可以轻松使用。这些确实是唯一的条件。 |
4
1
您可以考虑使用python和pygtkmozembed或pywebkitgtk加上javascript的组合来创建蜘蛛。 在页面和所有其他脚本加载之后,可以在javascript中完成爬行。 你将拥有少数几个支持javascript的网络蜘蛛之一,并且可能会发现其他蜘蛛看不到的隐藏内容:) |
5
0
当你可以复制的时候为什么要自己写? http://code.activestate.com/recipes/576551-simple-web-crawler/ 您可能需要在这里或那里解决一些问题,例如使用HTMLEntities而不是用&替换 |
6
0
当涉及到写多核/线程爬虫时,C是万能的上帝,但是它有它自己的复杂性。在C之后,有些人去Java(由于广泛的探索和使用),而另一些则转到Python。如果你有一个好的架构,我可以向你保证这三种语言不会限制你的效率。 这个python代码是C curl实现,可以在一个不错的服务器上以300秒的速度爬行10000页左右。
|
7
-3
C和C++可能是最好的两种语言,这只是一个你知道得更好,哪个更快(C很可能更容易)的问题。 我不推荐使用python、javascript或php。与C族语言相比,它们的文本处理速度通常较慢。如果你想抓取网络中任何重要的部分,你需要尽可能快的速度。 我以前用过c_和htmlagilitypack,它工作得比较好,而且很容易获取。使用大量与XML相同的命令来处理HTML的能力使它变得很好(我有在C中处理XML的经验)。 您可能想测试可用的C语言解析库与C++解析库的速度。我知道在我的应用程序中,我每秒浏览60-70个相当混乱的页面,并从每个页面中提取大量数据(但这是一个布局相当稳定的站点)。 编辑:我注意到你提到过访问数据库。C++和C语言都有与大多数常用数据库系统一起工作的库,从SQLite(这将是一个在几个站点上的快速爬行器)到中型引擎,比如MySQL和MSSQL,直到更大的DB引擎(我从未使用过任何一种语言的Oracle或DB2,但这是可能的)。 |
Jacco · 未能格式化我的日期以在php中正确工作 1 年前 |
jay ram · 如何在URL核心php中从API获取JSON? 1 年前 |
Ishwarya A · php电子表格在浏览器中显示多张excel 1 年前 |