代码之家 › 专栏 › 技术社区 › Casper Fabricius

实时/并行HTTP爬虫的好库/平台?[关闭]

eventmachine node.js web-crawler parallel-processing ruby

Casper Fabricius · 技术社区 · 14 年前

我有Ruby的背景,因此更愿意在Ruby中构建解决方案—然而,并行性和速度正是Ruby所不擅长的。我相信图书馆 EventMachine Typhoeus 可以补救,但我也在考虑 node.js

无论我选择什么,我也需要一种有效的方式将结果反馈给客户。我考虑的是普通AJAX(但这需要轮询服务器)、websockets(但对于较旧的浏览器,这需要回退)和用于持久性客户机/服务器通信的特定解决方案,例如 Cramp , Juggernaut Pusher .

有没有人愿意分享任何经验和/或建议?

2 回复 | 直到 14 年前

Toby Hede 14 年前

node肯定能够处理这种类型的任务—异步套接字和http通信已经嵌入,并且非常易于处理。

在沟通方面 Socket.io 是一个优秀的客户机和服务器框架,用于处理节点中的套接字通信—它支持flash、ajax和websocket通道,这意味着它可以在任何现代(和一些较旧的)浏览器上使用。

Mark Bolusmjak 14 年前

特征(取自现场)包括:

推荐文章

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

6 年前

Tae · Python3中方法has\u key的替换

6 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

6 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

6 年前

Vega · 如何从DOM获取所有链接?

6 年前

Vivek Kumar Sinha · 产生刮痕。请求()无法正常工作以爬网下一页

6 年前

bob9123 · 为什么状态和索引中的文档计数不同?

6 年前

Konstantin · crawler中未启动回调函数,scrapy

7 年前

SY9 · 刮:已爬网并刮取0个项目

7 年前

Vani4ka · Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

7 年前