代码之家  ›  专栏  ›  技术社区  ›  Casper Fabricius

实时/并行HTTP爬虫的好库/平台?[关闭]

  •  2
  • Casper Fabricius  · 技术社区  · 14 年前

    我有Ruby的背景,因此更愿意在Ruby中构建解决方案—然而,并行性和速度正是Ruby所不擅长的。我相信图书馆 EventMachine Typhoeus 可以补救,但我也在考虑 node.js

    无论我选择什么,我也需要一种有效的方式将结果反馈给客户。我考虑的是普通AJAX(但这需要轮询服务器)、websockets(但对于较旧的浏览器,这需要回退)和用于持久性客户机/服务器通信的特定解决方案,例如 Cramp , Juggernaut Pusher .

    有没有人愿意分享任何经验和/或建议?

    2 回复  |  直到 14 年前
        1
  •  1
  •   Toby Hede    14 年前

    node肯定能够处理这种类型的任务—异步套接字和http通信已经嵌入,并且非常易于处理。

    在沟通方面 Socket.io 是一个优秀的客户机和服务器框架,用于处理节点中的套接字通信—它支持flash、ajax和websocket通道,这意味着它可以在任何现代(和一些较旧的)浏览器上使用。

        2
  •  0
  •   Mark Bolusmjak    14 年前

    http://htmlunit.sourceforge.net/ .
    有一个JRuby包装器可用 http://celerity.rubyforge.org/

    特征(取自现场)包括:

    • 快速-无需耗时的GUI 呈现或不必要的下载
    • 易于使用-简单的API
    • 可伸缩性—Java线程允许您并行运行测试
    • 可移植的跨平台得益于JVM
    • 无干扰-没有浏览器窗口中断您的工作流程(在 (背景)