代码之家  ›  专栏  ›  技术社区  ›  Tejas

建议最好的定制爬虫和刮板

  •  0
  • Tejas  · 技术社区  · 14 年前

    我有一个网站,这是相当不错,但与非常少的信息。 所以我想添加一些信息,比如关于某个特定领域的新闻(比如政治、好莱坞等)。我相信爬虫是最好的方法吗?我的理解是正确的,请建议如果你觉得有任何其他方式来获取信息,而不使用爬虫从各种来源。

    第二,我在做过去两天的研究,我找不到一个特定的来源,能够这样做。现在我想爬虫找到信息,规范化和存储在mysql数据库。听起来很简单哈。但这不是给我的。

    因为这非常耗费资源和时间。在选择爬虫之前,我应该考虑哪些因素。我也希望自定义它,所以任何工具,这是开源和良好的定制将是伟大的。

    在创建爬虫程序或对爬虫程序进行教育时,任何提供有关因素的信息和研究的来源都需要加以考虑。 我更喜欢用java编写代码,但我可以用任何其他语言编写代码,以防你觉得自己有某种语言。 我希望我已经提供了足够的信息。请不要犹豫,如果您需要任何更多的信息,提出建议。

    2 回复  |  直到 11 年前
        1
  •  0
  •   Vikash    14 年前

    你可以用 httrack

    如果您想解析页面中的数据,那么可以使用 simple_html_dom 并将信息存储在mySQL中。

        2
  •  0
  •   anirvan    14 年前

    试试这个 GNU Wget 工具。您可以为它爬行和创建网页数据转储的方式添加许多智能。它是开源的,也可以定制,而且速度非常快。