代码之家  ›  专栏  ›  技术社区  ›  chairam

为什么使用管道?

  •  1
  • chairam  · 技术社区  · 7 年前

    我有一个工作在刮+飞溅爬虫。它在许多页面上启动蜘蛛。每个页面都包含一个链接列表。对于每个页面,爬行器下载该页面,然后从该页面链接一些页面(不是递归的)。所有页面都保存在文件系统中。该系统运行完美。目前,我正在对其进行重构,以添加一些DB交互。 我没有使用项目,也没有项目管道。

    添加一些信息: 我的爬虫程序的目的是下载整个页面(html、png或使用库转换为txt)。只要蜘蛛有 response 为了保存,它将其传递给封装所有io操作(文件系统和数据库)的库。因此,通过这种方式,它比使用项目(带有用于转换的样板)和管道更简单。

    1 回复  |  直到 7 年前
        1
  •  3
  •   TomáÅ¡ Linhart    7 年前

    在我看来,使用管道只是遵循 separation of concerns 道德原则你的蜘蛛可以做很多事情,但它的核心功能是从网页中提取信息。其余部分可以(也可能应该)重构为管道或扩展。