代码之家  ›  专栏  ›  技术社区  ›  bendewey

如何对自己的网站进行爬网?

  •  1
  • bendewey  · 技术社区  · 15 年前

    我继承了一个旧的经典ASP网站进行修改。虽然没有事先要求,但我想删除一些旧的“孤立”页面。

    出于某种原因,老开发人员决定创建多个文件实例,而不是使用源代码管理(例如 index-t.asp, index-feb09.asp, index-menutest.asp )

    我想知道是否有人知道一个程序或网站,可以为我自己的网站爬行?它可能需要能够对公共站点进行爬行,因为有很多包含文件。另外,有些URL是相对的,有些是绝对的。

    4 回复  |  直到 13 年前
        1
  •  3
  •   JonnyBoats    15 年前

    我最喜欢的工具是 Xenu .

        2
  •  1
  •   David Weitz    15 年前

    还有W3C链接检查器: http://validator.w3.org/checklink

        3
  •  0
  •   Norman Ramsey    15 年前

    您不应该让一个曾经有效的URL过时。糟糕的网页开发人员!不要饼干!!

        4
  •  -1
  •   John Saunders    15 年前

    您应该考虑:

    1. 将整个现有站点放入源代码管理,然后
    2. 删除多余的页面,看看谁投诉