代码之家  ›  专栏  ›  技术社区  ›  simonalexander2005

如何跟踪网站内的链接

  •  0
  • simonalexander2005  · 技术社区  · 14 年前

    所以我把一个旧的网站转移到一个新的服务器上,并尝试在此过程中进行清理。

    我要找的是一些脚本或免费软件,可以:

    a)显示通过网站的路径(超链接等),这样我可以看到指向什么的链接

    以及b)一些软件,可以看到哪些HTML文件在文件夹结构中是孤立的(未链接到)。

    任何一个或两个方面的帮助都将非常感谢:)

    4 回复  |  直到 14 年前
        1
  •  1
  •   RobertPitt    14 年前

    http://haveamint.com/ 一言为定,图形用户界面美观,集成简单,重量轻,数据库存储,javascript跟踪。

    有薄荷(Y)

    或者你可以直接使用谷歌分析的witch,现在几乎每个网站都在使用它。

        2
  •  1
  •   troelskn    14 年前

    a)显示通过网站的路径(超链接等),这样我可以看到指向什么的链接

    所以基本上是个爬虫?你可以通过一个HTTP库、一个HTML解析器和任何一种脚本语言将一些东西组合在一起。不过,我不知道有现成的剧本。

    和b)一些软件可以看到哪些HTML文件是文件夹结构中的孤立文件(未链接到)。

    您的站点是由纯HTML文件组成的,还是有一些服务器端技术,如PHP?如果是这样的话,就没有办法自动检测所说的孤立页,因为它们是作为服务器端应用程序的函数生成的,而不是实际的页面,即使它们可能在浏览器中出现。

        3
  •  1
  •   dmig    14 年前

    a)根据站点的复杂性和内容的动态性,您可以下载任何spider,并将其限制在wevsite上,然后检查结果(“burp套件”包含一个非常好的spider,并且是所有人都应该知道的工具)。

    b)在spider完成工作后,检查wevsites目录中所有文件的访问时间。任何访问时间早于spider执行时间的文件都可能是孤立文件。

    (这两种解决方案在使用用户输入重新浏览网页的网站上效果都较差)

        4
  •  0
  •   simonalexander2005    14 年前

    home.snafu.de/tilman/xenulink.html(xenulink)提供链接蜘蛛,并通过ftp访问检查孤立文件。