代码之家  ›  专栏  ›  技术社区  ›  Paul

使用node.js将现有静态网站结构导入JSON对象

  •  -1
  • Paul  · 技术社区  · 10 年前

    我正在创建一个在线工具,要求用户从现有的静态html网站导入网站结构(即页面及其相互关系)。

    由于此功能将用于导入旧网站,因此需要在没有现有sitemap.xml文件的情况下工作。

    例如,对于一个简单的网站 http://www.jssor.com/demos/index.html 提取的json数组应该如下所示:

    {
       name: "Responsive jQuery Image Slider",
       children: [{
              name: 'Development',
              children: [..insert-sub-pages-here..]
          }, {
              name: 'Demos'
          }, {
              name: 'Download'
          }
       ]
    }
    

    我真的不知道该怎么解决这个问题。

    对于我如何应对这一挑战的任何建议都将非常感谢。

    1 回复  |  直到 10 年前
        1
  •  0
  •   roman    10 年前

    我建议你使用基本的网页抓取技术。这是一个很棒的工具 啦啦队 -将其视为无头服务器的类似查询的语法。 你可以找到 nice beginners tutorial on the subject here

    如果cheerio缺少任何你需要的东西(抓取动态内容等),你也可以看看casperjs,本质上是一个完全无头的浏览器。