代码之家  ›  专栏  ›  技术社区  ›  Simon

导入CMS的索引网站

  •  0
  • Simon  · 技术社区  · 14 年前

    我需要将一个网站迁移到一个新的CMS。我们无法访问原始站点,除非通过 http://mysite.com . 我们现在有各种各样的脚本。索引网站和ii)。创建一些层次结构和iii)。抓取唯一的内容(即忽略页眉/页脚/模板等)。 除了索引站点之外,这些脚本实际上工作得非常好。有没有一个好的实用程序可以索引一个站点的所有唯一URL。

    目前我们使用的是

    $oHTML = new simple_html_dom();
    $oHTML->setBody(file_get_contents('http://mysite.com'));
    foreach($oHTML->find('a') as $oLink) {}
    

    和一个递归函数来点击所有的唯一链接…

    问题是…PHP速度很慢,很快达到内存限制…这是正确的做法吗?我能用狮身人面像或者开源搜索引擎或者其他什么东西来帮我…

    1 回复  |  直到 14 年前
        1
  •  0
  •   ajreal    14 年前
    1. 使用wget对站点进行爬网,并存档到本地磁盘
    2. 完成后,查找所有文件(假定为*.htm),删除\u html_标记,然后插入数据库
    3. 然后使用sphinx pecl库进行索引 sphinx::buildExcerpts

    或者,在步骤2之后
    只需运行sphinx re index的索引器