代码之家  ›  专栏  ›  技术社区  ›  Don

当项目过期时从Google中删除上载的文件

  •  0
  • Don  · 技术社区  · 15 年前

    我们正在使用谷歌CSE(定制搜索引擎)付费服务来索引我们网站上的内容。该站点主要由包含文件的PHP页面组成,但也有一些动态页面将信息从数据库拉入单页模板(例如新版本)。我们的问题是,我可以为数据库中的内容设置一个过期日期,所以说“id=2”将显示一个“此内容已过期”通知。但是,如果ID2附加了一个已上载的PDF,则该PDF文件仍保留在搜索索引中。

    我知道我可以编写一个清理脚本,让cron运行它来查看数据库,查找过期的内容,检查是否附加了任何上载的文件,并重命名或删除它们,但必须有更好的解决方案(我希望)。

    请告诉我你过去是否遇到过这种情况,以及你的建议。

    谢谢, d.

    2 回复  |  直到 14 年前
        1
  •  0
  •   mattbasta    15 年前

    不幸的是,目前没有办法给你一个直接的答案:我们不知道你的PDF是如何“附加”到你的页面上的,也不知道你的DB是如何构造的。

    最好的解决方案是创建一个 robots.txt 阻止要删除的特定PDF文件的URL的文件。谷歌将在下一次通过时(通常在一个小时内)将它们从索引中删除。

    http://www.robotstxt.org/

        2
  •  0
  •   Don    14 年前

    我们最后做的是将一个检查脚本绑定到上传脚本上,一旦它完成了当前的上传,旧文件就会被“取消链接”,数据库记录也会被删除。

    对于我们来说,这是可行的,因为这是一种“添加一个/删除一个”的情况,我们希望一组项目以滚动顺序出现。

    推荐文章