代码之家  ›  专栏  ›  技术社区  ›  Blixt

防止搜索引擎索引页面上不相关内容的方法

  •  13
  • Blixt  · 技术社区  · 15 年前

    我正在寻找防止索引页面部分的方法。具体来说,在一个页面上的评论,因为他们根据用户写的内容来权衡条目。这使得谷歌在页面上搜索会返回许多不相关的页面。

    以下是我目前正在考虑的选项:

    1) 使用javascript加载注释以防止搜索引擎看到它们。

    2) 使用用户代理嗅探来简单地不输出爬虫的注释。

    3) 使用搜索引擎特定的标记隐藏页面的某些部分。不过,这种解决方案充其量似乎有些离奇。据说,这样做可以防止雅虎!索引特定内容:

    <div class="robots-nocontent">
    This content will not be indexed!
    </div>
    

    这是一种非常丑陋的方式。我读到一个看起来更好的谷歌解决方案,但我相信它只适用于谷歌搜索设备(有人能证实这一点吗?)以下内容:

    <!--googleoff: all-->
    This content will not be indexed!
    <!--googleon: all-->
    

    有人有其他方法可以推荐吗?以上三种方法中哪一种最好?就个人而言,我倾向于2,因为虽然它可能不适用于所有的搜索引擎,但很容易瞄准最大的搜索引擎。而且它对用户没有副作用,除非他们故意模仿一个网络爬虫。

    4 回复  |  直到 15 年前
        1
  •  7
  •   autonomatt    15 年前

    我将使用您的javascript选项。它有两个优点:

    1)机器人看不到 2)它将加快页面加载时间(异步、不引人注意地加载注释,例如通过jquery加载)。页面加载时间对你的搜索排名有很大的负面影响。

        2
  •  4
  •   Dom Hodgson    15 年前

    javascript是一个选项,但是引擎在阅读javascript方面做得更好,老实说,我认为你对它的思考太多了,引擎喜欢独特的内容,你在每一页上拥有的内容越多越好,如果用户提供它…它是圣杯。

    仅仅因为你的评论在你的烤面包机评论中提到了星球大战并不意味着你不打算为烤面包机模型排名,它只是意味着你可能为星球大战烤面包机排名。

    另一个想法是,你只能向登录的人显示评论,College幽默和我相信的一样,他们显示了一篇文章的评论量,但是你必须登录才能看到。

        3
  •  2
  •   Emil Vikström    15 年前

    googleoff和googleon是 Google Search Appliance 这是一个搜索引擎,他们销售给需要搜索自己内部文档的公司。它对Google网站来说是无效的。

    事实上,我认为1号是最好的解决方案。搜索引擎不喜欢你给他们其他的材料,而不是你给你的用户,所以第二个可能会让你从搜索列表中一脚踢开。

        4
  •  1
  •   JohnnySoftware    15 年前

    这是我第一次听说搜索引擎提供了一种方法来通知他们页面的一部分是无关的。

    Google有一个功能,允许网站管理员声明其网站的某些部分,以便在爬行时使用Web搜索引擎来查找网页。

    1. http://www.google.com/webmasters/
    2. http://www.sitemaps.org/protocol.php

    通过在HTML页面的头部分使用meta标记指定最相关的关键字,您可能能够相对地取消对页面上某些内容的强调。我认为这更符合一开始用于设计搜索引擎的工程原理。

    Google's Search Engine Optimization tips . 他们清楚地说明了他们会做什么,不会让你影响他们如何索引你的网站。