代码之家  ›  专栏  ›  技术社区  ›  Fabio Milheiro

谷歌爬虫发现机器人.txt,但无法下载

  •  2
  • Fabio Milheiro  · 技术社区  · 14 年前

    http://bizup.cloudapp.net/robots.txt

    以下是我在Google网站管理员工具中遇到的错误:

    Sitemap errors and warnings
    Line    Status  Details
    Errors  -   
    Network unreachable: robots.txt unreachable
    We were unable to crawl your Sitemap because we found a robots.txt file at the root of
    your site but were unable to download it. Please ensure that it is accessible or remove
    it completely.
    

    实际上,上面的链接是一个路径的映射,该路径通过一个动作机器人。该操作从存储器中获取文件,并以text/plain格式返回内容。谷歌说他们不能下载这个文件。是因为这个吗?

    4 回复  |  直到 14 年前
        1
  •  4
  •   stevemegson    14 年前

    好像在读机器人.txt好吧,但是你的机器人.txt然后声称 http://bizup.cloudapp.net/robots.txt http://bizup.cloudapp.net/sitemap.xml . 这个错误似乎来自Google试图解析机器人.txt作为XML站点地图。你得换衣服机器人.txt到

    User-agent: *
    Allow: /
    Sitemap: http://bizup.cloudapp.net/sitemap.xml
    

    编辑

    它实际上比这更深入了一点,而且Googlebot根本无法下载你网站上的任何页面。当Googlebot请求机器人.txt或主页:

    此应用程序不支持Cookieless Forms身份验证。

    异常详细信息:System.Web.HttpException异常:无Cookieless窗体身份验证 此应用程序不支持。

    [HttpException (0x80004005): Cookieless Forms Authentication is not supported for this application.]
    AzureBright.MvcApplication.FormsAuthentication_OnAuthenticate(Object sender, FormsAuthenticationEventArgs args) in C:\Projectos\AzureBrightWebRole\Global.asax.cs:129
    System.Web.Security.FormsAuthenticationModule.OnAuthenticate(FormsAuthenticationEventArgs e) +11336832
    System.Web.Security.FormsAuthenticationModule.OnEnter(Object source, EventArgs eventArgs) +88
    System.Web.SyncEventExecutionStep.System.Web.HttpApplication.IExecutionStep.Execute() +80
    System.Web.HttpApplication.ExecuteStep(IExecutionStep step, Boolean& completedSynchronously) +266
    

    我认为最简单的方法就是改变以下几点web.config文件,这将阻止FormsAuthentication尝试使用无炊具模式。。。

    <authentication mode="Forms"> 
        <forms cookieless="UseCookies" ...>
        ...
    
        2
  •  2
  •   John James    12 年前

    我用一种简单的方法解决了这个问题:只需添加一个机器人.txt文件(与我的索引.html文件),以允许所有访问。我把它漏掉了,打算让所有人都能通过这种方式访问——但也许谷歌网站管理员工具找到了另一个机器人.txt由我的ISP控制?

    所以看来,至少对一些ISP来说,你应该有一个机器人.txt文件,即使您不想排除任何机器人,只是为了防止这个可能的故障。

        3
  •  1
  •   Sharjeel Aziz    14 年前

    500 Internal Server Error . 以下是标头检查的结果:

    REQUESTING: http://bizup.cloudapp.net/robots.txt
    GET /robots.txt HTTP/1.1
    Connection: Keep-Alive
    Keep-Alive: 300
    Accept:*/*
    Host: bizup.cloudapp.net
    Accept-Language: en-us
    Accept-Encoding: gzip, deflate
    User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    
    SERVER RESPONSE: 500 INTERNAL SERVER ERROR
    Cache-Control: private
    Content-Type: text/html; charset=utf-8
    Server: Microsoft-IIS/7.0
    X-AspNet-Version: 4.0.30319
    X-Powered-By: ASP.NET
    Date: Thu, 19 Aug 2010 16:52:09 GMT
    Content-Length: 4228
    Final Destination Page
    

    http://www.seoconsultants.com/tools/headers/#Report

        4
  •  1
  •   Déjà vu    14 年前

    我没问题得到你的同意机器人.txt

    User-agent: *
    Allow: /
    Sitemap: http://bizup.cloudapp.net/robots.txt
    

    但是,它不是在执行递归吗机器人.txt打电话?

    站点地图应该是xml文件,请参见 Wikipedia

    推荐文章