代码之家  ›  专栏  ›  技术社区  ›  Chris

DotNetNuke机器人。txt没有受到谷歌机器人的尊重

  •  0
  • Chris  · 技术社区  · 7 年前

    我安装了多门户dotnetnuke:
    域名1.com
    域名2.com
    域名3.com等

    服务器是32 gigs,8核。

    我有一个机器人。txt文件。当谷歌开始爬行时,我看到在多个谷歌ip地址的情况下,数小时内cpu峰值达到100%。据IIS称,它试图爬网的url是/lmm-product-service/elmah。axd/细节?id=af51e96f-d0cd-4598-90ad-ebe980947fa6,每次启动时使用新id。谷歌机器人的所有当前实例的url都是相同的,但当爬行再次开始时会发生变化。

    该url无效。当我试图在浏览器中访问它时,我得到一个404错误——找不到。

    我试图在我的机器人中禁止/lmm产品服务。txt无效:

        User-agent: Googlebot
        Disallow: /*/ctl/       # Googlebot permits *
        Disallow: /admin/
        Disallow: /lmm-product-service/
    

    实际上不仅仅是谷歌在做这件事。这也是AHREF,但我已经在防火墙上阻止了它们。

    有什么建议吗?

    2 回复  |  直到 7 年前
        1
  •  0
  •   Prof. Hermsen    7 年前

    问题是ELMAH,一个外部ASP。网络记录器。如果DNN使用此记录器,则DNN软件中存在错误!正在升级DNN!!。。。错误:系统。组件模型。你确定谷歌机器人是真的吗?有假货

        2
  •  0
  •   Chris    7 年前

    好啊祈祷吧。我采取了不同的策略。我只是添加了一个URLRewite规则:

        <rule name="KillElmahRequests" enabled="true" stopProcessing="true">
            <match url=".*elmah.*" />
            <action type="AbortRequest" />
        </rule>
    

    现在已经快90分钟了,没有任何问题。我仍然不知道为什么机器人会试图抓取一个不存在的url,为什么因为它不存在,它会吃掉w3wp。exe进程,但这似乎是工作。