代码之家  ›  专栏  ›  技术社区  ›  Mrowkacala

特定网页的刮壳

  •  0
  • Mrowkacala  · 技术社区  · 6 年前

    我想推出scrapy shell https://www.trekearth.com 之后

    scrapy shell https://www.trekearth.com
    

    我收到

    2018-05-11 16:02:04 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying 
    <GET https://www.trekearth.com> (failed 1 times): 524 Unknown Status
    2018-05-11 16:02:05 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying 
    <GET https://www.trekearth.com> (failed 2 times): 502 Bad Gateway
    2018-05-11 16:03:45 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up 
    retrying <GET https://www.trekearth.com> (failed 3 times): 524 Unknown Status
    

    原因是什么?我检查过的其他每个网站都没有返回可比的结果。

    1 回复  |  直到 6 年前
        1
  •  1
  •   gangabass    6 年前

    这是一种用户代理筛选:

    scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" https://www.trekearth.com