代码之家 › 专栏 › 技术社区 › chenyf

使用cro或http::useragent时获取url get stucks的内容

cro perl6 web-scraping

chenyf · 技术社区 · 6 年前

我想知道 https://translate.google.cn 然而, Cro::HTTP::Client 和 HTTP::UserAgent 就是斯图克,还有 WWW 获取内容,我不知道为什么。如果我改变 $url 到 https://perl6.org ,所有三个模块工作正常:

my $url = "https://translate.google.cn";
use Cro::HTTP::Client;
my $resp = await Cro::HTTP::Client.new(
    headers => [
       User-agent => 'Cro'
   ]
).get($url);
say await $resp.body-text();



use HTTP::UserAgent;
my $ua = HTTP::UserAgent.new;
$ua.timeout = 30;
my $response = $ua.get($url);

if $response.is-success {
    say $response.content;
} else {
    die $response.status-line;
}
)

use WWW;
say get($url)

我错过了什么吗?谢谢你给我的建议。

2 回复 | 直到 6 年前

ugexe 6 年前

为了我 HTTP::UserAgent 作品及 Cro::HTTP::Client 卡住了。如果要进一步调试,两个模块都有一个调试选项:

perl6 -MHTTP::UserAgent -e 'my $ua = HTTP::UserAgent.new(:debug); say $ua.get("https://translate.google.cn").content'

CRO_TRACE=1 perl6 -MCro::HTTP::Client -e 'my $ua = Cro::HTTP::Client.new(); say $ua.get("https://translate.google.cn").result.body-text.result'

WWW 也为我工作。令人惊讶的是,它对你有用,因为它有 http::UsAgent (这对你不起作用)。这是它的 get 向您展示它如何使用的方法 http::UsAgent 以下内容:

sub get ($url, *%headers) is export(:DEFAULT, :extras) {
    CATCH { .fail }
    %headers<User-Agent> //= 'Rakudo WWW';
    with HTTP::UserAgent.new.get: $url, |%headers {
        .is-success or fail .&err;
        .decoded-content
    }
}

shalomb 6 年前

这可能取决于有问题的https站点上的http2。事实上,你所描述的几乎就是我在 https://github.com/croservices/cro-http/issues/45 .

解决方法是尝试使用HTTP/1.1进行请求,直到修复完成。

Cro::HTTP::Client.get('https://translate.google.cn', :http<1.1>);

推荐文章

Omega500 · AttributeError:ResultSet对象没有属性“find\u all”

2 年前

Christina Norwood · 我需要什么Python技术来获取二进制边距数据?

2 年前

mexicanRmy · Selenium Select不处理下拉元素

2 年前

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

Fadi Ft Ftena · 基于类名的Web抓取

2 年前

Amen Aziz · 熊猫中的数据被覆盖

2 年前

Amen Aziz · csv文件中的数据不提供任何信息

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

Yungi Jeong · 在使用selenium进行web抓取后,我在csv文件中得到了奇怪的结果。。内容不是特定的内容,而是html代码

2 年前