代码之家 › 专栏 › 技术社区 › Nyxynyx

使用幻影的网页HTML

phantomjs screen-scraping node.js javascript php

Nyxynyx · 技术社区 · 12 年前

我正在尝试使用PhantomJS加载页面(使用Javascript加载网页上的项目),并返回页面上的所有HTML(至少在 <body /> 标记)添加到执行的PHP函数 phantomjs httpget.js 。

问题: 我可以让phantomjs返回 document.title ,但要求它 console.log(document.body) 简单给我一个 [object Object] 。如何提取页面的HTML?

与浏览器相比,使用phantomjs加载网页也需要更长的时间 。

httpget.js

console.log('hello!');
var page = require('webpage').create();
page.open("http://www.asos.com/Men/T-Shirts-Vests/Cat/pgecategory.aspx?cid=7616#parentID=-1&pge=0&pgeSize=900&sort=1",
    function(status){
        console.log('Page title is ' + page.evaluate(function () {
            return document.body;
        }));
        phantom.exit();
    });

输出 (从shell运行)

hello!
Page title is [object Object]

3 回复 | 直到 12 年前

Lusitanian 12 年前

document.body.innerHTML 包含正文的HTML。

Matt Sergeant 12 年前

不确定这与Node.js有什么关系,因为你似乎直接使用PhantomJS,而不是节点(或通过节点phantom使用phantom)。。。

但要回答您的问题,您需要这样做:

var html = page.evaluate(function () {
    var root = document.getElementsByTagName("html")[0];
    var html = root ? root.outerHTML : document.body.innerHTML;
    return html
});

这适用于没有外部<html>标签

Ariya Hidayat 12 年前

阅读文档, page.content 获取整个HTML。

推荐文章

Xeno Boss · 使用phantomJS获取HTML元素属性

7 年前

user3622142 · CasperJs电子邮件在textbox上无效

7 年前

Googlebot · 如何通过phantomJS实时呈现javascript?

7 年前

jonah13 · NodeJS,我们可以使用phantomJs 2和jsreport呈现快捷方式吗

7 年前

Aric · Selenium在调试期间正常,但运行单击失败

7 年前

ludwig · casperjs在设置id后找不到id

7 年前

Vaibhav · 每当遇到Capybara函数时,在运行Cucumber测试时获取“错误的参数类型Fixnum(预期字符串)(TypeError)”

7 年前

devv · X射线幻影不兼容SockJS错误

7 年前

King in the world. · 如何实现铲运机或履带式铲运机的动态价值?

7 年前

mkHun · 如何在Wight中包含“-ssl protocol=any”?

7 年前