phantomjs不等待“完整”页面加载


137

我正在使用PhantomJS v1.4.1加载某些网页。我无权访问他们的服务器端,我只是获得指向他们的链接。我使用的是Phantom的过时版本,因为我需要在该网页上支持Adobe Flash。

问题在于许多网站正在异步加载其次要内容,这就是为什么Phantom的onLoadFinished回调(HTML中的onLoad模拟)在尚未加载所有内容时触发得太早的原因。谁能建议我如何等待网页的完整加载,例如制作包含所有动态内容(如广告)的屏幕截图?


3
我认为是时候接受答案了
spartikus

Answers:


76

另一种方法是,按照常规rasterize.js示例,仅要求PhantomJS在页面加载后等待一会儿,然后再执行渲染,这要按照常规的rasterize.js示例进行,但超时时间较长,以允许JavaScript完成加载其他资源:

page.open(address, function (status) {
    if (status !== 'success') {
        console.log('Unable to load the address!');
        phantom.exit();
    } else {
        window.setTimeout(function () {
            page.render(output);
            phantom.exit();
        }, 1000); // Change timeout as required to allow sufficient time 
    }
});

1
是的,目前我坚持使用这种方法。
nilfalse

102
抱歉,这是一个可怕的解决方案(这是PhantomJS的错!)。如果您等待一秒钟,但加载时间为20毫秒,则完全浪费时间(请考虑批处理作业),或者如果花费的时间超过一秒,它仍然会失败。这种低效率和不可靠性对于专业工作是难以忍受的。
CodeManX

9
真正的问题是,您永远不知道javascript何时会完成页面加载,而浏览器也不知道。想象一下,其中有一些javascript在无限循环中从服务器加载内容的站点。从浏览器的角度来看-JavaScript执行永无休止,那么您想让phantomjs告诉您它已经完成的那一刻是什么呢?在一般情况下,此问题是无法解决的,除非等待超时解决方案并希望获得最佳解决方案。
马克西姆Galushka

5
截至2016年,这仍然是最好的解决方案吗?看来我们应该能够做得更好。
亚当·汤普森

6
如果您控制着要阅读的代码,则可以显式地调用phantom js回调:phantomjs.org/api/webpage/handler/on-callback.html
Andy Smith

52

我宁愿定期检查document.readyState状态(https://developer.mozilla.org/en-US/docs/Web/API/document.readyState)。尽管这种方法有点笨拙,但是您可以确定内部onPageReady函数正在使用完全加载的文档。

var page = require("webpage").create(),
    url = "http://example.com/index.html";

function onPageReady() {
    var htmlContent = page.evaluate(function () {
        return document.documentElement.outerHTML;
    });

    console.log(htmlContent);

    phantom.exit();
}

page.open(url, function (status) {
    function checkReadyState() {
        setTimeout(function () {
            var readyState = page.evaluate(function () {
                return document.readyState;
            });

            if ("complete" === readyState) {
                onPageReady();
            } else {
                checkReadyState();
            }
        });
    }

    checkReadyState();
});

附加说明:

当出于某些随机原因而延长执行时间时,使用嵌套setTimeout而不是setInterval阻止checkReadyState“重叠”和竞争条件。setTimeout默认延迟为4毫秒(https://stackoverflow.com/a/3580085/1011156),因此主动轮询不会严重影响程序性能。

document.readyState === "complete"表示文档已完全加载了所有资源(https://html.spec.whatwg.org/multipage/dom.html#current-document-readiness)。


4
关于setTimeout vs setInterval的评论很棒。
Gal Bracha 2015年

1
readyState仅在DOM完全加载后才会触发,但是任何<iframe>元素都可能仍在加载,因此它并不能真正回答原始问题
CodingIntrigue

1
@rgraham这并不理想,但我认为我们只能使用这些渲染器做很多事情。在某些极端情况下,您将不知道是否已完全加载某些东西。考虑一个故意使内容延迟一两分钟的页面。期望渲染过程停下来等待不确定的时间是不合理的。从外部源加载的内容可能很慢,这也是一样。
布兰登·埃利奥特

3
在DOM完全加载后,例如Backbone / Ember / Angular,这不会考虑任何JavaScript加载。
亚当·汤普森

1
根本没有为我工作。readyState complete可能已被解雇,但此时页面为空白。
史蒂夫·斯台

21

您可以尝试结合使用waitfor和rasterize示例:

/**
 * See https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js
 * 
 * Wait until the test condition is true or a timeout occurs. Useful for waiting
 * on a server response or for a ui change (fadeIn, etc.) to occur.
 *
 * @param testFx javascript condition that evaluates to a boolean,
 * it can be passed in as a string (e.g.: "1 == 1" or "$('#bar').is(':visible')" or
 * as a callback function.
 * @param onReady what to do when testFx condition is fulfilled,
 * it can be passed in as a string (e.g.: "1 == 1" or "$('#bar').is(':visible')" or
 * as a callback function.
 * @param timeOutMillis the max amount of time to wait. If not specified, 3 sec is used.
 */
function waitFor(testFx, onReady, timeOutMillis) {
    var maxtimeOutMillis = timeOutMillis ? timeOutMillis : 3000, //< Default Max Timout is 3s
        start = new Date().getTime(),
        condition = (typeof(testFx) === "string" ? eval(testFx) : testFx()), //< defensive code
        interval = setInterval(function() {
            if ( (new Date().getTime() - start < maxtimeOutMillis) && !condition ) {
                // If not time-out yet and condition not yet fulfilled
                condition = (typeof(testFx) === "string" ? eval(testFx) : testFx()); //< defensive code
            } else {
                if(!condition) {
                    // If condition still not fulfilled (timeout but condition is 'false')
                    console.log("'waitFor()' timeout");
                    phantom.exit(1);
                } else {
                    // Condition fulfilled (timeout and/or condition is 'true')
                    console.log("'waitFor()' finished in " + (new Date().getTime() - start) + "ms.");
                    typeof(onReady) === "string" ? eval(onReady) : onReady(); //< Do what it's supposed to do once the condition is fulfilled
                    clearInterval(interval); //< Stop this interval
                }
            }
        }, 250); //< repeat check every 250ms
};

var page = require('webpage').create(), system = require('system'), address, output, size;

if (system.args.length < 3 || system.args.length > 5) {
    console.log('Usage: rasterize.js URL filename [paperwidth*paperheight|paperformat] [zoom]');
    console.log('  paper (pdf output) examples: "5in*7.5in", "10cm*20cm", "A4", "Letter"');
    phantom.exit(1);
} else {
    address = system.args[1];
    output = system.args[2];
    if (system.args.length > 3 && system.args[2].substr(-4) === ".pdf") {
        size = system.args[3].split('*');
        page.paperSize = size.length === 2 ? {
            width : size[0],
            height : size[1],
            margin : '0px'
        } : {
            format : system.args[3],
            orientation : 'portrait',
            margin : {
                left : "5mm",
                top : "8mm",
                right : "5mm",
                bottom : "9mm"
            }
        };
    }
    if (system.args.length > 4) {
        page.zoomFactor = system.args[4];
    }
    var resources = [];
    page.onResourceRequested = function(request) {
        resources[request.id] = request.stage;
    };
    page.onResourceReceived = function(response) {
        resources[response.id] = response.stage;
    };
    page.open(address, function(status) {
        if (status !== 'success') {
            console.log('Unable to load the address!');
            phantom.exit();
        } else {
            waitFor(function() {
                // Check in the page if a specific element is now visible
                for ( var i = 1; i < resources.length; ++i) {
                    if (resources[i] != 'end') {
                        return false;
                    }
                }
                return true;
            }, function() {
               page.render(output);
               phantom.exit();
            }, 10000);
        }
    });
}

3
似乎不适用于使用任何服务器推送技术的网页,因为onLoad发生后资源仍在使用中。
nilfalse

做任何驱动程序,例如。poltergeist,具有这样的功能吗?
杰里德·贝克

是否可以使用waitFor轮询整个html文本并搜索已定义的关键字?我尝试实现此功能,但似乎轮询未刷新为最新下载的html源。
fpdragon

14

也许您可以使用onResourceRequestedonResourceReceived回调来检测异步加载。这是在文档中使用这些回调的示例:

var page = require('webpage').create();
page.onResourceRequested = function (request) {
    console.log('Request ' + JSON.stringify(request, undefined, 4));
};
page.onResourceReceived = function (response) {
    console.log('Receive ' + JSON.stringify(response, undefined, 4));
};
page.open(url);

另外,您可以查看examples/netsniff.js一个可行的示例。


但是在这种情况下,我不能使用一个PhantomJS实例一次加载多个页面,对吗?
nilfalse 2012年

onResourceRequested是否适用于AJAX /跨域请求?还是仅适用于CSS,图片等?
CMCDragonkai 2013年

@CMCDragonkai我自己从未使用过它,但是基于此,它似乎包含所有请求。Quote:All the resource requests and responses can be sniffed using onResourceRequested and onResourceReceived
2013年

我在大规模PhantomJS渲染中使用了这种方法,并且效果很好。您确实需要很多聪明才智来跟踪请求并查看请求是否失败或超时。更多信息:sorcery.smugmug.com/2013/12/17/using-phantomjs-at-scale
Ryan Doherty

14

这是一个等待所有资源请求完成的解决方案。完成后,它将页面内容记录到控制台并生成渲染页面的屏幕截图。

尽管此解决方案可以作为一个很好的起点,但是我已经观察到它失败了,因此它绝对不是一个完整的解决方案!

我没有太多运气document.readyState

我被影响waitfor.js信中例如phantomjs例子页面

var system = require('system');
var webPage = require('webpage');

var page = webPage.create();
var url = system.args[1];

page.viewportSize = {
  width: 1280,
  height: 720
};

var requestsArray = [];

page.onResourceRequested = function(requestData, networkRequest) {
  requestsArray.push(requestData.id);
};

page.onResourceReceived = function(response) {
  var index = requestsArray.indexOf(response.id);
  requestsArray.splice(index, 1);
};

page.open(url, function(status) {

  var interval = setInterval(function () {

    if (requestsArray.length === 0) {

      clearInterval(interval);
      var content = page.content;
      console.log(content);
      page.render('yourLoadedPage.png');
      phantom.exit();
    }
  }, 500);
});

竖起大拇指,但使用setTimeout而不是间隔为10
GDmac

在将它从请求数组中删除之前,应检查response.stage是否等于“ end”,否则可能会被过早删除。
Reimund

这不,如果你的网页动态加载的DOM
巴迪

13

在我的程序中,我使用一些逻辑来判断它是否处于加载状态:观察它是网络请求,如果过去200毫秒内没有新请求,则将其视为加载状态。

在onLoadFinish()之后使用它。

function onLoadComplete(page, callback){
    var waiting = [];  // request id
    var interval = 200;  //ms time waiting new request
    var timer = setTimeout( timeout, interval);
    var max_retry = 3;  //
    var counter_retry = 0;

    function timeout(){
        if(waiting.length && counter_retry < max_retry){
            timer = setTimeout( timeout, interval);
            counter_retry++;
            return;
        }else{
            try{
                callback(null, page);
            }catch(e){}
        }
    }

    //for debug, log time cost
    var tlogger = {};

    bindEvent(page, 'request', function(req){
        waiting.push(req.id);
    });

    bindEvent(page, 'receive', function (res) {
        var cT = res.contentType;
        if(!cT){
            console.log('[contentType] ', cT, ' [url] ', res.url);
        }
        if(!cT) return remove(res.id);
        if(cT.indexOf('application') * cT.indexOf('text') != 0) return remove(res.id);

        if (res.stage === 'start') {
            console.log('!!received start: ', res.id);
            //console.log( JSON.stringify(res) );
            tlogger[res.id] = new Date();
        }else if (res.stage === 'end') {
            console.log('!!received end: ', res.id, (new Date() - tlogger[res.id]) );
            //console.log( JSON.stringify(res) );
            remove(res.id);

            clearTimeout(timer);
            timer = setTimeout(timeout, interval);
        }

    });

    bindEvent(page, 'error', function(err){
        remove(err.id);
        if(waiting.length === 0){
            counter_retry = 0;
        }
    });

    function remove(id){
        var i = waiting.indexOf( id );
        if(i < 0){
            return;
        }else{
            waiting.splice(i,1);
        }
    }

    function bindEvent(page, evt, cb){
        switch(evt){
            case 'request':
                page.onResourceRequested = cb;
                break;
            case 'receive':
                page.onResourceReceived = cb;
                break;
            case 'error':
                page.onResourceError = cb;
                break;
            case 'timeout':
                page.onResourceTimeout = cb;
                break;
        }
    }
}

11

我发现这种方法在某些情况下很有用:

page.onConsoleMessage(function(msg) {
  // do something e.g. page.render
});

比起拥有网页,您应该在其中放一些脚本:

<script>
  window.onload = function(){
    console.log('page loaded');
  }
</script>

这看起来是一个非常不错的解决方法,但是,我无法从HTML / JavaScript页面中获取任何日志消息以通过phantomJS ... onConsoleMessage事件从未触发,而我可以在浏览器控制台上完美地看到消息,并且我不知道为什么。
德克

1
我需要page.onConsoleMessage = function(msg){};
安迪·巴兰

5

我发现此解决方案在NodeJS应用中很有用。我只是在绝望的情况下使用它,因为它会启动超时以等待整个页面加载。

第二个参数是回调函数,响应准备就绪后将被调用。

phantom = require('phantom');

var fullLoad = function(anUrl, callbackDone) {
    phantom.create(function (ph) {
        ph.createPage(function (page) {
            page.open(anUrl, function (status) {
                if (status !== 'success') {
                    console.error("pahtom: error opening " + anUrl, status);
                    ph.exit();
                } else {
                    // timeOut
                    global.setTimeout(function () {
                        page.evaluate(function () {
                            return document.documentElement.innerHTML;
                        }, function (result) {
                            ph.exit(); // EXTREMLY IMPORTANT
                            callbackDone(result); // callback
                        });
                    }, 5000);
                }
            });
        });
    });
}

var callback = function(htmlBody) {
    // do smth with the htmlBody
}

fullLoad('your/url/', callback);

3

这是Supr答案的实现。此外,它使用setTimeout代替了Mateusz Charytoniuk建议的setInterval。

当没有任何请求或响应时,Phantomjs将在1000ms内退出。

// load the module
var webpage = require('webpage');
// get timestamp
function getTimestamp(){
    // or use Date.now()
    return new Date().getTime();
}

var lastTimestamp = getTimestamp();

var page = webpage.create();
page.onResourceRequested = function(request) {
    // update the timestamp when there is a request
    lastTimestamp = getTimestamp();
};
page.onResourceReceived = function(response) {
    // update the timestamp when there is a response
    lastTimestamp = getTimestamp();
};

page.open(html, function(status) {
    if (status !== 'success') {
        // exit if it fails to load the page
        phantom.exit(1);
    }
    else{
        // do something here
    }
});

function checkReadyState() {
    setTimeout(function () {
        var curentTimestamp = getTimestamp();
        if(curentTimestamp-lastTimestamp>1000){
            // exit if there isn't request or response in 1000ms
            phantom.exit();
        }
        else{
            checkReadyState();
        }
    }, 100);
}

checkReadyState();

3

这是我使用的代码:

var system = require('system');
var page = require('webpage').create();

page.open('http://....', function(){
      console.log(page.content);
      var k = 0;

      var loop = setInterval(function(){
          var qrcode = page.evaluate(function(s) {
             return document.querySelector(s).src;
          }, '.qrcode img');

          k++;
          if (qrcode){
             console.log('dataURI:', qrcode);
             clearInterval(loop);
             phantom.exit();
          }

          if (k === 50) phantom.exit(); // 10 sec timeout
      }, 200);
  });

基本上,您应该知道当给定元素出现在DOM上时页面已完全下载。因此,脚本将等待直到这种情况发生。


3

我使用phantomjs waitfor.js示例的个人混合。

这是我的main.js文件:

'use strict';

var wasSuccessful = phantom.injectJs('./lib/waitFor.js');
var page = require('webpage').create();

page.open('http://foo.com', function(status) {
  if (status === 'success') {
    page.includeJs('https://cdnjs.cloudflare.com/ajax/libs/jquery/3.1.1/jquery.min.js', function() {
      waitFor(function() {
        return page.evaluate(function() {
          if ('complete' === document.readyState) {
            return true;
          }

          return false;
        });
      }, function() {
        var fooText = page.evaluate(function() {
          return $('#foo').text();
        });

        phantom.exit();
      });
    });
  } else {
    console.log('error');
    phantom.exit(1);
  }
});

lib/waitFor.js文件(只是waifFor()phantomjs waitfor.js示例中函数的复制和粘贴):

function waitFor(testFx, onReady, timeOutMillis) {
    var maxtimeOutMillis = timeOutMillis ? timeOutMillis : 3000, //< Default Max Timout is 3s
        start = new Date().getTime(),
        condition = false,
        interval = setInterval(function() {
            if ( (new Date().getTime() - start < maxtimeOutMillis) && !condition ) {
                // If not time-out yet and condition not yet fulfilled
                condition = (typeof(testFx) === "string" ? eval(testFx) : testFx()); //< defensive code
            } else {
                if(!condition) {
                    // If condition still not fulfilled (timeout but condition is 'false')
                    console.log("'waitFor()' timeout");
                    phantom.exit(1);
                } else {
                    // Condition fulfilled (timeout and/or condition is 'true')
                    // console.log("'waitFor()' finished in " + (new Date().getTime() - start) + "ms.");
                    typeof(onReady) === "string" ? eval(onReady) : onReady(); //< Do what it's supposed to do once the condi>
                    clearInterval(interval); //< Stop this interval
                }
            }
        }, 250); //< repeat check every 250ms
}

此方法不是异步的,但至少可以确保在尝试使用所有资源之前已将其加载。


2

这是一个古老的问题,但是由于我一直在寻找完整的页面加载空间,而对于Spookyjs(使用casperjs和phantomjs)却没有找到解决方案,因此我使用与用户deemstone相同的方法为此编写了自己的脚本。这种方法的作用是,在给定的时间内,如果页面未收到或未启动任何请求,它将结束执行。

在casper.js文件上(如果是全局安装的,则路径类似于/usr/local/lib/node_modules/casperjs/modules/casper.js),添加以下行:

在具有所有全局变量的文件顶部:

var waitResponseInterval = 500
var reqResInterval = null
var reqResFinished = false
var resetTimeout = function() {}

然后在“ var page = require('webpage')。create();”之后的函数“ createPage(casper)”内部 添加以下代码:

 resetTimeout = function() {
     if(reqResInterval)
         clearTimeout(reqResInterval)

     reqResInterval = setTimeout(function(){
         reqResFinished = true
         page.onLoadFinished("success")
     },waitResponseInterval)
 }
 resetTimeout()

然后在第一行的“ page.onResourceReceived = function onResourceReceived(resource){”中添加:

 resetTimeout()

对“ page.onResourceRequested = function onResourceRequested(requestData,request){”执行相同的操作

最后,在第一行的“ page.onLoadFinished = function onLoadFinished(status){”上添加:

 if(!reqResFinished)
 {
      return
 }
 reqResFinished = false

就是这样,希望这个可以帮助像我一样遇到麻烦的人。该解决方案适用于casperjs,但直接适用于Spooky。

祝好运 !


0

这是我的解决方案。

page.onConsoleMessage = function(msg, lineNum, sourceId) {

    if(msg=='hey lets take screenshot')
    {
        window.setInterval(function(){      
            try
            {               
                 var sta= page.evaluateJavaScript("function(){ return jQuery.active;}");                     
                 if(sta == 0)
                 {      
                    window.setTimeout(function(){
                        page.render('test.png');
                        clearInterval();
                        phantom.exit();
                    },1000);
                 }
            }
            catch(error)
            {
                console.log(error);
                phantom.exit(1);
            }
       },1000);
    }       
};


page.open(address, function (status) {      
    if (status !== "success") {
        console.log('Unable to load url');
        phantom.exit();
    } else { 
       page.setContent(page.content.replace('</body>','<script>window.onload = function(){console.log(\'hey lets take screenshot\');}</script></body>'), address);
    }
});
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.