如何从WebView获取网页内容?


86

在Android上,我WebView正在显示一个页面。

如何获得页面源而不再次请求页面?

似乎WebView应该有某种getPageSource()返回字符串的方法,但可惜没有。

如果启用JavaScript,则在此调用中放入适当的JavaScript以获取内容是什么?

webview.loadUrl("javascript:(function() { " +  
    "document.getElementsByTagName('body')[0].style.color = 'red'; " +  
    "})()");  

使用jquery脚本和js接口从webview window.interface.processHTML($(\“ body \”)。html())获取html内容。
DroidBot


您显然可以使用HTTP请求以HTML形式获取响应,但是如果某些页面需要加载后数据(例如,用户凭据等),则此方法只会失败。我认为这应该是这样,因为如果您可以做到,那么您可能可以为任何网站制作自己的android应用,这会很糟糕!

Answers:


161

我知道这是一个较晚的答案,但是我发现了这个问题,因为我遇到了同样的问题。我想我在lexandera.com上的这篇文章中找到了答案。下面的代码基本上是从站点上剪切并粘贴的。似乎可以解决问题。

final Context myApp = this;

/* An instance of this class will be registered as a JavaScript interface */
class MyJavaScriptInterface
{
    @JavascriptInterface
    @SuppressWarnings("unused")
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

final WebView browser = (WebView)findViewById(R.id.browser);
/* JavaScript must be enabled if you want it to work, obviously */
browser.getSettings().setJavaScriptEnabled(true);

/* Register a new JavaScript interface called HTMLOUT */
browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT");

/* WebViewClient must be set BEFORE calling loadUrl! */
browser.setWebViewClient(new WebViewClient() {
    @Override
    public void onPageFinished(WebView view, String url)
    {
        /* This call inject JavaScript into the page which just finished loading. */
        browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
    }
});

/* load a web page */
browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html");

6
请注意,这可能不是页面的原始HTML。在onPageFinished()执行之前,页面内容可能已通过JavaScript动态更改。
Paul Lammertsma 2011年

3
这是伟大的,但在调用方法browser.loadUrlonPageFinished会导致onPageFinished再次调用。您可能需要onPageFinished在致电之前检查它是否是的第一个电话browser.loadUrl
Yi H.

谢谢@Blundell它对我有用。我想知道如何将其 实现为服务。因为这是一项没有布局和Web视图来存储结果的服务。有没有一种方法可以将数据放入不同于webView的其他对象中,以便我们可以将javascript来获取生成的html代码?
Totalys 2014年

@Totalys甚至更容易String html = new Scanner(new DefaultHttpClient().execute(new HttpGet("www.the url")).getEntity().getContent(), "UTF-8").useDelimiter("\\A").next();(缩写为适合评论:
Blundell

1
不要忘记将runOnUiThread(new Runnable(){...插入到公共无效的processHTML中。)
CoolMind

34

根据问题12987,Blundell的答案崩溃了(至少在我的2.3 VM上)。相反,我截取了一个带有特殊前缀的console.log调用:

// intercept calls to console.log
web.setWebChromeClient(new WebChromeClient() {
    public boolean onConsoleMessage(ConsoleMessage cmsg)
    {
        // check secret prefix
        if (cmsg.message().startsWith("MAGIC"))
        {
            String msg = cmsg.message().substring(5); // strip off prefix

            /* process HTML */

            return true;
        }

        return false;
    }
});

// inject the JavaScript on page load
web.setWebViewClient(new WebViewClient() {
    public void onPageFinished(WebView view, String address)
    {
        // have the page spill its guts, with a secret prefix
        view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);");
    }
});

web.loadUrl("http://www.google.com");

17

这是基于jluckyiv的答案,但是我认为按以下方式更改Javascript更好,更简单。

browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");

6

您是否考虑过单独获取HTML,然后将其加载到Webview中?

String fetchContent(WebView view, String url) throws IOException {
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet get = new HttpGet(url);
    HttpResponse response = httpClient.execute(get);
    StatusLine statusLine = response.getStatusLine();
    int statusCode = statusLine.getStatusCode();
    HttpEntity entity = response.getEntity();
    String html = EntityUtils.toString(entity); // assume html for simplicity
    view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity
    if (statusCode != 200) {
        // handle fail
    }
    return html;
}

2
这不会携带饼干。
基思·阿德勒

1
这种方法会触发CAPTCHA对话
赫克托尔

4

我设法使用@jluckyiv的答案中的代码使此工作正常进行,但是我不得不在MyJavaScriptInterface中的processHTML方法中添加@JavascriptInterface批注。

class MyJavaScriptInterface
{
    @SuppressWarnings("unused")
    @JavascriptInterface
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

1

如果targetSdkVersion> = 17,则还需要使用@JavascriptInterface对该方法进行注释-因为SDK 17中存在新的安全要求,即所有javascript方法都必须使用@JavascriptInterface进行注释。否则,您将看到类似以下错误:Uncaught TypeError:对象[object Object]在null处没有方法'processHTML':1


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.