从字符串中删除HTML标签

422

有什么好方法可以从Java字符串中删除HTML？一个简单的正则表达式

 replaceAll("\\<.*?>","")

会工作，但是类似 &不会正确转换，并且两个尖括号之间的非HTML也会被删除（即.*?，正则表达式中的将会消失）。

java html parsing

— 石匠
source

2

用下面的指南使用：编译'org.jsoup：jsoup：1.9.2'

— VahidHoseini

1

stackoverflow.com/a/3149645/5733853

— VahidHoseini

另请参阅：stackoverflow.com/a/21838532/363573

— Stephan，

572

使用HTML解析器代替正则表达式。对于Jsoup来说，这简直太简单了。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持针对可自定义的白名单删除HTML标记，如果只允许使用<b>，<i>和，这将非常有用<u>。

也可以看看：

— BalusC
source

18

Jsoup很不错，但是我遇到了一些缺点。我用它来摆脱XSS，所以基本上我希望输入纯文本，但是有些邪恶的人可以尝试向我发送一些HTML。使用Jsoup，我可以删除所有HTML，但是不幸的是，它也将许多空格缩小到一个，并删除了链接中断（\ n字符）

— Ridcully 2010年

7

@Ridcully：为此，您想使用它Jsoup#clean()。

— BalusC，2010年

3

使用clean（）仍然会导致多余的空格和\ n字符被删除。例如：Jsoup.clean（“ a \ n b”，Whitelist.none（））返回“ a b”

— Keith

20

@Zeroows：失败了<p>Lorem ipsum 1 < 3 dolor sit amet</p>。同样，HTML不是常规语言。为什么每个人都不断尝试在其上抛出正则表达式来解析感兴趣的部分，而不是使用真正的解析器，这完全超出了我。

— BalusC 2013年

4

使用Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));保存的换行符

— 马克Johnen

275

如果您是为Android编写的，则可以执行此操作...

android.text.Html.fromHtml(instruction).toString()

— 肯·古德里奇
source

12

很棒的提示。:)如果要在TextView中显示文本，则也可以删除.toString（）来保留某些格式。

— Lorne Laliberte 2012年

1

@Branky它没有我曾尝试...公认的答案就像魅力

— 小牛

效果很好。所有html标记均已从字符串中删除。

— 2015年

1

这很好，但是<img>标记被替换为一些奇怪的东西。我在有图像的小广场上

— Bibaswann Bandyopadhyay

1

@BibaswannBandyopadhyay 另一个答案有助于摆脱这些角色

— 文斯

84

如果用户输入<b>hey!</b>，要显示<b>hey!</b>还是hey!？如果是第一个，则转义小于号，并用html编码“与”号（以及可选的引号），就可以了。为实现第二个选项而对代码进行的修改是：

replaceAll("\\<[^>]*>","")

但是如果用户输入格式错误的内容，您就会遇到问题<bhey!</b>。

您还可以签出JTidy，它将解析“肮脏”的html输入，并应为您提供一种删除标记并保留文本的方法。

尝试剥离html的问题是浏览器的解析器非常宽松，比您可以找到的任何库都宽松，因此即使您尽力剥离所有标签（使用上面的replace方法，DOM库或JTidy），您仍然需要确保对所有剩余的HTML特殊字符进行编码，以确保输出安全。

— 克里斯·玛拉斯蒂·乔治
source

1

如果html节点内容中有未转义的<或>符号，也会遇到问题。<span>我的年龄是<很多文字>然后是您的年龄</ span>。我认为只有100％的方法是通过某些XML DOM接口（例如SAX或类似的）来使用node.getText（）。

— 米塔·贾斯汀

29

另一种方法是使用 javax.swing.text.html.HTMLEditorKit提取文本。

import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
    StringBuffer s;

    public Html2Text() {
    }

    public void parse(Reader in) throws IOException {
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleText(char[] text, int pos) {
        s.append(text);
    }

    public String getText() {
        return s.toString();
    }

    public static void main(String[] args) {
        try {
            // the HTML to convert
            FileReader in = new FileReader("java-new.html");
            Html2Text parser = new Html2Text();
            parser.parse(in);
            in.close();
            System.out.println(parser.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

ref：从文件中删除HTML标记以仅提取TEXT

— RealHowTo
source

5

“ a <b或b> c”的结果是“ ab或b> c”，这似乎是不幸的。

— dfrankow

1

这对我来说效果最好。我需要保留换行符。我通过向解析器添加此简单方法来做到这一点：@Override public void handleStartTag（HTML.Tag t，MutableAttributeSet a，int pos）{if（t == HTML.Tag.P || t == HTML.Tag.BR） {s.append（'\ n'）; }

— MiguelMunoz

1

dfrankow：数学表达式a <b或b> c应该这样写成html：a＆lt; b或b＆gt; c

— MiguelMunoz

24

我认为过滤html标签的最简单方法是：

private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");

public static String removeTags(String string) {
    if (string == null || string.length() == 0) {
        return string;
    }

    Matcher m = REMOVE_TAGS.matcher(string);
    return m.replaceAll("");
}

— 哔叽
source

18

使用Jericho也非常简单，您可以保留一些格式（例如，换行符和链接）。

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());

— 乔希
source

4

Jericho能够解析<br>一个换行符。Jsoup和HTMLEditorKit无法做到这一点。

— homaxto 2011年

杰里科（Jericho）非常有能力完成这项工作，并在自己的项目中经常使用它。

— 田俊杰（Jerry Tian）

3

杰里科（Jericho）的魅力十足。谢谢你的建议。注意：您不必创建整个字符串的细分。Source扩展了Segment，因此两者都可以在Renderer构造函数中使用。

— MrPlow

Jerico现在似乎有些过时了（最新版本为2015年底的3.4）。但是，如果仍然运行良好，那么它将仍然运行良好！

— 乔纳森·胡特

17

简单做的公认答案 Jsoup.parse(html).text()存在两个潜在的问题（JSoup 1.7.3）：

它从文本中删除换行符
它将文本<script>转换为<script>

如果使用它来防止XSS攻击，这会有点烦人。这是我同时使用JSoup和Apache StringEscapeUtils改进解决方案的最佳镜头：

// breaks multi-level of escaping, preventing &amp;lt;script&amp;gt; to be rendered as <script>
String replace = input.replace("&amp;", "");
// decode any encoded html, preventing &lt;script&gt; to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);

请注意，最后一步是因为我需要将输出用作纯文本。如果只需要HTML输出，则应该可以将其删除。

这是一堆测试用例（输入到输出）：

{"regular string", "regular string"},
{"<a href=\"link\">A link</a>", "A link"},
{"<script src=\"http://evil.url.com\"/>", ""},
{"&lt;script&gt;", ""},
{"&amp;lt;script&amp;gt;", "lt;scriptgt;"}, // best effort
{"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"}

如果您找到改善方法，请告诉我。

— 达米安
source

2

这将使诸如此类的操作失败&lt;script&gt;alert('Evil script executed');&lt;/script&gt;。同样适用&。JSoup不会进行转换<script> into <script>，因为您StringEscapeUtils.unescapeHtml在JSoup清除了输入之后调用了它。

— Guillaume Polet，2015年

15

在Android上，尝试以下操作：

String result = Html.fromHtml(html).toString();

— 阿缅·马恩（Ameen Maheen）
source

做到了！它从文本中删除了所有内联html :)

— DritanX

1

您始终将代码片段用于普通代码。代码段仅应用于HTML或javascript或可在浏览器中运行的其他代码。您无法在浏览器中运行Java。将来使用普通的代码块。。。这次我将为您编辑答案，并修复格式等问题，但是以后请不要再这样做了。这不是我第一次告诉您有关此事

— Xaver Kapeller 2015年

1

@PaulCroarkin这是android sdk中的库。android.text.Html

— Ameen Maheen 2015年

1

太棒了删除了所有html标签。

— 2015年

2

看起来很熟悉，就像我2011

— Ken Goodridge

11

HTML转义确实很难做到正确-我绝对建议您使用库代码来执行此操作，因为它比您想象的要微妙得多。请查看Apache的StringEscapeUtils，以获取一个很好的库来用Java处理该库。

— 蒂姆·霍兰德
source

我正在寻找这种东西，但是我想剥离HTML而不是转义它。

— 梅森

您是否要删除html，还是要将其转换为纯文本？从带有br标签和HTML实体的长字符串中剥离HTML可能会导致混乱。

— 蒂姆·霍兰德

4

StringEscapeUtils.unescapeHtml不会删除html

— Erin Drummond'Aug

5

有用的有用信息，可用于转义，但不能回答问题。

— 2014年

3

令人困惑的答案。删除！=无法逃脱

— Lluis Martinez

7

这应该工作-

用这个

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

和这个

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.

— 桑迪普1699
source

1

通常，如果答案包含对代码意图的解释，则答案会更加有用。

— 彼得·

6

您可能希望在剥离HTML之前用换行符替换<br/>和</p>标记，以防止HTML变得像Tim所建议的那样混乱。

我想删除HTML标签但将非HTML放在尖括号之间的唯一方法是对照HTML标签列表进行检查。这些东西...

replaceAll("\\<[\s]*tag[^>]*>","")

然后HTML解码特殊字符，例如&。结果不应视为经过消毒。

— 狡猾的
source

5

或者，可以使用HtmlCleaner：

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}

— 史蒂芬
source

2

HtmlCleaner运行良好，保持换行符并具有最新版本（2017年5月为2.21）。

— 乔纳森·胡特

4

对于我指出的测试用例，可接受的答案对我不起作用：“ a <b或b> c”的结果为“ ab或b> c”。

因此，我改用TagSoup。这是适用于我的测试用例（和其他几个用例）的镜头：

import java.io.IOException;
import java.io.StringReader;
import java.util.logging.Logger;

import org.ccil.cowan.tagsoup.Parser;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

/**
 * Take HTML and give back the text part while dropping the HTML tags.
 *
 * There is some risk that using TagSoup means we'll permute non-HTML text.
 * However, it seems to work the best so far in test cases.
 *
 * @author dan
 * @see <a href="http://home.ccil.org/~cowan/XML/tagsoup/">TagSoup</a> 
 */
public class Html2Text2 implements ContentHandler {
private StringBuffer sb;

public Html2Text2() {
}

public void parse(String str) throws IOException, SAXException {
    XMLReader reader = new Parser();
    reader.setContentHandler(this);
    sb = new StringBuffer();
    reader.parse(new InputSource(new StringReader(str)));
}

public String getText() {
    return sb.toString();
}

@Override
public void characters(char[] ch, int start, int length)
    throws SAXException {
    for (int idx = 0; idx < length; idx++) {
    sb.append(ch[idx+start]);
    }
}

@Override
public void ignorableWhitespace(char[] ch, int start, int length)
    throws SAXException {
    sb.append(ch);
}

// The methods below do not contribute to the text
@Override
public void endDocument() throws SAXException {
}

@Override
public void endElement(String uri, String localName, String qName)
    throws SAXException {
}

@Override
public void endPrefixMapping(String prefix) throws SAXException {
}


@Override
public void processingInstruction(String target, String data)
    throws SAXException {
}

@Override
public void setDocumentLocator(Locator locator) {
}

@Override
public void skippedEntity(String name) throws SAXException {
}

@Override
public void startDocument() throws SAXException {
}

@Override
public void startElement(String uri, String localName, String qName,
    Attributes atts) throws SAXException {
}

@Override
public void startPrefixMapping(String prefix, String uri)
    throws SAXException {
}
}

— 弗兰科夫
source

4

我知道这很旧，但是我只是在一个需要过滤HTML的项目上正常工作：

noHTMLString.replaceAll("\\&.*?\\;", "");

代替这个：

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");

— 夸克利斯
source

4

这是一个稍微充实的更新，以尝试处理一些中断和列表格式。我以Amaya的输出为指导。

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class HTML2Text extends HTMLEditorKit.ParserCallback {
    private static final Logger log = Logger
            .getLogger(Logger.GLOBAL_LOGGER_NAME);

    private StringBuffer stringBuffer;

    private Stack<IndexType> indentStack;

    public static class IndexType {
        public String type;
        public int counter; // used for ordered lists

        public IndexType(String type) {
            this.type = type;
            counter = 0;
        }
    }

    public HTML2Text() {
        stringBuffer = new StringBuffer();
        indentStack = new Stack<IndexType>();
    }

    public static String convert(String html) {
        HTML2Text parser = new HTML2Text();
        Reader in = new StringReader(html);
        try {
            // the HTML to convert
            parser.parse(in);
        } catch (Exception e) {
            log.severe(e.getMessage());
        } finally {
            try {
                in.close();
            } catch (IOException ioe) {
                // this should never happen
            }
        }
        return parser.getText();
    }

    public void parse(Reader in) throws IOException {
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("StartTag:" + t.toString());
        if (t.toString().equals("p")) {
            if (stringBuffer.length() > 0
                    && !stringBuffer.substring(stringBuffer.length() - 1)
                            .equals("\n")) {
                newLine();
            }
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.push(new IndexType("ol"));
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.push(new IndexType("ul"));
            newLine();
        } else if (t.toString().equals("li")) {
            IndexType parent = indentStack.peek();
            if (parent.type.equals("ol")) {
                String numberString = "" + (++parent.counter) + ".";
                stringBuffer.append(numberString);
                for (int i = 0; i < (4 - numberString.length()); i++) {
                    stringBuffer.append(" ");
                }
            } else {
                stringBuffer.append("*   ");
            }
            indentStack.push(new IndexType("li"));
        } else if (t.toString().equals("dl")) {
            newLine();
        } else if (t.toString().equals("dt")) {
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.push(new IndexType("dd"));
            newLine();
        }
    }

    private void newLine() {
        stringBuffer.append("\n");
        for (int i = 0; i < indentStack.size(); i++) {
            stringBuffer.append("    ");
        }
    }

    public void handleEndTag(HTML.Tag t, int pos) {
        log.info("EndTag:" + t.toString());
        if (t.toString().equals("p")) {
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("li")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.pop();
            ;
        }
    }

    public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("SimpleTag:" + t.toString());
        if (t.toString().equals("br")) {
            newLine();
        }
    }

    public void handleText(char[] text, int pos) {
        log.info("Text:" + new String(text));
        stringBuffer.append(text);
    }

    public String getText() {
        return stringBuffer.toString();
    }

    public static void main(String args[]) {
        String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol>  <li>This</li>  <li>is</li>  <li>an</li>  <li>ordered</li>  <li>list    <p>with</p>    <ul>      <li>another</li>      <li>list        <dl>          <dt>This</dt>          <dt>is</dt>            <dd>sdasd</dd>            <dd>sdasda</dd>            <dd>asda              <p>aasdas</p>            </dd>            <dd>sdada</dd>          <dt>fsdfsdfsd</dt>        </dl>        <dl>          <dt>vbcvcvbcvb</dt>          <dt>cvbcvbc</dt>            <dd>vbcbcvbcvb</dd>          <dt>cvbcv</dt>          <dt></dt>        </dl>        <dl>          <dt></dt>        </dl></li>      <li>cool</li>    </ul>    <p>stuff</p>  </li>  <li>cool</li></ol><p></p></body></html>";
        System.out.println(convert(html));
    }
}

— 麦克风
source

4

采用 Html.fromHtml

HTML标签是

<a href=”…”> <b>,  <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>,  <em>, <font size=”…” color=”…” face=”…”>
<h1>,  <h2>, <h3>, <h4>,  <h5>, <h6>
<i>, <p>, <small>
<strike>,  <strong>, <sub>, <sup>, <tt>, <u>

根据Android的官方文档，HTML中的任何标签都将显示为通用替换字符串，您的程序可以通过该字符串替换并用真实字符串替换。

Html.formHtml方法采用Html.TagHandler和Html.ImageGetter作为参数以及要解析的文本。

例

String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";

然后

Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());

输出量

这是关于我的文字，用户可以将其放入个人资料中

— IntelliJ Amiya
source

1

没有额外的实用程序，并且与Android文档保持一致。+1

— davidbates

4

这是如何替换所有内容的另一种变体（HTML标记| HTML实体| HTML内容中的空白区域）

content.replaceAll("(<.*?>)|(&.*?;)|([ ]{2,})", ""); 内容是一个字符串。

— 无声
source

1

我对此做了一些改进：{code} .replaceAll（“（<。*？>）|（＆。* ?;）”，“”）.replaceAll（“ \\ s {2，}”，“”）{代码}，因为这些标签通常位于文本旁边。删除标签后，将所有2个及更多的写入空间更改为1个。

— OndřejStašek'19

4

您可以简单地使用Android的默认HTML过滤器

    public String htmlToStringFilter(String textToFilter){

    return Html.fromHtml(textToFilter).toString();

    }

上面的方法将为您的输入返回经过HTML过滤的字符串。

— 阿努拉加努（Anuraganu Punalur）
source

3

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类，例如

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

但是，这不是防弹代码，当我在Wikipedia条目上运行它时，我也会得到样式信息。但是我相信对于小型/简单的工作，这将是有效的。

— 94天
source

3

听起来您想从HTML变为纯文本。
如果是这种情况，请访问www.htmlparser.org。这是一个示例，该示例从URL处的html文件中剥离所有标签。
它利用了org.htmlparser.beans.StringBean。

static public String getUrlContentsAsText(String url) {
    String content = "";
    StringBean stringBean = new StringBean();
    stringBean.setURL(url);
    content = stringBean.getStrings();
    return content;
}

— 舒尔茨
source

2

这是另一种方法：

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}

— 黑星
source

或者您可以说，if（input.indexOf（“ <”）> 0 || input.indexOf（“>”）> 0）返回“”; 否则返回输入；

— Hossein Shahdoost 2013年

2

为此，也可以使用Apache Tika。默认情况下，它会保留剥离的html中的空格，这在某些情况下可能需要：

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())

— 马克西姆·索罗金（Maksim Sorokin）
source

1

请注意，不赞成使用parse方法Parse.parse(InputStream, ContentHandler, Metadata, ParseContext)。

— Jacob van Lingen

1

使用JSoup保留换行信息的一种方法是，在所有新行标记之前添加一些伪字符串，执行JSoup并将伪字符串替换为“ \ n”。

String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>"}) {
    html = html.replace(tag, NEW_LINE_MARK+tag);
}

String text = Jsoup.parse(html).text();

text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");

— 罗伯曼
source

1

classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim()

— 吉尔赫姆·奥利维拉（Guilherme Oliveira）
source

3

尽管此代码段可以解决问题，但提供说明确实有助于提高您的帖子质量。请记住，您将来会为读者回答这个问题，而这些人可能不知道您提出代码建议的原因。也请尽量不要在代码中加入解释性注释，这会降低代码和解释的可读性！

— 菲诺18'Jan

0

我的5美分：

String[] temp = yourString.split("&amp;");
String tmp = "";
if (temp.length > 1) {

    for (int i = 0; i < temp.length; i++) {
        tmp += temp[i] + "&";
    }
    yourString = tmp.substring(0, tmp.length() - 1);
}

— 亚力山大
source

0

要获取带格式的纯HTML文本，您可以执行以下操作：

String BR_ESCAPED = "&lt;br/&gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");

要获得带格式的纯文本，请将 <br/>更改为\ n，并将最后一行更改为：

nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");

— 海浪
source

0

我知道距问这个问题已经有一段时间了，但是我找到了另一个解决方案，这对我有用：

Pattern REMOVE_TAGS = Pattern.compile("<.+?>");
    Source source= new Source(htmlAsString);
 Matcher m = REMOVE_TAGS.matcher(sourceStep.getTextExtractor().toString());
                        String clearedHtml= m.replaceAll("");

— 伊泰·萨森（Itay Sasson）
source

-1

您可以简单地使用多个replaceAll（）方法

String RemoveTag(String html){
   html = html.replaceAll("\\<.*?>","")
   html = html.replaceAll("&nbsp;","");
   html = html.replaceAll("&amp;"."");
   ----------
   ----------
   return html;
}

使用此链接进行您需要的最常见替换：http : //tunes.org/wiki/html_20special_20characters_20and_20symbols.html

它简单但有效。我首先使用此方法删除垃圾，但不删除第一行，即replaceAll（“ \ <。*？>”，“”），然后我使用特定的关键字搜索索引，然后使用.substring（start，end ）剥离不必要的东西的方法。由于这更可靠，因此您可以在整个html页面中准确指出所需的内容。

— 里兹旺
source

4

两个笔记。首先，这是次优的-对于每个replaceAll调用，Java都将尝试将第一个参数编译为regex，并遍历整个字符串以将该regex应用到字符串，每次为常规HTML页面处理几十个KB。其次，建议不要使用replaceAll来替换简单的（非正则表达式）字符串，而应使用replace（）（它也可以替换所有字符串，而顾名思义）。

— fwielstra 2010年

-1

从字符串中删除HTML标记。我们需要在某个地方解析一些字符串，该字符串是由某些响应（如Httpresponse）从服务器接收到的。

所以我们需要解析它。

在这里，我将展示如何从字符串中删除html标签。

    // sample text with tags

    string str = "<html><head>sdfkashf sdf</head><body>sdfasdf</body></html>";



    // regex which match tags

    System.Text.RegularExpressions.Regex rx = new System.Text.RegularExpressions.Regex("<[^>]*>");



    // replace all matches with empty strin

    str = rx.Replace(str, "");



    //now str contains string without html tags

— 萨蒂亚·普拉卡什（Satya Prakash）
source

你从哪里来new System.Text.RegularExpressions.Regex();的？

— beresfordt 2015年

1

@beresfordt，此回复适用于.NET，而不是Java，例如问题中要求的那样

— Erin Drummond