如何获取DOMNode的innerHTML？

96

在PHP DOM实现中，您使用什么函数来获取给定DOMNode的innerHTML？有人可以提供可靠的解决方案吗？

当然，outerHTML也可以。

php dom innerhtml

152

<?php 
function DOMinnerHTML(DOMNode $element) 
{ 
    $innerHTML = ""; 
    $children  = $element->childNodes;

    foreach ($children as $child) 
    { 
        $innerHTML .= $element->ownerDocument->saveHTML($child);
    }

    return $innerHTML; 
} 
?>

例：

<?php 
$dom= new DOMDocument(); 
$dom->preserveWhiteSpace = false;
$dom->formatOutput       = true;
$dom->load($html_string); 

$domTables = $dom->getElementsByTagName("table"); 

// Iterate over DOMNodeList (Implements Traversable)
foreach ($domTables as $table) 
{ 
    echo DOMinnerHTML($table); 
} 
?>

— 海姆·埃夫吉（Haim Evgi）
source

谢谢。它工作正常。$ dom-> preserveWhiteSpace = false不应该；在文件加载之前？

— 戴维

@ JohnM2：是的。

— hakre 2013年

附加说明：自PHP 5.3.6起，您可以保留临时文件DOMDocument。另外一个可能要更换trim用ltrim（甚至完全删除）保存有点像换行符的空白。

— hakre 2013年

这样的函数应该添加到DomDocument类中。

— Nate 2014年

3

我必须将函数声明更改为期望的值，DOMElement而不是DOMNode我传递的返回值DOMDocument::getElementById()。以防万一它绊倒了别人。

— miken32

25

这是功能编程风格的版本：

function innerHTML($node) {
    return implode(array_map([$node->ownerDocument,"saveHTML"], 
                             iterator_to_array($node->childNodes)));
}

— 亭子
source

13

要返回的html元素，可以使用C14N（）：

$dom = new DOMDocument();
$dom->loadHtml($html);
$x = new DOMXpath($dom);
foreach($x->query('//table') as $table){
    echo $table->C14N();
}

— CONvid19
source

2

C14N将尝试将HTML转换为有效的XML。例如 将成为

— ajaybc

这是转储元素HTML的肮脏方式，而不必使用saveHTML来输出html，head和body标签。

— CONvid19 2016年

9

Haim Evgi答案的简化版本：

<?php

function innerHTML(\DOMElement $element)
{
    $doc = $element->ownerDocument;

    $html = '';

    foreach ($element->childNodes as $node) {
        $html .= $doc->saveHTML($node);
    }

    return $html;
}

用法示例：

<?php

$doc = new \DOMDocument();
$doc->loadHTML("<body><div id='foo'><p>This is <b>an <i>example</i></b> paragraph<br>\n\ncontaining newlines.</p><p>This is another paragraph.</p></div></body>");

print innerHTML($doc->getElementById('foo'));

/*
<p>This is <b>an <i>example</i></b> paragraph<br>

containing newlines.</p>
<p>This is another paragraph.</p>
*/

无需设置preserveWhiteSpace或formatOutput。

— 阿尔夫·伊顿
source

4

除了Trincot具有array_map和的漂亮版本外，implode这次还有array_reduce：

return array_reduce(
   iterator_to_array($node->childNodes),
   function ($carry, \DOMNode $child) {
        return $carry.$child->ownerDocument->saveHTML($child);
   }
);

仍然不明白，为什么没有reduce()方法可以接受数组和迭代器。

— 流感
source

3

function setnodevalue($doc, $node, $newvalue){
  while($node->childNodes->length> 0){
    $node->removeChild($node->firstChild);
  }
  $fragment= $doc->createDocumentFragment();
  $fragment->preserveWhiteSpace= false;
  if(!empty($newvalue)){
    $fragment->appendXML(trim($newvalue));
    $nod= $doc->importNode($fragment, true);
    $node->appendChild($nod);
  }
}

— 克里斯
source

2

这是基于Drupella在php.net 上的评论的另一种方法，该方法在我的项目中效果很好。它innerHTML()通过创建一个new DOMDocument，将目标节点导入并追加到其上来定义，而不是在子节点上进行显式迭代。

内部HTML

让我们定义这个辅助函数：

function innerHTML( \DOMNode $n, $include_target_tag = true ) {
  $doc = new \DOMDocument();
  $doc->appendChild( $doc->importNode( $n, true ) );
  $html = trim( $doc->saveHTML() );
  if ( $include_target_tag ) {
      return $html;
  }
  return preg_replace( '@^<' . $n->nodeName .'[^>]*>|</'. $n->nodeName .'>$@', '', $html );
}

在这里我们可以通过第二个输入参数包括/排除外部目标标签。

使用范例

在这里，我们提取由“ first” id属性给定的目标标记的内部HTML：

$html = '<div id="first"><h1>Hello</h1></div><div id="second"><p>World!</p></div>';
$doc  = new \DOMDocument();
$doc->loadHTML( $html );
$node = $doc->getElementById( 'first' );

if ( $node instanceof \DOMNode ) {

    echo innerHTML( $node, true );
    // Output: <div id="first"><h1>Hello</h1></div>    

    echo innerHTML( $node, false );
    // Output: <h1>Hello</h1>
}

现场示例：

http://sandbox.onlinephpfunctions.com/code/2714ea116aad9957c3c437d46134a1688e9133b8

— 比尔吉雷
source

1

旧的查询，但是有一个内置的方法可以做到这一点。只需将目标节点传递到即可DomDocument->saveHtml()。

完整示例：

$html = '<div><p>ciao questa è una <b>prova</b>.</p></div>';
$dom = new DomDocument($html);
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$node = $xpath->query('.//div/*'); // with * you get inner html without surrounding div tag; without * you get inner html with surrounding div tag
$innerHtml = $dom->saveHtml($node);
var_dump($innerHtml);

输出： ciao questa è una prova.

— 马可·马尔萨拉
source

警告：DOMDocument :: saveHTML（）期望参数1为DOMNode，给定对象

— Ivan Gusev