将Nokogiri文档转换为Ruby Hash


68

是否有一种简单的方法可以将Nokogiri XML文档转换为Hash?

像Rails的东西Hash.from_xml


1
实际上,Rails的Hash.from_xml巧妙地包装在Rails代码的MiniXML部分中。自从我写它以来,我一直想提取它。如果您不很快听说,请给我推一下。
约瑟夫霍尔斯滕

我发布了Ashan Ali代码的修改版本,该代码可使用属性并使用Nokogiri
dimus 2010年

有什么不足之处Hash.from_xml(nokogiri_doc.to_xml)吗?
JellicleCat 2014年

amolnpujari.wordpress.com/2012/03/31/reading_huge_xml-rb我发现ox比nokogiri快5倍,因此这里是ox的一个示例-gist.github.com/amolpujari/5966431,搜索任何元素并将其存储在哈希中表格
Amol Pujari 2014年

@JellicleCat,是的。不要浪费CPU使用Nokogiri解析XML的作用,只是让Nokogiri将其输出到XML以便由其他事物进行解析。只需传递原始XML并完成它即可。
Tin Man

Answers:


14

我将此代码与libxml-ruby(1.1.3)一起使用。我自己没有使用过nokogiri,但是我知道它仍然使用libxml-ruby。我也鼓励您看一下将XML元素映射到ruby对象的ROXML(http://github.com/Empact/roxml/tree)。它建立在libxml之上。

# USAGE: Hash.from_libxml(YOUR_XML_STRING)
require 'xml/libxml'
# adapted from 
# http://movesonrails.com/articles/2008/02/25/libxml-for-active-resource-2-0

class Hash 
  class << self
        def from_libxml(xml, strict=true) 
          begin
            XML.default_load_external_dtd = false
            XML.default_pedantic_parser = strict
            result = XML::Parser.string(xml).parse 
            return { result.root.name.to_s => xml_node_to_hash(result.root)} 
          rescue Exception => e
            # raise your custom exception here
          end
        end 

        def xml_node_to_hash(node) 
          # If we are at the root of the document, start the hash 
          if node.element? 
           if node.children? 
              result_hash = {} 

              node.each_child do |child| 
                result = xml_node_to_hash(child) 

                if child.name == "text"
                  if !child.next? and !child.prev?
                    return result
                  end
                elsif result_hash[child.name.to_sym]
                    if result_hash[child.name.to_sym].is_a?(Object::Array)
                      result_hash[child.name.to_sym] << result
                    else
                      result_hash[child.name.to_sym] = [result_hash[child.name.to_sym]] << result
                    end
                  else 
                    result_hash[child.name.to_sym] = result
                  end
                end

              return result_hash 
            else 
              return nil 
           end 
           else 
            return node.content.to_s 
          end 
        end          
    end
end

太棒了!我只需要更改= strict= false。谢谢!
伊万,

啊...抱歉,我正在使用的文件没有任何属性(旧版xml!)。
A.Ali

9
Nokogiri不使用libxml-ruby,它使用libxml2,这是一个C库。
skrat 2011年

104

如果要将Nokogiri XML文档转换为哈希,请执行以下操作:

require 'active_support/core_ext/hash/conversions'
hash = Hash.from_xml(nokogiri_document.to_s)

1
请说明from_xml来源。这不是标准的Ruby方法。
Tin

4
@theTinMan from_xml来自ActiveSupport
ScottJShea 2012年

1
它来自这里:api.rubyonrails.org/classes/Hash.html#method-c-from_xml,代码是:typecast_xml_value(unrename_keys(ActiveSupport::XmlMini.parse(xml)))
Dorian

1
这应该是最干净的答案,对这个父亲是+1
Alexis Rabago Carvajal 2015年

6
注意: OP意识到from_xml并提到需要类似的东西。使用from_xml无法回答问题。另外,如果文档已经是Nokogiri文档,则不要仅将其转换为字符串以使用其他XML解析器进行解析。相反,传递原始XML并忽略使用Nokogiri进行的解析。否则会浪费CPU时间。
Tin Man

18

这是一个简单得多的版本,它创建了一个健壮的Hash,其中包含元素和属性的名称空间信息:

require 'nokogiri'
class Nokogiri::XML::Node
  TYPENAMES = {1=>'element',2=>'attribute',3=>'text',4=>'cdata',8=>'comment'}
  def to_hash
    {kind:TYPENAMES[node_type],name:name}.tap do |h|
      h.merge! nshref:namespace.href, nsprefix:namespace.prefix if namespace
      h.merge! text:text
      h.merge! attr:attribute_nodes.map(&:to_hash) if element?
      h.merge! kids:children.map(&:to_hash) if element?
    end
  end
end
class Nokogiri::XML::Document
  def to_hash; root.to_hash; end
end

实际效果:

xml = '<r a="b" xmlns:z="foo"><z:a>Hello <b z:m="n" x="y">World</b>!</z:a></r>'
doc = Nokogiri::XML(xml)
p doc.to_hash
#=> {
#=>   :kind=>"element",
#=>   :name=>"r",
#=>   :text=>"Hello World!",
#=>   :attr=>[
#=>     {
#=>       :kind=>"attribute",
#=>       :name=>"a", 
#=>       :text=>"b"
#=>     }
#=>   ], 
#=>   :kids=>[
#=>     {
#=>       :kind=>"element", 
#=>       :name=>"a", 
#=>       :nshref=>"foo", 
#=>       :nsprefix=>"z", 
#=>       :text=>"Hello World!", 
#=>       :attr=>[], 
#=>       :kids=>[
#=>         {
#=>           :kind=>"text", 
#=>           :name=>"text", 
#=>           :text=>"Hello "
#=>         },
#=>         {
#=>           :kind=>"element", 
#=>           :name=>"b", 
#=>           :text=>"World", 
#=>           :attr=>[
#=>             {
#=>               :kind=>"attribute", 
#=>               :name=>"m", 
#=>               :nshref=>"foo", 
#=>               :nsprefix=>"z", 
#=>               :text=>"n"
#=>             },
#=>             {
#=>               :kind=>"attribute", 
#=>               :name=>"x", 
#=>               :text=>"y"
#=>             }
#=>           ], 
#=>           :kids=>[
#=>             {
#=>               :kind=>"text", 
#=>               :name=>"text", 
#=>               :text=>"World"
#=>             }
#=>           ]
#=>         },
#=>         {
#=>           :kind=>"text", 
#=>           :name=>"text", 
#=>           :text=>"!"
#=>         }
#=>       ]
#=>     }
#=>   ]
#=> }

1
太棒了!
斯蒂芬·罗勒

12

我在尝试将XML转换为哈希(不是在Rails中)时发现了这一点。我以为我会使用Nokogiri,但最终选择了Nori

然后我的代码很简单:

response_hash = Nori.parse(response)

其他用户指出这是行不通的。我尚未验证,但似乎parse方法已从类移至实例。我上面的代码在某些时候起作用。新的(未经验证的)代码为:

response_hash = Nori.new.parse(response)

我认为这是不使用Rails的应用程序的最佳解决方案。
2015年7

核实线工程。但是,如果您有一个Nokogiri::XML文档,则必须先调用其to_s方法。例如xml = Nokogiri::XML(File.open('file.xml')),然后按hash = Nori.new.parse(xml.to_s),但是字段似乎以Array不带字段名称的形式返回。
code_dredd

在尝试使用Nokogiri将我的头撞到墙上之后,我终于遇到了这个问题。是BY FAR的最佳解决方案!感谢您的帖子。
艾伯特·兰内斯珀格'16

11

使用Nokogiri解析对ruby哈希的XML响应。非常快。

doc = Nokogiri::XML(response_body) 
Hash.from_xml(doc.to_s)

9
doc.to_s返回您已经拥有的内容response_body,因此nokogiri在您的示例中毫无用处
alesguzik 2015年

1
@alesguzik基本上是正确的,在该语句中,您两次解析xml Hash.from_xml将默认使用REXML而不是Nokogiri,也不确定您是否可以更改此值
Jesse Whitham

2
Nokogiri有时在解析格式不正确或编码的XML时更具弹性。我有一些示例,其中Hash.from_xml(xml_str)会失败,但这仍然可以工作。因此,它可能是Hash.from_xml(xml_str)的后备
user4887419 '16

请注意,Hash.from_xml如果精度很重要,则不应使用该功能。在完全省略某些值的更复杂的xml文档上,此功能开始逐渐消失。
pyRabbit

3

如果您在配置中定义了以下内容:

ActiveSupport::XmlMini.backend = 'Nokogiri'

它在Nokogiri中包含一个模块,您将获得此to_hash方法。


0

如果您在Nokogiri中选择的节点仅包含一个标签,则可以提取键,值并将它们压缩为一个哈希,如下所示:

  @doc ||= Nokogiri::XML(File.read("myxmldoc.xml"))
  @node = @doc.at('#uniqueID') # this works if this selects only one node
  nodeHash = Hash[*@node.keys().zip(@node.values()).flatten]

有关Ruby数组合并的更多信息,请参见http://www.ruby-forum.com/topic/125944


-1

看看我为Nokogiri XML Node进行的简单混合。

http://github.com/kuroir/Nokogiri-to-Hash

这是一个用法示例:

require 'rubygems'
require 'nokogiri'
require 'nokogiri_to_hash'
html = '
  <div id="hello" class="container">
    <p>Hello! visit my site <a href="http://kuroir.com">Kuroir.com</a></p>
  </div>
'
p Nokogiri.HTML(html).to_hash
=> [{:div=>{:class=>["container"], :children=>[{:p=>{:children=>[{:a=>{:href=>["http://kuroir.com"], :children=>[]}}]}}], :id=>["hello"]}}]
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.