我正在搜索Java库以解析XML(复杂的配置和数据文件),我用Google搜索了一下,但是除了dom4j之外都找不到(似乎它们正在V2上工作)。不喜欢它,其他有关XML的Apache项目似乎处于休眠状态。我还没有自己评估过dom4j,只是想知道-Java是否有其他(良好)开源xml解析库?您对dom4j的体验如何?
在@Voo回答之后,让我再问一个-我应该使用Java的内置类还是诸如dom4j之类的任何第三方库。优点是什么?
我正在搜索Java库以解析XML(复杂的配置和数据文件),我用Google搜索了一下,但是除了dom4j之外都找不到(似乎它们正在V2上工作)。不喜欢它,其他有关XML的Apache项目似乎处于休眠状态。我还没有自己评估过dom4j,只是想知道-Java是否有其他(良好)开源xml解析库?您对dom4j的体验如何?
在@Voo回答之后,让我再问一个-我应该使用Java的内置类还是诸如dom4j之类的任何第三方库。优点是什么?
Answers:
实际上,Java支持4种开箱即用地解析XML的方法:
DOM解析器/构建器:整个XML结构都已加载到内存中,您可以使用众所周知的DOM方法进行处理。DOM还允许您使用Xslt转换来写文档。例:
public static void parse() throws ParserConfigurationException, IOException, SAXException {
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setValidating(true);
factory.setIgnoringElementContentWhitespace(true);
DocumentBuilder builder = factory.newDocumentBuilder();
File file = new File("test.xml");
Document doc = builder.parse(file);
// Do something with the document here.
}
SAX Parser:仅读取XML文档。Sax解析器贯穿文档并调用用户的回调方法。有一些用于文档的开始/结束,元素等的方法。它们是在org.xml.sax.ContentHandler中定义的,并且有一个空的帮助程序类DefaultHandler。
public static void parse() throws ParserConfigurationException, SAXException {
SAXParserFactory factory = SAXParserFactory.newInstance();
factory.setValidating(true);
SAXParser saxParser = factory.newSAXParser();
File file = new File("test.xml");
saxParser.parse(file, new ElementHandler()); // specify handler
}
StAx读取器/写入器:与面向数据流的接口一起使用。程序会像游标/迭代器一样在准备就绪时询问下一个元素。您也可以使用它创建文档。阅读文件:
public static void parse() throws XMLStreamException, IOException {
try (FileInputStream fis = new FileInputStream("test.xml")) {
XMLInputFactory xmlInFact = XMLInputFactory.newInstance();
XMLStreamReader reader = xmlInFact.createXMLStreamReader(fis);
while(reader.hasNext()) {
reader.next(); // do something here
}
}
}
撰写文件:
public static void parse() throws XMLStreamException, IOException {
try (FileOutputStream fos = new FileOutputStream("test.xml")){
XMLOutputFactory xmlOutFact = XMLOutputFactory.newInstance();
XMLStreamWriter writer = xmlOutFact.createXMLStreamWriter(fos);
writer.writeStartDocument();
writer.writeStartElement("test");
// write stuff
writer.writeEndElement();
}
}
JAXB:读取XML文档的最新实现:是v2中Java 6的一部分。这使我们可以序列化文档中的Java对象。您可以使用实现了javax.xml.bind.Unmarshaller的接口的类的类来阅读文档(可以从JAXBContext.newInstance获得该类的类)。必须使用使用的类来初始化上下文,但是您只需要指定根类,而不必担心静态引用的类。您可以使用注释来指定哪些类应该是元素(@XmlRootElement),哪些字段应该是元素(@XmlElement)或属性(@XmlAttribute,这真是个惊喜!)
public static void parse() throws JAXBException, IOException {
try (FileInputStream adrFile = new FileInputStream("test")) {
JAXBContext ctx = JAXBContext.newInstance(RootElementClass.class);
Unmarshaller um = ctx.createUnmarshaller();
RootElementClass rootElement = (RootElementClass) um.unmarshal(adrFile);
}
}
撰写文件:
public static void parse(RootElementClass out) throws IOException, JAXBException {
try (FileOutputStream adrFile = new FileOutputStream("test.xml")) {
JAXBContext ctx = JAXBContext.newInstance(RootElementClass.class);
Marshaller ma = ctx.createMarshaller();
ma.marshal(out, adrFile);
}
}
从一些旧的演讲幻灯片中无耻地复制了示例;-)
编辑:关于“我应该使用哪个API?”。好吧,这取决于-并非所有的API都具有与您看到的功能相同的功能,但是如果您可以控制用于映射XML文档的类,那么JAXB是我个人最喜欢的,非常优雅且简单的解决方案(尽管我没有将其用于非常大的文档,可能会有点复杂)。SAX也非常易于使用,如果您没有充分的理由使用它,那就远离DOM-我认为旧的,笨拙的API。我认为没有任何现代的第三方库具有STL所缺少的特别有用的功能,并且标准库具有通常的优点,即它们经过了严格的测试,记录和稳定。
Java支持两种开箱即用的XML解析方法。
SAXParser
如果要解析大型XML文件和/或不想使用大量内存,则可以使用此解析器。
http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/SAXParserFactory.html
示例:http://www.mkyong.com/java/how-to-read-xml-file-in-java-sax-parser/
DOMParser
如果需要执行XPath查询或需要具有完整的DOM,则可以使用此解析器。
http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/DocumentBuilderFactory.html
示例:http://www.mkyong.com/java/how-to-read-xml-file-in-java-dom-parser/
如果要使用类似DOM的API(即一种XML解析器将文档转换为元素和属性节点的树的API),则至少有四个可供选择:DOM本身,JDOM,DOM4J和XOM。使用DOM的唯一可能原因是因为它被视为标准并且由JDK提供:在所有其他方面,其他所有方面都比较优越。XOM是我自己的首选,它结合了简单性,功能和性能。
当然,还有其他处理方式:低级解析器接口(SAX和StAX),数据对象绑定接口(JAXB)和高级声明性语言(XSLT,XQuery,XPath)。哪种最适合您取决于您的项目要求和您的个人喜好。
Nikita的观点很出色:不要将成熟与坏相混淆。XML没有太大变化。
JDOM将是DOM4J的另一种选择。
对于对使用JDOM有兴趣但又担心没有一段时间更新(特别是没有利用Java泛型)的人们,有一个名为CoffeeDOM的fork恰好解决了这些方面并使JDOM API现代化,请在此处阅读更多内容:
http://cdmckay.org/blog/2011/05/20/introducing-coffeedom-a-jdom-fork-for-java-5/
并从项目页面下载它:
VTD-XML是重型XML解析库...在几乎所有方面上它都比其他方面更好...这是2013年的一篇论文,分析了Java平台中可用的所有XML处理框架...
http://sdiwc.us/digitlib/journal_paper.php?paper=00000582.pdf