什么是Ruby的快速XML解析器？

我正在使用Nokogiri，它适用于小型文档。但是对于180KB的HTML文件，我必须通过ulimit -s增加进程堆栈大小，并且解析和XPath查询需要很长时间。

使用库存Ruby发行版有更快的方法吗？

我习惯了XPath，但解决方案不一定需要支持XPath。

标准是：

快写。
快速执行。
强大的结果解析器。

Nokogiri基于libxml2，它是任何语言中速度最快的XML / HTML解析器之一。它是用C语言编写的，但是在许多语言中都有绑定。

问题是文件越复杂，在内存中构建完整的DOM结构所需的时间就越长。与其他解析方法相比，创建DOM更慢且占用内存更多（通常整个DOM必须适合内存）。 XPath依赖于这个DOM。

SAX通常是人们求助于速度或不适合内存的大型文档。它更多的是事件驱动：它通知你一个start元素，end元素等，你编写处理程序来对它们作出反应。这有点痛苦，因为你最终会自己跟踪状态（比如你在哪个元素里面）。

有一个中间立场：一些解析器具有“拉解析”function，您可以在其中进行类似光标的导航。您仍然按顺序访问每个节点，但是您可以“快进”到您不感兴趣的元素的末尾。它具有SAX的速度，但是用于许多用途的更好的界面。我不知道Nokogiri是否可以为HTML做这个，但是如果你感兴趣的话，我会调查它的Reader API 。

请注意，Nokogiri对格式错误的标记（例如真实HTML）也非常宽容，仅此一点就使它成为HTML解析的一个非常好的选择。

看看Oxgem。它比LibXML和Nokogiri更快，并且支持内存解析以及SAX回调解析。完全披露，我写了。

在性能比较中， http：//www.ohler.com/software/thoughts/Blog/Entries/2011/9/21_XML_with_Ruby.html比较了DOM（内存中）和SAX（回调）解析器。

链接到牛是http://rubygems.org/gems/ox 。关于性能差异的讨论： http ： //www.ohler.com/software/thoughts/Blog/Entries/2011/9/21_XML_with_Ruby.html

您可能会发现，对于较大的XML文档，DOM解析不是很有效。这是因为解析器必须构建XML文档结构的内存映射。

通常需要较小内存占用的另一种方法是使用事件驱动的SAX解析器。

Nokogiri完全支持SAX。

根据您的环境， Oga可能更适合作为Ruby的足够快的 XML解析器，具有更好的界面和更快的安装时间。

什么是Ruby的快速XML解析器？

Ruby Post请求：PDF文件

How do you say事情发生在“x分钟前”或“x小时前”或“x天前”在Ruby？

如何使用searchkick gem在rails中映射多个属性

如何判断RVM安装的ruby实际上正在使用哪个openssl lib

UTC时间重置为2000-01-01（ruby）。如何防止重置时间？

在Ruby中编写二进制文件

rvm在centos 5.5上安装1.8.7-head错误

使用FactoryGirl时继续获取record_invalid

Ruby：从Array类中提取Stack的function

在Ruby中构建长字符串的干净方法

什么是Ruby的快速XML解析器？

Ruby Post请求：PDF文件

How do you say事情发生在“x分钟前”或“x小时前”或“x天前”在Ruby？

如何使用searchkick gem在rails中映射多个属性

如何判断RVM安装的ruby实际上正在使用哪个openssl lib

UTC时间重置为2000-01-01（ruby）。 如何防止重置时间？

在Ruby中编写二进制文件

rvm在centos 5.5上安装1.8.7-head错误

使用FactoryGirl时继续获取record_invalid

Ruby：从Array类中提取Stack的function

在Ruby中构建长字符串的干净方法

UTC时间重置为2000-01-01（ruby）。如何防止重置时间？