使用Nokogiri解析大型HTML文件

我正在尝试用Nokogiri解析http://www.pro-medic.ru/index.php?ht=246&perpage=all ，但不幸的是我无法从页面中获取所有项目。

我的简单测试代码是：

require 'open-uri' require 'nokogiri' html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all') p html.css('ul.products-grid-compact li .goods_container').count

它只返回83项，但实际数量约为186。

我认为问题可能是open ，但似乎函数正确读取HTML页面。

有人遇到过同样的问题吗？

该文件似乎超过了Nokogiri的解析器限制。您可以通过添加HUGE标志来放宽限制：

 require 'open-uri' require 'nokogiri' url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all' html = Nokogiri::HTML(open(url)) do |config| config.options |= Nokogiri::XML::ParseOptions::HUGE end html.css('ul.products-grid-compact li .goods_container').count #=> 186

注意|=是按位OR赋值运算符，不要将它与逻辑运算符||=混淆

根据Parse Options ，您还可以通过config.huge设置此标志

使用Nokogiri解析大型HTML文件

如何通过Mechanize和Nokogiri获取数据？

Nokogiri可以保留属性引用风格吗？

直接在Nokogiri的标签内获取文本

Ruby Watir Gem，定时输入表格

使用Nokogiri和Ruby从html doc获取链接和href文本？

HTML解析为Ruby中的DOM

如何用Nokogiri让空标签自动关闭？

如何使用Nokogiri获取XML文档的根元素名称？

我无法从Nokogiri解析的字符串中删除空格

我可以将系统库（例如libxml2）合并到一个我可以部署到Heroku的gem（例如nokogiri）中编译吗？