使用Nokogiri解析大型HTML文件
我正在尝试用Nokogiri解析http://www.pro-medic.ru/index.php?ht=246&perpage=all ,但不幸的是我无法从页面中获取所有项目。
我的简单测试代码是:
require 'open-uri' require 'nokogiri' html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all') p html.css('ul.products-grid-compact li .goods_container').count
它只返回83项,但实际数量约为186。
我认为问题可能是open
,但似乎函数正确读取HTML页面。
有人遇到过同样的问题吗?
该文件似乎超过了Nokogiri的解析器限制。 您可以通过添加HUGE
标志来放宽限制:
require 'open-uri' require 'nokogiri' url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all' html = Nokogiri::HTML(open(url)) do |config| config.options |= Nokogiri::XML::ParseOptions::HUGE end html.css('ul.products-grid-compact li .goods_container').count #=> 186
注意|=
是按位OR赋值运算符,不要将它与逻辑运算符||=
混淆
根据Parse Options ,您还可以通过config.huge
设置此标志