Nokogiri Scraping错过了HTML
Nokogiri并没有抓住iframe标签下的任何东西。
doc.search("iframe")
仅返回iframe标记。 doc.search("body.content-frame")
返回空。 doc.errors
也返回空。 Nokogiri为什么不在iframe下注册HTML? 我该怎么抓住它?
#document #ETC.......
那是因为iframe
的内容不是页面的一部分。 实际上,它们位于完全不同的位置(请注意iframe
的src
属性)。 您必须单独获取该内容,这是浏览器执行此操作的方式。
这是处理它的代码:
page = Mechanize.new.get "http://page_u_need" page.iframe_with(id: 'beatles').content