如何使用Ruby或Nokogiri获取页面的原始HTML源代码？

我正在使用Nokogiri （Ruby Xpath库）来浏览网页上的内容。然后我发现了一些网页的问题，比如Ajax网页，这意味着当我查看源代码时，我将看不到确切的内容，例如


等。 
 如何获取实际内容的HTML代码？ 







 
	
		      	 如果您想要网页的原始来源，请不要使用Nokogiri。 只需将网页直接作为字符串获取，然后不要将其提供给Nokogiri。 例如： 
 require 'open-uri' html = open('http://phrogz.net').read puts html.length #=> 8461 puts html #=> ...raw source of the page... 
 另一方面，如果您想要一个页面的JavaScript后修改内容（例如执行JavaScript代码的AJAX库来获取新内容并更改页面），那么您就不能使用Nokogiri。 您需要使用Ruby来控制Web浏览器（例如，阅读Selenium或Watir）。 



	
		
		
	
 	

  如何使用Rails 4在一个表单中添加多个多对多字段？
  艺术家Group_by嵌套属性Order_date
使用Nokogiri在BR标签上拆分内容
Nokogiri解析
Nokogiri可以搜索“？xml-stylesheet”标签吗？
获取Nokogiri中属性的值以提取链接URL
打印一个XML文档，顶部没有XML标题行
在Nokogiri中插入特定XML标记后的文本
是否可以用Nokogiri解析样式表？
在Nokogiri中选择子节点的绝对最便宜的方法是什么？
Nokogiri和XPath中未定义的名称空间前缀

     

      
      
        
      




  Interesting Posts

如何使用nokogiri和mechanize从标签中提取文本？如何使用nokogirivalidationXHTML？如何用Nokogiri让空标签自动关闭？如何一次访问一个标记在mac（libxml2）上安装nokogiri 1.6.0时出错Nokogiri Scraping错过了HTMLNokogiri本机扩展无法构建（不是libxml2或libxslt缺少问题）“语法错误，意外的tIDENTIFIER，期待$ end”升级到ruby 1.9.2并在nokogiri中获得Segmentation Fault错误让nokogiri使用更新版本的libxml2






        
          

            
              Back to top
              Ruby编程
            
            Copyright © Dovov 编程网 - All Rights Reserved.