Tag: hpricot

Nokogiri vs Hpricot?

你会选哪一个? 我的重要属性是(不按顺序): 支持和未来的增强function。 社区和一般知识库(在互联网上)。 综合(IE,经证实可解析各种*。* ml页面)。 性能。 内存占用(运行时,而不是代码库)。

open-uri不会将http重定向到https

我正在使用Hpricot和OpenURI来解析网页并从中提取url。 当我收到“http:rapidshare.com”这样的链接时,它不会重定向到https。 这是我得到的错误: /home/leonidus/.rvm/rubies/ruby-1.9.3-p125/lib/ruby/1.9.1/open-uri.rb:216:in `open_loop’: redirection forbidden: http:……………..=> https:……………………. . . 我试图使用exception处理程序OPENURI::HTTPREDIRECT但我再次得到相同的错误。 我尝试了所有的博客,但它也没有得到解决。

删除XML标记及其内容之间的任何内容

我需要删除XML标记之间的任何内容,尤其是空格和换行符。 例如,从以下位置删除空格和新闻线: \ n 要得到: 这不是为了手工解析XML ,而是在XML数据被工具解析之前准备好。 更具体地说,我正在使用Hpricot(Ruby)来解析XML,不幸的是我们目前仍然停留在0.6.164版本上,所以……我不知道更新的版本,但是这个版本经常会返回奇怪的节点(对象)只包含空格和换行符。 因此,我们的想法是在将XML转换为Hpricot文档之前清理它。 备选解决方案赞赏 测试的一个例子:NoMethodError:未定义的方法`children’代表“\ n”:Hpricot :: Text 这里有趣的部分不是NoMethodError,因为那很好,但是Hpricot :: Text元素只包含一个换行符,仅此而已。

Nokogiri(RubyGem):查找并替换HTML标记

我有以下HTML: Foo The quick brown fox. Bar Jumps over the lazy dog. …并且通过使用RubyGem Nokogiri ( hpricot替换),我想将其更改为以下HTML: Foo The quick brown fox. Bar Jumps over the lazy dog. 换句话说:如何使用Nokogiri查找和替换某些HTML标记? 我知道如何找到它们(使用css关键字),但我不知道在解析文档时如何替换它们。 谢谢你的帮助!