Tag: html parsing

Rails中的元标记解析

我正在寻找一些东西来帮助我解析类似于我在开放图形数据中找到的这个github项目的网站的一般元标记。 这是一个演示应用程序 。 基本上,我希望能够让用户输入来自新闻网站的URL并让它从标题,描述等中检索,从而为用户留下尽可能少的工作。 在我自己滚动之前,我想知道是否存在与上述项目类似的当前项目/ gem? (因为它只适用于开放图形而不是一般元标记) 我也注意到即使没有打开图形特定的标签, facebook的linter也能做到这一点。

如何在HTML文档中安全地使用嵌入JSON?

在Rails 3.1应用程序中,如何安全地将一些JSON数据嵌入到HTML文档中? 假设我在控制器操作中有这个: @tags = [ {name:”tag1″, color:”green”}, {name:”I can do something bad here”, color:”red”} ] 这在相应的观点中: //<![CDATA[ var tags_list = ; // ]]> 然后我得到这个结果HTML: var tags_list = [ {"name":"tag1","color":"green"}, {"name":"</script><b>I can do something bad here</b>","color":"red"} ]; 这会在Chrome中触发SyntaxError: Unexpected token & 如果我使用删除Rails的默认HTML转义,则返回以下内容: var tags_list = [ {“name”:”tag1″,”color”:”green”}, {“name”:”I can do something bad here”,”color”:”red”} ]; 当然,它使用打破HTML文档。 […]

HTML解析为Ruby中的DOM

Ruby中是否有任何HTML解析器将HTML文档读入DOM树并将HTML标记表示为DOM元素? 我知道Nokogiri,但它没有将HTML解析为DOM树。

使用ruby将HTML转换为纯文本并维护结构/格式

我想将html转换为纯文本。 我不想只删除标签,我想尽可能智能地保留尽可能多的格式。 为标签插入换行符,检测段落并将其格式化,等等。 输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有锚点或图像)。 我可以把几个正则表达式放在一起,让我80%,但想到可能有一些现有的解决方案具有更多的智能。

如何用Nokogiri解析HTML表?

我正在尝试解析一个表,但我不知道如何从中保存数据。 我想将每行中的数据保存为: [‘Raw name 1’, 2,094, 0,017, 0,098, 0,113, 0,452] 样本表是: html = <<EOT Table name Column name 1 Column name 2 Column name 3 Column name 4 Column name 5 Raw name 1 2,094 0,017 0,098 0,113 0,452 . . . Raw name 5 2,094 0,017 0,098 0,113 0,452 EOT 我的刮刀代码是: doc = Nokogiri::HTML(open(html), […]

Nokogiri vs Hpricot?

你会选哪一个? 我的重要属性是(不按顺序): 支持和未来的增强function。 社区和一般知识库(在互联网上)。 综合(IE,经证实可解析各种*。* ml页面)。 性能。 内存占用(运行时,而不是代码库)。

Ruby中可用的网页抓取gem/工具

我正在尝试在我正在处理的Ruby脚本中抓取网页。 该项目的目的是显示哪些ETF和股票共同基金与价值投资理念最相容。 我要抓的页面的一些例子是: http://finance.yahoo.com/q/pr?s=SPY+Profile http://finance.yahoo.com/q/hl?s=SPY+Holdings http://www.marketwatch.com/tools/mutual-fund/list/V 你为Ruby推荐什么网络抓取工具?为什么? 请记住,那里有成千上万的股票基金,所以我使用的任何工具都必须相当快。 我是Ruby的新手,但我有使用lxml在Python中抓取网页的经验( https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py )。 一旦下载了5000多只股票的页面,lxml可以在几分钟内完成所有这些操作。 (我记得尝试过BeautifulSoup但拒绝它,因为它太慢了。)