Tag: 信息提取

使用Ruby从文本解析日期: 我正在试图弄清楚如何使用Ruby从非结构化文本中提取日期。例如，我想解析这个字符串的日期“2010年2月1日午夜（美国东部时间）午夜12点之后开始的申请将不予考虑。” 有什么建议？

使用Ruby / Mechanize（和Nokogiri）从HTML中提取单个字符串: 我从论坛中提取数据。我的脚本基于工作正常。现在我需要从单个post中提取日期和时间（2009年12月21日，20：39）。我无法让它发挥作用。我使用FireXPath来确定xpath。示例代码： require ‘rubygems’ require ‘mechanize’ post_agent = WWW::Mechanize.new post_page = post_agent.get(‘http://www.vbulletin.org/forum/showthread.php?t=230708’) puts post_page.parser.xpath(‘/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()’).to_s.strip puts post_page.parser.at_xpath(‘/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()’).to_s.strip puts post_page.parser.xpath(‘//[@id=”post1960370″]/tbody/tr[1]/td/div[2]/text()’) 我的所有尝试都以空字符串或错误结束。我找不到有关在Mechanize中使用Nokogiri的任何文档。 Mechanize文档在页面底部显示：使用Mechanize导航到需要刮擦的页面后，使用Nokogiri方法刮取它。但有什么方法呢？我在哪里可以通过样本和解释语法阅读它们？我也没有在Nokogiri的网站上找到任何东西。

Interesting Posts

使用Ajax / jQuery进行更新操作，无需重新加载页面

错误：表“用户”上的更新或删除违反表“评论”上的外键约束“fk_rails_03de2dc08c”

ActionView :: Template ::错误：缺少要链接的主机

将redis部署到heroku无法连接

Ruby有未定义的实例变量的method_missing等价物吗？

如何从其他网站获取元数据并在我的ruby轨道上显示？

Ruby on Rails – 运行黄瓜时出错：您已经激活了activesupport 3.2.1，但您的Gemfile需要activesupport 3.1.0。

如何使用dBpedia在ruby-on-rails应用程序上设置neo4j？

如何使用Rails应用程序中的form_for发布以销毁操作？

Rails图像和资产未正确加载

`Range #include？`和`Range＃cover？`之间有什么区别？

如何存储和显示当前用户看到的最后5个新闻？

Rails路由到新的关联模型

如何在使用活动资源时从URL中删除.xml和.json

Heroku问题：您正在寻找的页面不存在