从Rails应用程序(Word,PDF,Excel等)搜索附件

我在Stack Overflow上的第一篇post请你温柔一点! 我即将为客户启动一个新的Ruby on Rails(3.1)项目。 他们的要求之一是有一个搜索引擎,它将索引大约2,000个文档,这些文档是PDF,Word,Excel和HTML的混合。

我曾希望使用思考 – 狮身人面像或Texticle(最流行于https://www.ruby-toolbox.com/categories/rails_search.html ),但据我所知:

  • Texticle需要PostgreSQL。 我在MySQL上。
  • 思考-sphinx不会在文件系统上索引文件。
  • 即使我将附件保存到数据库中,思考 – sphinx仍然无法正常工作,因为它需要纯文本(根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff )

所以我有两个选择:

  1. 选择其他搜索工具
  2. 尝试将附件的纯文本版本提取到数据库中,以便思考sphinx进行读取

你推荐哪种方法?

如果它是一个不同的搜索工具,哪一个? 我的要求非常基本,所以我真的很喜欢一个很容易设置的,有很多文档,示例和教程!

如果它正在提取,你能推荐常用文件类型的提取器,如PDF,Word,Excel和HTML吗?

感谢大家。 非常感谢您的帮助。

好吧我以前没有做过二进制文件索引,但显然Solr支持它看到索引文件与SPHINX / ultrasphinx和http://wiki.apache.org/solr/ExtractingRequestHandler有很多可用于Solr的gem,太阳黑子似乎成为一个受欢迎的http://outoftime.github.com/sunspot/虽然看起来太阳黑子没有内置支持Solr Cells,但似乎有一些工作进入它https://github.com/tomasc/ sunspot_cell可能有更好的选择,但这应该给你一个很好的起点。

只是为了更新这个。 我决定采用的方法是:

尝试将附件的纯文本版本提取到数据库中,以便思考sphinx进行读取

具体来说,我将做以下事情:

  • 使用思维 – 狮身人面像
  • 使用subexec gem来调用…
  • …来自命令行的Tika

它看起来就像调用java -jar tika-app-0.10.jar -t [file]一样简单,但如果结果更复杂的话,我会发布我的经验!

Interesting Posts