Rails v3 / Ruby 1.9.2中的字符编码问题

当我从文件中读取内容时，有时会出现此错误“ UTF-8中的无效字节序列 ”。注意 – 只有在字符串中有一些特殊字符时才会发生这种情况。我试过没有“r：UTF-8”打开文件，但仍然得到相同的错误。

open(file, "r:UTF-8").each_line { |line| puts line.strip(",") } # line.strip generates the error

文件内容：

 # encoding: UTF-8 290919,"SE","26","Sk‰l","",59.4500,17.9500,, # this errors out 290956,"CZ","45","HornÌ Bradlo","",49.8000,15.7500,, # this errors out 290958,"NO","02","Svaland","",58.4000,8.0500,, # this works

这是我从外面获得的CSV文件，我试图将其导入我的数据库，它顶部没有“＃encoding：UTF-8”，但我添加了这个，因为我在某处读到它会解决这个问题，但事实并非如此。 🙁

环境：

Rails v3.0.3
ruby 1.9.2p0 （2010-08-18修订版29036）[x86_64-darwin10.5.0]

Ruby对每个文件都有一个外部编码和内部编码的概念。这允许您在源中使用UTF-8文件，即使文件以更深奥的格式存储。如果您的默认外部编码是UTF-8（如果您使用的是Mac OS X），那么您的所有文件I / O也将采用UTF-8。您可以使用File.open('file').external_encoding来检查。打开文件并传递"r:UTF-8"是强制使用默认情况下Ruby正在使用的相同外部编码。

有可能，您的源文档不是UTF-8，而那些非ascii字符没有完全映射到UTF-8（如果是，您将获得正确的字符并且没有错误，如果它们映射不正确，你会得到不正确的字符，没有错误）。你应该做的是尝试确定源文档的编码，然后让Ruby在读取时对文档进行转码，如下所示：

 File.open(file, "r:windows-1251:utf-8").each_line { |line| puts line.strip(",") }

如果您需要帮助确定源代码的编码，请为此Python库提供一个旋转。它基于Seamonkey / Mozilla中的自动字符集检测回退（可能仍在Firefox中）。

如果要更改文件编码，可以使用gem’charlock holmes’

https://github.com/brianmario/charlock_holmes

 $require 'charlock_holmes/string' content = File.read('test2.txt') if !content.is_utf8? detection = CharlockHolmes::EncodingDetector.detect(content) utf8_encoded_content = CharlockHolmes::Converter.convert content, detection[:encoding], 'UTF-8' end

然后，您可以将新内容保存在临时文件中并覆盖原始文件。
希望这有帮助。

Rails v3 / Ruby 1.9.2中的字符编码问题

https://github.com/brianmario/charlock_holmes

无法安装sqlite3-ruby gem

param丢失或值为空

使用Aptana RadRails创建Plain .rb文件

Rails应用程序错误 – ActiveRecord :: PendingMigrationError正在等待迁移; 运行’rake db：migrate RAILS_ENV = development’来解决此问题

需要建议：子菜单的Rails视图结构？

Ruby：如何处理带有“坏逗号”的CSV文件？

我可以在Ruby的if / else中使用大括号吗？

无法在Capybara测试中触发鼠标事件

案例表达在Ruby 1.9中有所不同？

如何从查询字符串中删除空值params