即使在force_encoding之后,Rails / Ruby也会在UTF-8中无效字节序列

我正在尝试在Rails中迭代一个远程nginx日志文件(压缩.gz文件),我在文件中的某个位置收到此错误:

TTPArgumentError: invalid byte sequence in UTF-8 

我尝试强制编码,虽然看起来编码已经是UTF8:

 logfile = logfile.force_encoding("UTF-8") 

我正在使用的方法:

  def remote_update uri = "http://" + self.url + "/localhost.access.log.2.gz" source = open(uri) gz = Zlib::GzipReader.new(source) logfile = gz.read # prints UTF-8 print logfile.encoding.name logfile = logfile.force_encoding("UTF-8") # prints UTF-8 print logfile.encoding.name logfile.each_line do |line| print line[/\/someregex\/1\/(.*)\//,1] end end 

真的试图理解为什么会发生这种情况(试图查看其他SO线程但没有成功)。 这有什么不对?

更新:

添加了exception的跟踪:

 HTTPArgumentError: invalid byte sequence in UTF-8 from /Users/T/workspace/sample_app/app/models/server.rb:25:in `[]' from /Users/T/workspace/sample_app/app/models/server.rb:25:in `block in remote_update' from /Users/T/workspace/sample_app/app/models/server.rb:24:in `each_line' from /Users/T/workspace/sample_app/app/models/server.rb:24:in `remote_update' from (irb):2 from /Users/T/.rbenv/versions/2.2.3/lib/ruby/gems/2.2.0/gems/railties-4.2.5/lib/rails/commands/console.rb:110:in `start' from /Users/T/.rbenv/versions/2.2.3/lib/ruby/gems/2.2.0/gems/railties-4.2.5/lib/rails/commands/console.rb:9:in `start' 

force_encoding不会更改实际的字符串数据:它只是更改了解释字节时要使用的编码的变量。

如果数据实际上不是utf-8或包含无效的utf-8序列,则强制编码将无济于事。 强制编码基本上只有当你从某个地方获得一些原始数据并且你知道它是什么编码并且你想告诉ruby那个编码是什么时才有用。

首先要做的是确定使用的实际编码是什么。 charlock_holmes gem可以检测编码。 一个更棘手的案例是,如果文件是编码的混合,但希望情况不是这样(如果是,那么也许尝试单独处理每一行可能会有效)。

如果你想获取一个具有正确编码的字符串,并将其转码为有效的UTF-8并清理无效字符,你可以使用如下内容:

 str.encode!('UTF-8', invalid: :replace, undef: :replace, replace: '?') 

如果您有一个UTF-8编码的字符串,其中包含无效的UTF-8字符,您可以使用“二进制”编码源清除它:

 str.encode!('UTF-8', 'binary', invalid: :replace, undef: :replace, replace: '?') 

两者都会给你一个UTF-8字符串,其中任何无效字符都应该被问号所代替。 您还可以传入replace: ''来删除坏字符,或者关闭该选项,您将获得\uFFFD unicode字符。

我的猜测是gzipping之前的源文件有一些二进制数据/损坏/无效的UTF-8登录到它?

之前在StackOverflow上也提出并回答了这个问题。 有关详细信息,请参阅以下博文:

https://robots.thoughtbot.com/fight-back-utf-8-invalid-byte-sequences

以下是SO答案的先前示例:

https://stackoverflow.com/a/18454435/506908