Ruby 1.9 – 无效的多字节字符(utf-8)
我有一个只有这两行的ruby文件:
# encoding: utf-8 puts "—"
当我用ruby test_enc.rb
运行它时失败了:
test_enc.rb:2: invalid multibyte char (UTF-8) test_enc.rb:2: unterminated string meets end of file
我不知道如何正确指定—
(emdash)的字符代码,但是vim告诉我它是151, Hex 97, Octal 227
。 对于像ã
这样的其他角色,它也会失败,所以我怀疑它与该角色有特殊关系。 我在Windows XP上运行,我使用的ruby版本是:
ruby 1.9.1p430 (2010-08-16 revision 28998) [i386-mingw32]
我觉得这里有一些非常明显的东西。 有任何想法吗?
编辑:今天学到了关于假设的宝贵教训 – 特别是假设你的编辑使用UTF-8而没有实际检查它。 哎呀!
感谢所有快速准确的回复!
再次编辑: “为utf-8正确设置vim”变得太大了,并且与这个问题无关,所以它现在是一个单独的问题 。
鉴于Ruby明确地提醒您注意UTF-8,我强烈怀疑您实际上还没有写出一个UTF-8文件。 确保Vim(或用于创建文件的任何文本编辑器) 确实设置为写出UTF-8。
请注意,在UTF-8中,任何非ASCII字符都将由多个字节表示,而不是您从Vim诊断中描述的单个字节。 我建议使用二进制文件编辑器(或转储,或其他)来真正显示文本文件中的内容。 有些东西还没有一些先入为主的编码概念 – 甚至没有把它想象成文本文件。
记事本可以让你用UTF-8写出一个文件,所以你可能想尝试一下,看看会发生什么。 (我自己没有安装Ruby,否则我会为你试试。)
你的文件是latin1。 Ruby是对的。
emdash将被编码为两个字节,而不是UTF-8中的一个字节。