Ruby为行读取读取不同的文件大小

我需要做一些文件大小至关重要的事情。 这产生了奇怪的结果

filename = "testThis.txt" total_chars = 0 file = File.new(filename, "r") file_for_writing = nil while (line = file.gets) total_chars += line.length end puts "original size #{File.size(filename)}" puts "Totals #{total_chars}" 

像这样

 original size 20121 Totals 20061 

为什么第二个出现短缺?

编辑:Answerers的预感是正确的:测试文件中有60行。 如果我改变这一行

  total_chars += line.length + 1 

它完美地运作。 但是在* nix这个改变是错的吗?

编辑:现在跟进了。 谢谢!

文件中存储了描述线条的特殊字符:

  • Windows / DOS上的CR LF(0x0D 0x0A)(\ r \ n)
  • UNIX系统上的0x0A(\ n)。

Ruby’s gets使用UNIX方法。 因此,如果您读取Windows文件,则在读取的每一行时将丢失1个字节,因为\ r \ n字节将转换为\ n。

String.length也不能很好地衡量字符串的大小(以字节为单位)。 如果String不是ASCII,则一个字符可能由多个字节(Unicode)表示。 也就是说,它返回String中的字符数,而不是字节数。

要获取文件大小,请使用File.size(file_name)

我的猜测是你在Windows上,你的“testThis.txt”文件有\ r \ n行结尾。 在文本模式下打开文件时,每行结尾将转换为单个\ n字符。 因此,每行会丢失1个字符。

你的测试文件中有60行吗? 这与此解释一致。

线路终结问题是最有可能的罪魁祸首。

值得注意的是,如果文本文件的字符编码不是ASCII,那么2之间也会有差异。 如果文件是UTF-8,这将适用于仅使用标准ASCII字母符号的英语和一些欧洲语言。 除此之外,文件大小和字符数可能会有很大差异(与字符数相比,文件大小最多为4倍甚至6倍)。

依赖’1个字符= 1个字节’只是在寻找麻烦,因为它几乎肯定会在某些时候失败。