Ruby 1.9.x用字符串中的特定清理字符替换字符集

我正在寻找一种方法，以简洁有效的方式在Ruby中执行以下PHP代码：

$normalizeChars = array('Š'=>'S', 'š'=>'s', 'Ð'=>'Dj','Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss','à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y', 'ƒ'=>'f'); $cleanGenre = strtr($this->entryArray['genre'], $normalizeChars);

这里strtr()函数将替换左侧的字符和数组右侧的字符。非常方便清理工作。但是我似乎无法在Ruby中发现任何类似的东西，也就是说，一种方法来指定在一个数组中替换所有字符而不是每个字符的冗长条件。

请注意tr不起作用，因为您不能用两个字母替换一个字母（D => Dj）。另外它给我一个InvalidByteSequenceError: "\xC5" on US-ASCII为此行的InvalidByteSequenceError: "\xC5" on US-ASCII ：

  entry["genre"].tr('ŠšŽž', 'SsZz')

谢谢。

我会让你轻松实现

 #encoding: UTF-8 t = 'ŠšÐŽžÀÁÂÃÄAÆAÇÈÉÊËÌÎÑNÒOÓOÔOÕOÖOØOUÚUUÜUÝYÞBßSàaáaâäaaæaçcèéêëìîðñòóôõöùûýýþÿƒ' fallback = { 'Š'=>'S', 'š'=>'s', 'Ð'=>'Dj','Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss','à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y', 'ƒ'=>'f' } p t.encode('us-ascii', :fallback => fallback)

在Ruby 1.9.3中，您可以使用:fallback选项和encode ：

 "ŠšŽžÐ".encode('us-ascii', :fallback => { [your character table here] }) => "SsZzDj"

它也可以用gsub来实现，因为它接受转换表作为1.9.x中的哈希参数：

 "ŠšŽžÐ".gsub(/[ŠšŽžÐ]/, [your character table here]) => "SsZzDj"

或者更好（通过@steenslag）：

 character_table = [your table here] regexp_keys = Regexp.union(character_table.keys) "ŠšŽžÐ".gsub(regexp_keys, character_table) => "SsZzDj"

这种字符转换称为音译，如果您希望谷歌获得更多解决方案（很多Ruby库都支持音译，但我测试的那些库都没有完全支持您的字符集）。

这是有效的，因为我认为你希望它具有：翻译数组中的字符，并保留那些不在其中的字符：

 # encoding: utf-8 lookup = {'Š'=>'S', 'š'=>'s', 'Ð'=>'Dj','Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss','à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y', 'ƒ'=>'f'} clean_genre = entry["genre"].chars.to_a.map { |x| if lookup.has_key?(x) lookup[x] else x end }.join

例如：

 'aŠšŽž'.chars.to_a.map { |x| if lookup.has_key?(x) lookup[x] else x end }.join

给你’aSsZz’。

或者将块逻辑移动到查找表本身（感谢steenslag简化了默认的proc解决方案！）：

 lookup.default_proc = proc { |hash, key| key }

那么电话会看起来如下：

 puts 'aŠšŽž'.chars.to_a.map { |x| lookup[x] }.join

甚至更好（再次感谢steenslag指出）：

 puts 'aŠšŽž'.gsub(/./) { |x| lookup[x] }

Ruby 1.9.x用字符串中的特定清理字符替换字符集

Ruby的简写，“如果它不是空白则使用它，否则使用它”

运行’__rvm_make install’时出错

rails中的create_or_update方法

在ruby中定义全局方法的方法

编译器无法生成可执行文件。（RuntimeError）

如何在使用Ruby重定向后获取最终的URL？

覆盖默认访问者时更新属性的麻烦

使用ruby / Selenium上传文件

对包含时间或距离的字符串进行排序

在Ruby中哈希“has_key”的复杂性

Ruby 1.9.x用字符串中的特定清理字符替换字符集

Ruby的简写，“如果它不是空白则使用它，否则使用它”

运行’__rvm_make install’时出错

rails中的create_or_update方法

在ruby中定义全局方法的方法

编译器无法生成可执行文件。 （RuntimeError）

如何在使用Ruby重定向后获取最终的URL？

覆盖默认访问者时更新属性的麻烦

使用ruby / Selenium上传文件

对包含时间或距离的字符串进行排序

在Ruby中哈希“has_key”的复杂性

编译器无法生成可执行文件。（RuntimeError）