Tag: cjk

‘𠂉’不是有效的unicode字符，但在unicode字符集中？: 简短的故事：我不能通过使用Ruby on Rails应用程序中的文本字段（使用默认的UTF-8编码）或直接使用MySQL GUI输入，将像’𠂉’这样的实体存储在MySQL数据库中应用程序。据我所知，所有中文字符和字根都可以毫无问题地输入数据库，但不是这些很少输入的“字符组件”。上面提到的字符是unicode U + 20089和html实体𠂉我可以通过输入𠂉并删除html转义来在页面上显示它，但我想将其存储为unicode字符并保持html转义到位。还有许多其他中国“组件”（全部字符的一部分，通常由2或3个笔画组成）导致同样的问题。根据这个页面，提到的字符在UTF-8字符集中： http ： //www.fileformat.info/info/unicode/char/20089/charset_support.htm 但是在邻近的’… 20089 / index.htm’页面上，有一个警告说它不是一个有效的unicode字符。作为参考，可以在Mac OS X中找到该实体，方法是搜索字符调色板（国际菜单，“显示角色调色板”），通过激进搜索，并查看“丿”激进。抱歉，如果这太开放了……这样的角色可以存储在基于UTF-8的数据库中吗？如何支持和不支持此字符，这两个字符都存在于字符集中且无效？

如何在Ruby正则表达式中匹配韩语字符？: 我对使用正则表达式的用户名进行了一些基本validation，比如[\w-_]+ ，我想添加对韩语字母的支持，同时仍然保持validation相同。我不想允许特殊字符，例如{}[]!@#$%^&*()等，我只想用除了[a-zA-Z0-9]之外的匹配给定字母的东西替换\w [a-zA-Z0-9] 。这意味着像안녕 username这样的用户名应该有效，但不是안녕[] 。我需要在Ruby 1.9中这样做。

使用ruby将unicode转换为字符: 我在unicode中找到了一个汉字字典。我正在尝试从这个字典中构建一个Character数据库，但我不知道如何将unicode转换为一个字符.. p “国”.unpack(“U*”).first #this gives the unicode 22269 如何将22269转换回与上面一行相反的字符值。

在Active Record回调中validation日语字符: 我有一个需要validation半宽和全宽日文字符的日文项目，半宽度允许14个字符，全宽度允许7个字符。有谁知道如何实现它？现在我的模特 class Customer validates_length_of :name, :maximum => 14 end 不是一个好选择我目前正在使用ror 2.3.5可以使用全宽和半宽

如何在Ruby中检测字符串中的某些Unicode字符？: 给定Ruby 1.8.7中的字符串（没有使用\ p {}支持Unicode属性的令人敬畏的Oniguruma正则表达式引擎），我希望能够确定该字符串是否包含一个或多个中文，日文或韩文字符; 即 class String def contains_cjk? … end end >> ‘日本語’.contains_cjk? => true >> ‘광고 프로그램’.contains_cjk? => true >> ‘艾弗森将退出篮坛’.contains_cjk? => true >> ‘Watashi ha bakana gaijin desu.’.contains_cjk? => false 我怀疑这将归结为查看字符串中的任何字符是否在Unihan CJKV Unicode块中，但我认为值得询问是否有人知道Ruby中的现有解决方案。