Tag: cjk

‘𠂉’不是有效的unicode字符,但在unicode字符集中?

简短的故事:我不能通过使用Ruby on Rails应用程序中的文本字段(使用默认的UTF-8编码)或直接使用MySQL GUI输入,将像’𠂉’这样的实体存储在MySQL数据库中应用程序。 据我所知,所有中文字符和字根都可以毫无问题地输入数据库,但不是这些很少输入的“字符组件”。 上面提到的字符是unicode U + 20089和html实体𠂉 我可以通过输入𠂉并删除html转义来在页面上显示它,但我想将其存储为unicode字符并保持html转义到位。 还有许多其他中国“组件”(全部字符的一部分,通常由2或3个笔画组成)导致同样的问题。 根据这个页面,提到的字符在UTF-8字符集中: http : //www.fileformat.info/info/unicode/char/20089/charset_support.htm 但是在邻近的’… 20089 / index.htm’页面上,有一个警告说它不是一个有效的unicode字符。 作为参考,可以在Mac OS X中找到该实体,方法是搜索字符调色板(国际菜单,“显示角色调色板”),通过激进搜索,并查看“丿”激进。 抱歉,如果这太开放了……这样的角色可以存储在基于UTF-8的数据库中吗? 如何支持和不支持此字符,这两个字符都存在于字符集中且无效?

如何在Ruby正则表达式中匹配韩语字符?

我对使用正则表达式的用户名进行了一些基本validation,比如[\w-_]+ ,我想添加对韩语字母的支持,同时仍然保持validation相同。 我不想允许特殊字符,例如{}[]!@#$%^&*()等,我只想用除了[a-zA-Z0-9]之外的匹配给定字母的东西替换\w [a-zA-Z0-9] 。 这意味着像안녕 username这样的用户名应该有效,但不是안녕[] 。 我需要在Ruby 1.9中这样做。

使用ruby将unicode转换为字符

我在unicode中找到了一个汉字字典。 我正在尝试从这个字典中构建一个Character数据库,但我不知道如何将unicode转换为一个字符.. p “国”.unpack(“U*”).first #this gives the unicode 22269 如何将22269转换回与上面一行相反的字符值。

在Active Record回调中validation日语字符

我有一个需要validation半宽和全宽日文字符的日文项目,半宽度允许14个字符,全宽度允许7个字符。 有谁知道如何实现它? 现在我的模特 class Customer validates_length_of :name, :maximum => 14 end 不是一个好选择 我目前正在使用ror 2.3.5可以使用全宽和半宽

如何确定角色是否是汉字

如何判断一个角色是否是使用ruby的汉字?

如何在Ruby中检测字符串中的某些Unicode字符?

给定Ruby 1.8.7中的字符串(没有使用\ p {}支持Unicode属性的令人敬畏的Oniguruma正则表达式引擎),我希望能够确定该字符串是否包含一个或多个中文,日文或韩文字符; 即 class String def contains_cjk? … end end >> ‘日本語’.contains_cjk? => true >> ‘광고 프로그램’.contains_cjk? => true >> ‘艾弗森将退出篮坛’.contains_cjk? => true >> ‘Watashi ha bakana gaijin desu.’.contains_cjk? => false 我怀疑这将归结为查看字符串中的任何字符是否在Unihan CJKV Unicode块中 ,但我认为值得询问是否有人知道Ruby中的现有解决方案。