Tag: utf8mb4

‘𠂉’不是有效的unicode字符,但在unicode字符集中?

简短的故事:我不能通过使用Ruby on Rails应用程序中的文本字段(使用默认的UTF-8编码)或直接使用MySQL GUI输入,将像’𠂉’这样的实体存储在MySQL数据库中应用程序。 据我所知,所有中文字符和字根都可以毫无问题地输入数据库,但不是这些很少输入的“字符组件”。 上面提到的字符是unicode U + 20089和html实体𠂉 我可以通过输入𠂉并删除html转义来在页面上显示它,但我想将其存储为unicode字符并保持html转义到位。 还有许多其他中国“组件”(全部字符的一部分,通常由2或3个笔画组成)导致同样的问题。 根据这个页面,提到的字符在UTF-8字符集中: http : //www.fileformat.info/info/unicode/char/20089/charset_support.htm 但是在邻近的’… 20089 / index.htm’页面上,有一个警告说它不是一个有效的unicode字符。 作为参考,可以在Mac OS X中找到该实体,方法是搜索字符调色板(国际菜单,“显示角色调色板”),通过激进搜索,并查看“丿”激进。 抱歉,如果这太开放了……这样的角色可以存储在基于UTF-8的数据库中吗? 如何支持和不支持此字符,这两个字符都存在于字符集中且无效?

如何在Ruby中删除4个字节的utf-8字符?

由于MySQL的utf8不支持4字节字符,我正在寻找一种方法来检测并消除Ruby中字符串中的任何4字节utf8字符。 我知道我可以更新我的表使用utf8m4,但有几个原因是不可能的或所需的解决方案。 简单地将字符串编码为ASCII将删除这些字符,但也会删除所有其他非ASCII字符,这是不好的。