Tag: utf8mb4

‘𠂉’不是有效的unicode字符，但在unicode字符集中？: 简短的故事：我不能通过使用Ruby on Rails应用程序中的文本字段（使用默认的UTF-8编码）或直接使用MySQL GUI输入，将像’𠂉’这样的实体存储在MySQL数据库中应用程序。据我所知，所有中文字符和字根都可以毫无问题地输入数据库，但不是这些很少输入的“字符组件”。上面提到的字符是unicode U + 20089和html实体𠂉我可以通过输入𠂉并删除html转义来在页面上显示它，但我想将其存储为unicode字符并保持html转义到位。还有许多其他中国“组件”（全部字符的一部分，通常由2或3个笔画组成）导致同样的问题。根据这个页面，提到的字符在UTF-8字符集中： http ： //www.fileformat.info/info/unicode/char/20089/charset_support.htm 但是在邻近的’… 20089 / index.htm’页面上，有一个警告说它不是一个有效的unicode字符。作为参考，可以在Mac OS X中找到该实体，方法是搜索字符调色板（国际菜单，“显示角色调色板”），通过激进搜索，并查看“丿”激进。抱歉，如果这太开放了……这样的角色可以存储在基于UTF-8的数据库中吗？如何支持和不支持此字符，这两个字符都存在于字符集中且无效？

如何在Ruby中删除4个字节的utf-8字符？: 由于MySQL的utf8不支持4字节字符，我正在寻找一种方法来检测并消除Ruby中字符串中的任何4字节utf8字符。我知道我可以更新我的表使用utf8m4，但有几个原因是不可能的或所需的解决方案。简单地将字符串编码为ASCII将删除这些字符，但也会删除所有其他非ASCII字符，这是不好的。