MySQL 中字符集详细介绍
MySQL 中的 UTF8
在 MySQL 中, utf8 编码格式有点特殊, 它不是我们通常用到的 utf8, 而是 utf8mb3 编码的缩写. 而 utf8mb4 才是我们常说的那个 utf8.
utf8mb3
:阉割过的 utf8 字符集, 只使用 1~3 个字节表示字符.utf8mb4
:正宗的 utf8 字符集, 使用 1~4 个字节表示字符.
通常情况下, utf8mb3 和 utf8mb4 的使用区别不大, 但是如果有使用 4 字节编码一个字符的情况, 比如存储一些 emoji 表情
, 那就必须使用 utf8mb4 编码.
修改MySQL数据库的编码
当我们 MySQL 数据库的编码已经是UTF8 时, 此时需要对某个表的某个字段支持插入emoji 表情,前面说过 emoji 表情需要 utf8mb4 才支持。所以此时就需要修改 MySQL 的编码。
注意:utf8mb4 字符集要求 MySQL 数据库版本 >=5.5.3
。
修改的步骤如下:
1.修改 mysql 配置文件,设置其编码格式,添加或修改如下代码:
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci
init_connect = ‘SET NAMES utf8mb4’
character-set-client-handshake = false
[client]
default-character-set=utf8mb4
[mysql]
default-character-set=utf8mb4
2.修改数据库字符集编码
ALTER DATABASE CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
3.修改数据表字符集编码
ALTER TABLE .yyy CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
4.检测是否修改成功
5.插入一个emoji表情来测试下:
字符集的比较规则
MySQL 有 4 个级别的字符集, 分别是: 服务器级别, 数据库级别, 表级别, 列级别。同时对应了4个级别的比较规则,即服务器级别, 数据库级别, 表级别, 列级别。
每种字符集对应若干种比较规则, 且每种字符集都有一种默认的比较规则。
通过 SHOW COLLATION 命令的结果中的 Default 列的值为 YES 的就是该字符集的默认比较规则, 对于 utf8 字符集,默认的比较规则就是 utf8_general_ci. ( ci 表示不区分大小写 )
- utf8_general_ci 表示不区分大小写
- utf8_general_cs 表示区分大小写
上面说到,一种字符集对应多个比较规则,常见的比较规则 utf8_unicode_ci 和 utf8_general_ci 的区别:
- 对中英文来说没有实质的差别。
- utf8_general_ci: 校对速度快,但准确度稍差。
- utf8_unicode_ci: 准确度高,但校对速度稍慢。
- 若数据库中有德语、法语或者俄语需求,需使用 utf8_unicode_ci。其他情况用 utf8_general_ci 即可。
MySQL查询时区分大小写
上面说到,MySQL 默认是不区分大小写的
,平时也很少会考虑数据存储时是否区分字符串的大小写。不过,有时候还是会明确要求某张表的指定字段在查询时需要区分大小写。
那么如何实现呢?
- 方式1:在建表的时候,就设置比较规则区分大小写。但个人认为最好不要这么做。一般在设计数据库时并不能很明确的知道哪个字段需要区分,都是在开发一段时间后,突然提出的。具有难以预料性。
- 方式2:是在执行查询 SQL 时添加关键字
binary
可以区分大小写。
SELECT * FROM U WHERE name LIKE ‘a%’;
SELECT * FROM U WHERE name LIKE ‘A%’;
— 查询结果是不同的,区分大小写
SELECT * FROM U WHERE binary name LIKE ‘a%’;
SELECT * FROM U WHERE binary name LIKE ‘A%’;
到此这篇关于MySQL 中字符集详细介绍的文章就介绍到这了,更多相关MySQL 字符集内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!