【MySQL】Mysql设计与开发规范-修订版

2024-11-08 来源：个人技术集锦

由于项目组最近需要进行sql速度优化，所以先制定了一版sql的规范，但是由于网络上分布的规范十分散乱，所以进行了部分的整理，这里包括了网络上找到的，还有公司dba制定的，还有阿里java编码规范中的一些规范，下面是这次整理的规范详情

数据库设计规范

1.命名规范

2. 表结构设计规范

【强制】表禁止使用外键，如果要保证完整下，应由程序端实现，外键使表之间相互耦合，影响update、delete等性能，有可能造成死锁，高并发环境下容易导致数据库性能瓶颈。
【强制】表和列的名称必须控制在32个字符以内，表名只能使用字母、数字和下划线，一律小写。如表名过长可以采用缩写等方式。
【强制】创建表时必须显式指定字符集为utf8或utf8mb4。
【强制】创建表时必须显式指定表存储引擎类型，如无特殊需求，一律为InnoDB。
【强制】建表必须有comment，表级别和字段级别都要有comment。
【强制】中间表用于保留中间结果集，名称必须以tmp_开头。备份表用于备份或抓取源表快照，名称必须以bak_开头。中间表和备份表定期清理。
【强制】禁止在数据库中存储图片，文件等大的二进制数据
【强制】建表时关于主键：
a. 强制要求主键为id，类型为int或bigint（为了以后延展性，这里要求新建表统一为bigint），且为auto_increment
b. 标识表里每一行主体的字段不要设为主键，建议设为其他字段如user_id，order_id等，并建立unique key索引。因为如果设为主键且主键值为随机插入，则会导致innodb内部page分裂和大量随机I/O，性能下降。
【强制】小数类型为 decimal，禁止使用 float 和 double
【建议】核心表（如用户表，金钱相关的表）必须有行数据的创建时间字段create_time和最后更新时间字段update_time，便于查问题。
【建议】表中所有字段必须都是NOT NULL default 默认值属性，业务可以根据需要定义DEFAULT值。因为使用NULL值会存在每一行都会占用额外存储空间、数据迁移容易出错、聚合函数计算结果偏差以及索引失效等问题。
【建议】建议对表里的blob、text等大字段，垂直拆分到其他表里，仅在需要读这些对象的时候才去select。
【建议】反范式设计：把经常需要join查询的字段，在其他表里冗余一份。如user_name属性在user_account，user_login_log等表里冗余一份，减少join查询。
【建议】尽量做到冷热数据分离，减小表的宽度
说明：MySQL限制每个表最多存储4096列，并且每一行数据的大小不能超过65535字节减少磁盘IO，保证热数据的内存缓存命中率（表越宽，把表装载进内存缓冲池时所占用的内存也就越大,也会消耗更多的IO）更有效的利用缓存，避免读入无用的冷数据经常一起使用的列放到一个表中（避免更多的关联操作）。
【建议】不推荐在表中建立预留字段
说明：预留字段的命名很难做到见名识义，预留字段无法确认存储的数据类型，所以无法选择合适的类型对预留字段类型的修改。
【建议】表中的自增列（auto_increment属性），推荐使用bigint类型。因为无符号int存储范围为-2147483648~2147483647（大约21亿左右），溢出后会导致报错。
【建议】业务中选择性很少的状态如status、类型type等字段推荐使用tinytint或者smallint类型节省存储空间。
【建议】业务中IP地址字段推荐使用int类型，不推荐用char(15)。因为int只占4字节，而char(15)占用至少15字节。一旦表数据行数到了1亿，那么要多用1.1G存储空间。
可以用如下函数相互转换：
select inet_aton('192.168.2.12');
select inet_ntoa(3232236044);
【建议】不推荐使用enum、set。因为它们浪费空间，且枚举值写死了，变更不方便。推荐使用tinyint或smallint。
【建议】不推荐使用blob，text等类型。它们都比较浪费硬盘和内存空间。在加载表数据时，会读取大字段到内存里从而浪费内存空间，影响系统性能。建议和PM、RD沟通，是否真的需要这么大字段。
【建议】存储金钱的字段，建议用int，程序端乘以100和除以100进行存取。或者用decimal类型，而不要用double。
【建议】文本数据尽量用varchar存储。因为varchar是变长存储，比char更省空间。MySQL server层规定一行所有文本最多存65535字节。
【建议】时间类型尽量选取datetime。而timestamp虽然占用空间少，但是有时间范围为1970-01-01 00:00:01到2038-01-01 00:00:00的问题。
【建议】表必备三字段：id, gmt_create, gmt_modified。
说明：其中 id 必为主键，类型为 bigint unsigned、单表时自增、步长为 1。gmt_create, gmt_modified的类型均为 datetime 类型，前者现在时表示主动式创建，后者过去分词表示被动式更新。

3.索引设计及使用规范

【强制】InnoDB和MyISAM存储引擎表，索引类型必须为BTREE
【强制】单个索引中每个索引记录的长度不能超过64KB。
【强制】where条件里等号左右字段类型必须一致，否则无法利用索引。
【建议】唯一键以“uk_”或“uq_”开头，普通索引以“idx_”开头，一律使用小写格式，以字段的名称或缩写作为后缀。
【建议】单个表上的索引个数不能超过5个。
【建议】在建立索引时，多考虑建立联合索引，并把区分度最高的字段放在最前面。如列userid的区分度可由select count(distinct userid)计算出来。
【建议】在多表join的SQL里，保证被驱动表的连接列上有索引，这样join执行效率最高。
【建议】建表或加索引时，保证表里互相不存在冗余索引。如果表里已经存在key(a,b)，则key(a)为冗余索引，需要删除。
【建议】为常作为查询条件的字段建立索引，如果某个字段经常用来做查询条件，那么该字段的查询速度会影响整个表的查询速度。因此，为这样的字段建立索引，可以提高整个表的查询速度。
【建议】为经常需要排序、分组操作的字段建立索引，经常需要ORDER BY、GROUP BY、DISTINCT等操作的字段，排序操作会浪费很多时间。如果为其建立索引，可以有效地避免排序操作。
【建议】区分度低的字段，如枚举值，不要建立索引，比如用户状态status，只有正常，冻结，删除三个值，这样的索引无效
【建议】like查询只能使用前缀索引，name like 'abc%'能够用上索引，name like '%abc'或者name like '%abc%'不能使用索引
【建议】索引列不能参与计算，比如 fromunixtime(createtime) = '2019-12-02'，这样会使索引失效，改成createtime = unixtimestamp('2014-05-29')即可

4. SQL编写

4.1 DML、DQL语句

【强制】不要使用 count(列名)或 count(常量)来替代 count(*)，count(*)是 SQL92 定义的标准统计行数的语法，跟数据库无关，跟 NULL 和非 NULL 无关。
说明：count(*)会统计值为 NULL 的行，而 count(列名)不会统计此列为 NULL 值的行。
【强制】count(distinct col) 计算该列除 NULL 之外的不重复行数，注意 count(distinct col1,col2) 如果其中一列全为 NULL，那么即使另一列有不同的值，也返回为 0。
【强制】当某一列的值全是 NULL 时，count(col)的返回结果为 0，但 sum(col)的返回结果为
NULL，因此使用 sum()时需注意 NPE 问题。
正例：可以使用如下方式来避免 sum 的 NPE 问题：SELECT IFNULL(SUM(column), 0) FROM table;
【强制】insert语句指定具体字段名称，不要写成insert into t1 values(…)，道理同上。
【强制】事务涉及的表必须全部是innodb表。否则一旦失败不会全部回滚，且易造成主从库同步中断。
【强制】写入和事务发往主库，只读SQL发往从库，即程不建议使用子查询序端实现读写分离。
【强制】生产环境禁止使用hint，如sql_no_cache，force index，ignore key，straight join等。因为hint是用来强制SQL按照某个执行计划来执行，但随着数据量变化我们无法保证自己当初的预判是正确的，我们要尽量让MySQL优化器自己选择执行计划
【强制】生产数据库中强烈不推荐大表上发生全表扫描，但对于100行以下的静态表可以全表扫描。查询数据量不要超过表行数的25%，否则不会利用索引。
【强制】使用 ISNULL()来判断是否为 NULL 值。
说明：NULL 与任何值的直接比较都为 NULL。
1） NULL<>NULL 的返回结果是 NULL，而不是 false。
2） NULL=NULL 的返回结果是 NULL，而不是 true。
3） NULL<>1 的返回结果是 NULL，而不是 true。
反例：在 SQL 语句中，如果在 null 前换行，影响可读性。select * from table where column1 is null and column3 is not null; 而`ISNULL(column)`是一个整体，简洁易懂。从性能数据上分析，`ISNULL(column)`执行效率更快一些。
【强制】代码中写分页查询逻辑时，若 count 为 0 应直接返回，避免执行后面的分页语句。
【强制】禁止使用存储过程，存储过程难以调试和扩展，更没有移植性。
【强制】对于数据库中表记录的查询和变更，只要涉及多个表，都需要在列名前加表的别名（或表名）进行限定。
说明：对多表进行查询记录、更新记录、删除记录时，如果对操作列没有限定表的别名（或表名），并且操作列在多个表中存在时，就会抛异常。
正例：select t1.name from table_first as t1 , table_second as t2 where t1.id=t2.id;
反例：在某业务中，由于多表关联查询语句没有加表的别名（或表名）的限制，正常运行两年后，最近在某个表中增加一个同名字段，在预发布环境做数据库变更后，线上查询语句出现出 1052 异常：Column 'name' in field list is ambiguous。
【建议】insert into…values(XX),(XX),(XX)…。这里XX的值不要超过500个。值过多虽然上线很很快，但会引起主从同步延迟。
【建议】SELECT语句不要使用UNION，推荐使用UNION ALL，并且UNION子句个数限制在3个以内。因为union all不需要去重，节省数据库资源，提高性能。
【建议】IN 值列表限制在500以内。例如select… where userid in(….500个以内…)，这么做是为了减少底层扫描，减轻数据库压力从而加速查询。
【建议】事务里批量更新数据需要控制数量，进行必要的sleep，做到少量多次。
【建议】减少使用or语句，可将or语句优化为union，然后在各个where条件上建立索引。如where a=1 or b=2优化为where a=1… union …where b=2, key(a),key(b)
【建议】分页查询，当limit起点较高时，可先用过滤条件进行过滤。如select a,b,c from t1 limit 10000,20;优化为: select a,b,c from t1 where id>10000 limit 20;。
【建议】SQL 语句中表的别名前加 as，并且以 t1、t2、t3、...的顺序依次命名。
说明：1）别名可以是表的简称，或者是依照表在 SQL 语句中出现的顺序，以 t1、t2、t3 的方式命名。2）别名前加 as 使别名更容易识别。
正例：select t1.name from table_first as t1, table_second as t2 where t1.id=t2.id;

4.2 多表连接

【强制】禁止跨db的join语句。因为这样可以减少模块间耦合，为数据库拆分奠定坚实基础。
【强制】禁止在业务的更新类SQL语句中使用join，比如update t1 join t2…。
【建议】不建议使用子查询，建议将子查询SQL拆开结合程序多次查询，或使用join来代替子查询。
【建议】线上环境，多表join不要超过3个表。
【建议】多表连接查询推荐使用别名，且SELECT列表中要用别名引用字段，数据库.表格式，如select a from db1.table1 alias1 where …。

4.3 事务

【强制】程序设计必须考虑“数据库事务隔离级别”带来的影响，包括脏读、不可重复读和幻读。线上建议事务隔离级别为repeatable-read。
【建议】事务中INSERT|UPDATE|DELETE|REPLACE语句操作的行数控制在1000以内，以及WHERE子句中IN列表的传参个数控制在500以内。
【建议】对于有auto_increment属性字段的表的插入操作，并发需要控制在200以内。
【建议】事务里包含SQL不超过5个（支付业务除外）。因为过长的事务会导致锁数据较久，MySQL内部缓存、连接消耗过多等雪崩问题。
【建议】事务里更新语句尽量基于主键或unique key，如update … where id=XX; 否则会产生间隙锁，内部扩大锁定范围，导致系统性能下降，产生死锁。
【建议】尽量把一些典型外部调用移出事务，如调用webservice，访问文件存储等，从而避免事务过长。
【建议】对于MySQL主从延迟严格敏感的select语句，请开启事务强制访问主库。

4.4 线上禁止使用的SQL语句

【高危】禁用update|delete t1 … where a=XX limit XX; 这种带limit的更新语句。如果是非row格式的binlog格式，会导致主从不一致，导致数据错乱。建议加上order by PK。
【高危】禁止使用关联子查询，如update t1 set … where name in(select name from user where…);效率极其低下。
【强制】禁用procedure、function、trigger、views、event、外键约束。因为他们消耗数据库资源，降低数据库实例可扩展性。推荐都在程序端实现。
【建议】禁用insert into …on duplicate key update…、replace into等语句，在高并发环境下，极容易导致死锁。

4.5 线上数据操作

【强制】数据订正（特别是删除或修改记录操作）时，要先 select，避免出现误删除，确认无误才能执行更新语句。

4.6 ORM 映射

【强制】在表查询中，一律不要使用 * 作为查询的字段列表，需要哪些字段必须明确写明。
说明：1）增加查询分析器解析成本。2）增减字段容易与 resultMap 配置不一致。3）无用字段增加网络
消耗，尤其是 text 类型的字段。
【强制】POJO 类的布尔属性不能加 is，而数据库字段必须加 is_，要求在 resultMap 中进行字段与属性之间的映射。
说明：参见定义 POJO 类以及数据库字段定义规定，在 sql.xml 增加映射，是必须的。
【强制】sql.xml 配置参数使用：#{}，#param# 不要使用${} 此种方式容易出现 SQL 注入。
【强制】不允许直接拿 HashMap 与 Hashtable 作为查询结果集的输出。
反例：某同学为避免写一个<resultMap>xxx</resultMap>，直接使用 HashTable 来接收数据库返回结果，结果出现日常是把 bigint 转成 Long 值，而线上由于数据库版本不一样，解析成 BigInteger，导致线上问题。
【建议】不要写一个大而全的数据更新接口。传入为 POJO 类，不管是不是自己的目标更新字段，都进行 update table set c1=value1,c2=value2,c3=value3; 这是不对的。执行 SQL 时，不要更新无改动的字段，一是易出错；二是效率低；三是增加 binlog 存储。
【参考】@Transactional 事务不要滥用。事务会影响数据库的 QPS，另外使用事务的地方需要考虑各方面的回滚方案，包括缓存回滚、搜索引擎回滚、消息补偿、统计修正等。
【参考】<isEqual>中的 compareValue 是与属性值对比的常量，一般是数字，表示相等时带上此条件；<isNotEmpty>表示不为空且不为 null 时执行；<isNotNull>表示不为 null 值时执行。

显示全文

全部栏目

【MySQL】Mysql设计与开发规范-修订版