您的当前位置:首页正文

【MySQL】Mysql设计与开发规范-修订版

2024-11-08 来源:个人技术集锦

由于项目组最近需要进行sql速度优化,所以先制定了一版sql的规范,但是由于网络上分布的规范十分散乱,所以进行了部分的整理,这里包括了网络上找到的,还有公司dba制定的,还有阿里java编码规范中的一些规范,下面是这次整理的规范详情

数据库设计规范

1.命名规范

2. 表结构设计规范

  1. 【强制】表禁止使用外键,如果要保证完整下,应由程序端实现,外键使表之间相互耦合,影响update、delete等性能,有可能造成死锁,高并发环境下容易导致数据库性能瓶颈。
  2. 【强制】表和列的名称必须控制在32个字符以内,表名只能使用字母、数字和下划线,一律小写。如表名过长可以采用缩写等方式。
  3. 【强制】创建表时必须显式指定字符集为utf8或utf8mb4。
  4. 【强制】创建表时必须显式指定表存储引擎类型,如无特殊需求,一律为InnoDB。
  5. 【强制】建表必须有comment,表级别和字段级别都要有comment。
  6. 【强制】中间表用于保留中间结果集,名称必须以tmp_开头。备份表用于备份或抓取源表快照,名称必须以bak_开头。中间表和备份表定期清理。
  7. 【强制】禁止在数据库中存储图片,文件等大的二进制数据
  8. 【强制】建表时关于主键:
    a. 强制要求主键为id,类型为int或bigint(为了以后延展性,这里要求新建表统一为bigint),且为auto_increment
    b. 标识表里每一行主体的字段不要设为主键,建议设为其他字段如user_id,order_id等,并建立unique key索引。因为如果设为主键且主键值为随机插入,则会导致innodb内部page分裂和大量随机I/O,性能下降。
  9. 【强制】小数类型为 decimal,禁止使用 float 和 double
  10. 【建议】核心表(如用户表,金钱相关的表)必须有行数据的创建时间字段create_time和最后更新时间字段update_time,便于查问题。
  11. 【建议】表中所有字段必须都是NOT NULL default 默认值 属性,业务可以根据需要定义DEFAULT值。因为使用NULL值会存在每一行都会占用额外存储空间、数据迁移容易出错、聚合函数计算结果偏差以及索引失效等问题。
  12. 【建议】建议对表里的blob、text等大字段,垂直拆分到其他表里,仅在需要读这些对象的时候才去select。
  13. 【建议】反范式设计:把经常需要join查询的字段,在其他表里冗余一份。如user_name属性在user_account,user_login_log等表里冗余一份,减少join查询。
  14. 【建议】尽量做到冷热数据分离,减小表的宽度
    说明:MySQL限制每个表最多存储4096列,并且每一行数据的大小不能超过65535字节 减少磁盘IO,保证热数据的内存缓存命中率(表越宽,把表装载进内存缓冲池时所占用的内存也就越大,也会消耗更多的IO) 更有效的利用缓存,避免读入无用的冷数据 经常一起使用的列放到一个表中(避免更多的关联操作)。
  15. 【建议】不推荐在表中建立预留字段
    说明:预留字段的命名很难做到见名识义,预留字段无法确认存储的数据类型,所以无法选择合适的类型对预留字段类型的修改。
  16. 【建议】表中的自增列(auto_increment属性),推荐使用bigint类型。因为无符号int存储范围为-2147483648~2147483647(大约21亿左右),溢出后会导致报错。
  17. 【建议】业务中选择性很少的状态如status、类型type等字段推荐使用tinytint或者smallint类型节省存储空间。
  18. 【建议】业务中IP地址字段推荐使用int类型,不推荐用char(15)。因为int只占4字节,而char(15)占用至少15字节。一旦表数据行数到了1亿,那么要多用1.1G存储空间。 
    可以用如下函数相互转换:
    select inet_aton('192.168.2.12');
    select inet_ntoa(3232236044); 
  19. 【建议】不推荐使用enum、set。 因为它们浪费空间,且枚举值写死了,变更不方便。推荐使用tinyint或smallint。
  20. 【建议】不推荐使用blob,text等类型。它们都比较浪费硬盘和内存空间。在加载表数据时,会读取大字段到内存里从而浪费内存空间,影响系统性能。建议和PM、RD沟通,是否真的需要这么大字段。
  21. 【建议】存储金钱的字段,建议用int,程序端乘以100和除以100进行存取。或者用decimal类型,而不要用double。
  22. 【建议】文本数据尽量用varchar存储。因为varchar是变长存储,比char更省空间。MySQL server层规定一行所有文本最多存65535字节。
  23. 【建议】时间类型尽量选取datetime。而timestamp虽然占用空间少,但是有时间范围为1970-01-01 00:00:01到2038-01-01 00:00:00的问题。
  24. 【建议】表必备三字段:id, gmt_create, gmt_modified。
    说明:其中 id 必为主键,类型为 bigint unsigned、单表时自增、步长为 1。gmt_create, gmt_modified的类型均为 datetime 类型,前者现在时表示主动式创建,后者过去分词表示被动式更新。

3.索引设计及使用规范

  1. 【强制】InnoDB和MyISAM存储引擎表,索引类型必须为BTREE
  2. 【强制】单个索引中每个索引记录的长度不能超过64KB。
  3. 【强制】where条件里等号左右字段类型必须一致,否则无法利用索引。
  4. 【建议】唯一键以“uk_”或“uq_”开头,普通索引以“idx_”开头,一律使用小写格式,以字段的名称或缩写作为后缀。
  5. 【建议】单个表上的索引个数不能超过5个。
  6. 【建议】在建立索引时,多考虑建立联合索引,并把区分度最高的字段放在最前面。如列userid的区分度可由select count(distinct userid)计算出来。
  7. 【建议】在多表join的SQL里,保证被驱动表的连接列上有索引,这样join执行效率最高。
  8. 【建议】建表或加索引时,保证表里互相不存在冗余索引。如果表里已经存在key(a,b),则key(a)为冗余索引,需要删除。
  9. 【建议】为常作为查询条件的字段建立索引,如果某个字段经常用来做查询条件,那么该字段的查询速度会影响整个表的查询速度。因此,为这样的字段建立索引,可以提高整个表的查询速度。
  10. 【建议】为经常需要排序、分组操作的字段建立索引,经常需要ORDER BY、GROUP BY、DISTINCT等操作的字段,排序操作会浪费很多时间。如果为其建立索引,可以有效地避免排序操作。
  11. 【建议】区分度低的字段,如枚举值,不要建立索引,比如用户状态status,只有正常,冻结,删除三个值,这样的索引无效
  12. 【建议】like查询只能使用前缀索引,name like 'abc%'能够用上索引,name like '%abc'或者name like '%abc%'不能使用索引
  13. 【建议】索引列不能参与计算,比如 fromunixtime(createtime) = '2019-12-02',这样会使索引失效,改成createtime = unixtimestamp('2014-05-29')即可

 

4. SQL编写

4.1 DML、DQL语句

  1. 【强制】不要使用 count(列名)或 count(常量)来替代 count(*),count(*)是 SQL92 定义的标准统计行数的语法,跟数据库无关,跟 NULL 和非 NULL 无关。
    说明:count(*)会统计值为 NULL 的行,而 count(列名)不会统计此列为 NULL 值的行。

  2. 【强制】count(distinct col) 计算该列除 NULL 之外的不重复行数,注意 count(distinct col1,col2) 如果其中一列全为 NULL,那么即使另一列有不同的值,也返回为 0。
  3. 【强制】当某一列的值全是 NULL 时,count(col)的返回结果为 0,但 sum(col)的返回结果为

    NULL,因此使用 sum()时需注意 NPE 问题。
    正例:可以使用如下方式来避免 sum 的 NPE 问题:SELECT IFNULL(SUM(column), 0) FROM table;

  4. 【强制】insert语句指定具体字段名称,不要写成insert into t1 values(…),道理同上。
  5. 【强制】事务涉及的表必须全部是innodb表。否则一旦失败不会全部回滚,且易造成主从库同步中断。
  6. 【强制】写入和事务发往主库,只读SQL发往从库,即程不建议使用子查询序端实现读写分离。
  7. 【强制】生产环境禁止使用hint,如sql_no_cache,force index,ignore key,straight join等。因为hint是用来强制SQL按照某个执行计划来执行,但随着数据量变化我们无法保证自己当初的预判是正确的,我们要尽量让MySQL优化器自己选择执行计划
  8. 【强制】生产数据库中强烈不推荐大表上发生全表扫描,但对于100行以下的静态表可以全表扫描。查询数据量不要超过表行数的25%,否则不会利用索引。
  9. 【强制】使用 ISNULL()来判断是否为 NULL 值。
    说明:NULL 与任何值的直接比较都为 NULL。
    1) NULL<>NULL 的返回结果是 NULL,而不是 false。
    2) NULL=NULL 的返回结果是 NULL,而不是 true。
    3) NULL<>1 的返回结果是 NULL,而不是 true。
    反例:在 SQL 语句中,如果在 null 前换行,影响可读性。select * from table where column1 is null and column3 is not null; 而`ISNULL(column)`是一个整体,简洁易懂。从性能数据上分析,`ISNULL(column)`执行效率更快一些。

  10. 【强制】代码中写分页查询逻辑时,若 count 为 0 应直接返回,避免执行后面的分页语句。
  11. 【强制】禁止使用存储过程,存储过程难以调试和扩展,更没有移植性。
  12. 【强制】对于数据库中表记录的查询和变更,只要涉及多个表,都需要在列名前加表的别名(或表名)进行限定。
    说明:对多表进行查询记录、更新记录、删除记录时,如果对操作列没有限定表的别名(或表名),并且操作列在多个表中存在时,就会抛异常。
    正例:select t1.name from table_first as t1 , table_second as t2 where t1.id=t2.id;
    反例:在某业务中,由于多表关联查询语句没有加表的别名(或表名)的限制,正常运行两年后,最近在某个表中增加一个同名字段,在预发布环境做数据库变更后,线上查询语句出现出 1052 异常:Column 'name' in field list is ambiguous。

  13. 【建议】insert into…values(XX),(XX),(XX)…。这里XX的值不要超过500个。值过多虽然上线很很快,但会引起主从同步延迟。
  14. 【建议】SELECT语句不要使用UNION,推荐使用UNION ALL,并且UNION子句个数限制在3个以内。因为union all不需要去重,节省数据库资源,提高性能。
  15. 【建议】IN 值列表限制在500以内。例如select… where userid in(….500个以内…),这么做是为了减少底层扫描,减轻数据库压力从而加速查询。
  16. 【建议】事务里批量更新数据需要控制数量,进行必要的sleep,做到少量多次。
  17. 【建议】减少使用or语句,可将or语句优化为union,然后在各个where条件上建立索引。如where a=1 or b=2优化为where a=1… union …where b=2, key(a),key(b)
  18. 【建议】分页查询,当limit起点较高时,可先用过滤条件进行过滤。如select a,b,c from t1 limit 10000,20;优化为: select a,b,c from t1 where id>10000 limit 20;。
  19. 【建议】SQL 语句中表的别名前加 as,并且以 t1、t2、t3、...的顺序依次命名。
    说明:1)别名可以是表的简称,或者是依照表在 SQL 语句中出现的顺序,以 t1、t2、t3 的方式命名。2)别名前加 as 使别名更容易识别。
    正例:select t1.name from table_first as t1, table_second as t2 where t1.id=t2.id;

4.2 多表连接

  1. 【强制】禁止跨db的join语句。因为这样可以减少模块间耦合,为数据库拆分奠定坚实基础。
  2. 【强制】禁止在业务的更新类SQL语句中使用join,比如update t1 join t2…。
  3. 【建议】不建议使用子查询,建议将子查询SQL拆开结合程序多次查询,或使用join来代替子查询。
  4. 【建议】线上环境,多表join不要超过3个表。
  5. 【建议】多表连接查询推荐使用别名,且SELECT列表中要用别名引用字段,数据库.表格式,如select a from db1.table1 alias1 where …。

4.3 事务

  1. 【强制】程序设计必须考虑“数据库事务隔离级别”带来的影响,包括脏读、不可重复读和幻读。线上建议事务隔离级别为repeatable-read。
  2. 【建议】事务中INSERT|UPDATE|DELETE|REPLACE语句操作的行数控制在1000以内,以及WHERE子句中IN列表的传参个数控制在500以内。
  3. 【建议】对于有auto_increment属性字段的表的插入操作,并发需要控制在200以内。
  4. 【建议】事务里包含SQL不超过5个(支付业务除外)。因为过长的事务会导致锁数据较久,MySQL内部缓存、连接消耗过多等雪崩问题。
  5. 【建议】事务里更新语句尽量基于主键或unique key,如update … where id=XX; 否则会产生间隙锁,内部扩大锁定范围,导致系统性能下降,产生死锁。
  6. 【建议】尽量把一些典型外部调用移出事务,如调用webservice,访问文件存储等,从而避免事务过长。
  7. 【建议】对于MySQL主从延迟严格敏感的select语句,请开启事务强制访问主库。

4.4 线上禁止使用的SQL语句

  1. 【高危】禁用update|delete t1 … where a=XX limit XX; 这种带limit的更新语句。如果是非row格式的binlog格式,会导致主从不一致,导致数据错乱。建议加上order by PK。
  2. 【高危】禁止使用关联子查询,如update t1 set … where name in(select name from user where…);效率极其低下。
  3. 【强制】禁用procedure、function、trigger、views、event、外键约束。因为他们消耗数据库资源,降低数据库实例可扩展性。推荐都在程序端实现。
  4. 【建议】禁用insert into …on duplicate key update…、replace into等语句,在高并发环境下,极容易导致死锁。

4.5 线上数据操作

  1. 【强制】数据订正(特别是删除或修改记录操作)时,要先 select,避免出现误删除,确认无误才能执行更新语句。

4.6 ORM 映射

  1. 【强制】在表查询中,一律不要使用 * 作为查询的字段列表,需要哪些字段必须明确写明。
    说明:1)增加查询分析器解析成本。2)增减字段容易与 resultMap 配置不一致。3)无用字段增加网络
    消耗,尤其是 text 类型的字段。

  2. 【强制】POJO 类的布尔属性不能加 is,而数据库字段必须加 is_,要求在 resultMap 中进行字段与属性之间的映射。
    说明:参见定义 POJO 类以及数据库字段定义规定,在 sql.xml 增加映射,是必须的。

  3. 【强制】sql.xml 配置参数使用:#{},#param# 不要使用${} 此种方式容易出现 SQL 注入。 

  4. 【强制】不允许直接拿 HashMap 与 Hashtable 作为查询结果集的输出。
    反例:某同学为避免写一个<resultMap>xxx</resultMap>,直接使用 HashTable 来接收数据库返回结果,结果出现日常是把 bigint 转成 Long 值,而线上由于数据库版本不一样,解析成 BigInteger,导致线上问题。

  5. 【建议】不要写一个大而全的数据更新接口。传入为 POJO 类,不管是不是自己的目标更新字段,都进行 update table set c1=value1,c2=value2,c3=value3; 这是不对的。执行 SQL 时,不要更新无改动的字段,一是易出错;二是效率低;三是增加 binlog 存储。

  6. 【参考】@Transactional 事务不要滥用。事务会影响数据库的 QPS,另外使用事务的地方需要考虑各方面的回滚方案,包括缓存回滚、搜索引擎回滚、消息补偿、统计修正等。

  7. 【参考】<isEqual>中的 compareValue 是与属性值对比的常量,一般是数字,表示相等时带上此条件;<isNotEmpty>表示不为空且不为 null 时执行;<isNotNull>表示不为 null 值时执行。
显示全文