游戏数据库版本更新神器Flyway
摘要:传统数据库更新现状:维护一个 version.txt(记录更新目录 /sql 文件更新顺序) 文件,sre 编写数据库更新脚本,每次都要设定一个比较复杂的更新流程:和程序约定好 sql 文件命名规范 -> 程序上传 sql 文件 -> 特定服务器下载文件到指定目录 -> 数据库备份 -> 更新脚本执行数据库更新 -> 有问题排查或用备份恢复,而且还有各种意料之外的事情发生,在有限的维护时间内处理其实是有相当大难度。# 在参数中指定 sql 文件的位置,直接执行 migrate 指令 flyway -baselineOnMigrate=true -baselineVersion=0 -user="${user}" -password="${password}" -url="jdbc:mysql://${host}" -schemas=${database} -locations=filesystem:/home/xxx/server/database/htdocs_local/db/alter/stg/ migrate。
Ychun
网易游戏高级运维工程师,负责多个游戏产品的运维工作;关注自动化、容器、业务全链路监控等领域
背景介绍
本文开始之前,总结一下传统数据库更新比较经典的对话,如下:
Q:小杨同学,DB更新脚本执行失败,麻烦看看 A:查看日志后,sql文件没有use db语句 Q:小杨同学,DB更新脚本已经执行完毕,怎么数据没有更新呢? A:没修改version.txt文件,qa更新还是按照旧的sql文件进行更新 Q:小杨同学,QA刚把sql文件执行顺序弄错了,可能需要恢复数据重新更新 A:需要从备份恢复数据 Q:小杨同学,QA刚重复更新了一个sql文件,不知道有没有问题 A:需要花一些时间去review sql脚本,定位重复更新是否有问题 Q:小杨同学,麻烦更新下苹果/安卓审核服的DB,几个月没更新需要补好几个版本 A:得查下外服最近的更新记录,慢慢补上……
数据库更新,一直是运维人员重点关注的工作之一,因此数据库更新的目标要达到:避免重复更新,漏更新,更新顺序错乱;能够记录更新历史,确保更新有迹可查;sql 符合一定的规范,以便于自动执行和处理。
传统数据库更新现状:维护一个 version.txt(记录更新目录 /sql 文件更新顺序) 文件,sre 编写数据库更新脚本,每次都要设定一个比较复杂的更新流程:和程序约定好 sql 文件命名规范 -> 程序上传 sql 文件 -> 特定服务器下载文件到指定目录 -> 数据库备份 -> 更新脚本执行数据库更新 -> 有问题排查或用备份恢复,而且还有各种意料之外的事情发生,在有限的维护时间内处理其实是有相当大难度。
传统数据库更新痛点:
1)程序忘记修改 version.txt 文件;
2)程序 sql 文件忘记添加 use db 语句;
3)程序误删相关目录或者文件;
4)qa 没有按照顺序更新或者重复更新;
5)sre 需要花很多时间分析 sql 内容定位问题并恢复数据;
开源数据库管理工具 Flyway 可以轻松完成数据库版本更新功能,解决传统数据库更新的痛点,而且能够做到:
1)不会重复更新;
2)更新顺序不会发生错乱;
3)能够记录更新历史;
4)数据库更新版本能够和程序版本一一对应;
Flyway 工作原理
Flyway 的每个更新叫做一个 migration,在执行 migration 的时候会指定更新哪个数据库,然后去对应的目录寻找 sql 文件来进行更新。Flyway 会自动在数据库中新建一个名为 "flyway_schema_history" 的表(备注:Flyway V5.0 之前的版本,表名叫做 schema_version),该表会记录当前已更新的 sql 信息,下次会接着按照 sql 版本的顺序往下更新,如下所示:
flyway_schema_history:
上图 table 中的部分重点列的数据的含义:
-
version:不同的版本号
-
description:本次版本更新的描述,按照 sql 文件命名规范,从 sql 文件名中提取的内容
-
script:执行的脚本名
-
installed_by:执行脚本的数据库用户名
-
installed_on:开始执行 sql 的时间
-
execution_time:脚本执行时间 (毫秒 )
-
success:执行结果,1 表示执行成功
flyway 根据 flyway_schema_history 表中的信息记录,在每次执行 migtation 的时候,只执行之前没有执行过的 sql,并且按照 Vsersion 的顺序执行;要使 flyway 能够获取到上图 table 中的相关信息,sql 目录结构和 sql 文件命名必须满足其规范 ;
1)目录结构
-/flyway/sql/ |-- database_01/ # 以数据库名命名的目录 | |-- V1__initial.sql # 按照 sql 命名规则命名的 sql 文件,下同 | |-- V2__first_changes.sql | |-- V3__add_tables.sql | |-- V4__init_data.sql |-- database_02/ # 以数据库名命名的目录 | |-- V1__initial.sql # 按照 sql 命名规则命名的 sql 文件,下同 | |-- V2__modify_columns.sql | |-- V3__add_user_tables.sql | |-- V4__init_data_for_user.sql ... # 可以有多个数据库,按照上面的范例定义即可
2)sql 文件命名规范
sql 文件名必须严格按照本规则命名,否则将会无法更新!
格式: V[Version]__[Description].sql # 以大写的 V 开头,小写的 .sql 结尾; # Version:数字和小数点组成的版本号,由用户自行定义,不能有字母!!!按大小顺序递增。例如:1/2/3/3.1/3.2/3.2.1/3.2.2 等 # Description:对本 sql 文件的描述信息。 # Version 和 Description 之间用两个下划线 "__" 隔开。 # 样例: V1__initial.sql V2.1__first_changes.sql V3.1.1__add_tables.sql
Flyway 支持的关系型数据库
项目实战
本文主要介绍的是 mysql 数据库使用 flyway 的实战经验;
程序操作指引
操作指引
1)将DB的sql文件与服务端版本文件一起提交,并严格遵守上述的目录结构和sql文件名规范要求; 2)sql文件内容中不需要用use语句指定数据库; 3)sql文件内容采用增量修改的方式提交,尽量不要有drop table再create table的语句,避免误删数据(除了非常确定该表中的数据无用!); 4)如果提交到svn中的sql文件已经被更新到了任一个游戏服,此sql文件不可再修改或删除; 5)sql文件内容,事务数量越小越好,避免sql执行部分失败后,需要回滚相关操作;
注意事项
#重要的事情说三遍 一般情况下: 只增量添加sql文件,不要删除和修改! 只增量添加sql文件,不要删除和修改!! 只增量添加sql文件,不要删除和修改!!! 只有一种例外情况可以删除或修改一个已经提交到svn的sql文件:该sql文件提交到svn之后尚未更新到任何游戏服,因为按照Flyway的更新逻辑,DB更新是以sql文件为粒度的,在DB更新之前的sql内容修改是没有关系的;但是如果一个sql文件已经更新到某个服务器,再去修改它,那么再次修改的内容将不会在该服务器上被执行。
SRE 操作指引
Flyway 安装部署
官方文档:https://flywaydb.org/documentation/commandline/#download-and-installation
version=5.2.4 # 可以在 Flyway 官网查看最新的版本号,此处以当前(2019.06.06)的最新版本为例。 cd /home/xxxx wget -qO- https://repo1.maven.org/maven2/org/flywaydb/flyway-commandline/${version}/flyway-commandline-${version}-linux-x64.tar.gz | tar xvz sudo ln -s `pwd`/flyway-${version}/flyway /usr/local/bin
Flyway 的默认配置文件:
vim flyway-${version}/conf/flyway.conf flyway.url=jdbc:mysql://host:port/dbname?useSSL=false flyway.user=xxxxx flyway.password=xxxxxxxxx
Flyway 执行可以使用以下两种方式:
1)直接在 flyway 命令行中直接加上参数,无需配置文件;
2)在配置文件中指定好默认的配置,无需参数;
Flyway 更新 DB 指令
方法一:指定 schemas 来更新。Flyway 从默认目录 ( flyway-version/sql/{database}) 来读取 sql 文件
# 同步 sql 版本文件到 Flyway 默认 sql 目录 rsync -azL --delete ${updating_dir}/ /home/${project_user}/flyway/sql/${database}/ # 执行 migrate 指令 flyway -baselineOnMigrate=true -baselineVersion=0 -schemas="${database}" -user="${user}" -password="${password}" -url="jdbc:mysql://${host}" migrate
方法二:直接指定 sql 目录来更新。直接指定 locations 参数【推荐】
# 在参数中指定 sql 文件的位置,直接执行 migrate 指令 flyway -baselineOnMigrate=true -baselineVersion=0 -user="${user}" -password="${password}" -url="jdbc:mysql://${host}" -schemas=${database} -locations=filesystem:/home/xxx/server/database/htdocs_local/db/alter/stg/ migrate
备注:两者并无本质差异,推荐使用方法二直接参数中指定 locations 的方式,少了一步 rsync,减少出错概率。
参数说明:
1、-baselineOnMigrate=true :表示如果当前DB未使用Flyway的话,以当前DB版本为基线版本 2、-baselineVersion=0:指定基线的版本,第一次使用 flyway 的时候指定为0,之后可以指定为当前版本,当前版本参考 flyway_schema_history 中的记录。 3、-schemas:数据库名 4、-locations:sql文件目录 5、migrate:对DB进行migrate更新 6、-user -password -url:用户名、密码和数据库访问地址信息
更新流程
1、程序按照Flyway规范提交新版本的sql文件; 2、提交阿拉丁流程来更新DB; 3、DB Client机器上备份数据库; 4、DB Client机器上下载新版本的sql文件; 5、执行Flyway进行DB更新; 6、如有报错,则进行排查并修复后重新更新;
问题排查
sql 文件的 checksum 不一致
原因:sql 文件被更新之后,文件内容进行了变更,再次执行更新会有这个报错 ;
解决方法:执行 flyway repair;
flyway -baselineOnMigrate=true -baselineVersion=0 -user="${user}" -password="${password}" -url="jdbc:mysql://${host}" -schemas=${database} repair
sql 文件描述不一致
原因:sql 文件被更新之后,文件名有变更 ;
解决方法:修改 flyway_schema_history 表中该 sql 文件对应的 description 字段 ;
Migration V6.7__xxx_xxx.sql failed
原因:sql 文件内容执行失败 ;
解决方法:根据 Flyway 输出的 Error Message 进行对应处理即可 ;
#注意: 1)如果对这个sql回滚,然后修改后重新提交的话,需要删除flyway_schema_history表中的该行记录; 2)如果修改内容后重新执行的话,需要执行repair指令修复下checksum; 3)如果手动执行完毕该sql内容的话,需要在对应的flyway_schema_history表中将该行的success字段改为true;
Validate failed: Detected failed migration to version 6.7
原因:该 sql 文件之前已经更新过,但是执行失败了 ;
解决方法:灵活处理 flyway_schema_history 表 ;
#注意: 1)如果对这个sql回滚,然后修改后重新提交的话,需要删除flyway_schema_history表中的该行记录; 2)如果手动执行完毕该sql内容的话,需要在对应的flyway_schema_history表中将该行的success字段改为true;
Validate failed: Detected resolved migration not applied to database: 2.7
原因:该版本的 sql 之前已经通过 Flyway migrate 更新过,但是新版本中该文件被删除了,导致验证不通过;
解决方法:flyway_schema_history 将该记录删除,或者在 flyway 命令中加上跳过这个验证的参数:-ignoreMissingMigrations=true;
WARNING: DB: Duplicate index 'idx_flyway_a_index' defined on the table 'sbtest.sbtest1'. This is deprecated and will be disallowed in a future release. (SQL State: HY000 - Error Code: 1831)
原因:理由不明,索引是正确添加的,但是会有 WARNING;
解决方法:不用处理 , 可以忽略;
总结
规范化管理业务变更一直是 sre 工作目标,数据库做为业务的核心,业务 sre 理应管控全局,对其进行规范化的管理,避免各种误操作带来的问题或故障。多个项目数据库更新使用 flyway 后,传统数据库更新带来的痛点不会再变为 sre 的负担,而且能够高质高效的完成每一次变更。