MariaDB Galera集群故障快速恢复指南
OpenStack控制节点采用三节点MariaDB Galera集群架构。当数据库集群因故障重启时,有时会出现Galera集群无法正常启动的问题。虽然有多种方法可以恢复数据库服务,但如何实现快速启动同时确保数据完整性呢?
通过分析日志发现,MariaDB Galera集群节点宕机时会在日志中输出以下信息:
[Note] WSREP: 新集群视图:全局状态: 874d8e7e-5980-11e8-8c23-83493ba049c2:3111, 视图# -1: 非主节点,节点数量: 0,我的索引: -1,协议版本 3
1. 确定数据最新的节点
比较三个节点日志中的 New cluster view: global state 状态,可以识别出哪个节点包含最新数据。
使用此最新节点数据,通过 wsrep_new_cluster 方式启动集群即可。
比较三个节点日志中的 New cluster view: global state 状态,可确定哪个节点数据最新
cd /var/log/mariadb/
grep "New cluster view" /var/log/mariadb/mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
[mysql@test45 日志]$ grep "New cluster view" mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 14:59:00 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:2840, 视图# 3
[mysql@test44 日志]$ grep "New cluster view" mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:03 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:3068, 视图# 4
[mysql@test43 日志]$ grep "New cluster view" mariadb.log |awk -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:41 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:3111, 视图# -1
得知三个节点数据状态:3111>3068>2840
因此,[mysql@test43 日志] 上的节点数据是最新的
2. 修改最新节点的grastate.dat文件
修改此最新节点上的 grastate.dat 文件,该文件可能位于不同目录,通常在 MariaDB 的数据文件目录,即 datadir 目录下
[mysql@test43 脚本]$more grastate.dat
# GALERA 保存的状态
版本: 2.1
uuid: 874d8e7e-5980-11e8-8c23-83493ba049c2
序列号: -1
安全引导: 0
修改为:
[mysql@test43 数据]$ vim ../data/grastate.dat
# GALERA 保存的状态
版本: 2.1
uuid: 874d8e7e-5980-11e8-8c23-83493ba049c2
序列号: 3111
安全引导: 1
将 序列号 设置为 3111(这是上面获取到的值,不是固定值)。
安全引导 设置为1
注意:启动数据库前,建议对数据目录进行备份,以防出现问题时可以恢复。
3. 按顺序启动节点
1. 在【mysql@test43】节点使用wsrep_new_cluster方式启动mysql
mysqld_safe --defaults-file=/data/conf/my.cnf --user=mysql --wsrep_new_cluster &
2. 以常规方式启动其他两个节点
mysqld_safe --defaults-file=/data/conf/my.cnf --user=mysql&
根据这两个节点的数据状态,系统会自动执行 SST 或 IST 同步操作。
参考:https://coding3min.com/855.html
