当前位置:首页 > 随笔 > 正文内容

MariaDB Galera集群故障快速恢复指南

访客 随笔 2026年5月21日 4

OpenStack控制节点采用三节点MariaDB Galera集群架构。当数据库集群因故障重启时,有时会出现Galera集群无法正常启动的问题。虽然有多种方法可以恢复数据库服务,但如何实现快速启动同时确保数据完整性呢?

通过分析日志发现,MariaDB Galera集群节点宕机时会在日志中输出以下信息:

[Note] WSREP: 新集群视图:全局状态: 874d8e7e-5980-11e8-8c23-83493ba049c2:3111, 视图# -1: 非主节点,节点数量: 0,我的索引: -1,协议版本 3

1. 确定数据最新的节点

比较三个节点日志中的 New cluster view: global state 状态,可以识别出哪个节点包含最新数据。

使用此最新节点数据,通过 wsrep_new_cluster 方式启动集群即可。

比较三个节点日志中的 New cluster view: global state 状态,可确定哪个节点数据最新

cd /var/log/mariadb/
grep "New cluster view" /var/log/mariadb/mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'


[mysql@test45 日志]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 14:59:00 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:2840, 视图# 3

[mysql@test44 日志]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:03 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:3068, 视图# 4

[mysql@test43 日志]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:41 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:3111, 视图# -1

得知三个节点数据状态:3111>3068>2840

因此,[mysql@test43 日志] 上的节点数据是最新的

2. 修改最新节点的grastate.dat文件

修改此最新节点上的 grastate.dat 文件,该文件可能位于不同目录,通常在 MariaDB 的数据文件目录,即 datadir 目录下

[mysql@test43 脚本]$more grastate.dat 
# GALERA 保存的状态
版本: 2.1
uuid:    874d8e7e-5980-11e8-8c23-83493ba049c2
序列号:   -1
安全引导: 0

修改为:

[mysql@test43 数据]$  vim ../data/grastate.dat 
# GALERA 保存的状态
版本: 2.1
uuid:    874d8e7e-5980-11e8-8c23-83493ba049c2
序列号:   3111
安全引导: 1

序列号 设置为 3111(这是上面获取到的值,不是固定值)。 安全引导 设置为1

注意:启动数据库前,建议对数据目录进行备份,以防出现问题时可以恢复。

3. 按顺序启动节点

1. 在【mysql@test43】节点使用wsrep_new_cluster方式启动mysql

mysqld_safe --defaults-file=/data/conf/my.cnf  --user=mysql --wsrep_new_cluster &

2. 以常规方式启动其他两个节点

mysqld_safe --defaults-file=/data/conf/my.cnf  --user=mysql&

根据这两个节点的数据状态,系统会自动执行 SSTIST 同步操作。

参考:https://coding3min.com/855.html

标签: MariaDB

相关文章

可以按小时收费的VPS

很多 VPS 提供商都支持 按小时计费(hourly billing),想短期试用 / 临时搭建节点、测试网络、短期项目等场景非常合适。下面是当前最主流且靠谱的按小时 VPS 选项,分别按不同需求场景整理: 1. Vultr(全球节点,包括日本) 按小时计费 可选机房:东京 / 大阪 / 洛杉矶 / 法兰克福 / 伦敦 … 支持 PayPal(部分情况),但更常用信用卡/PayPal+卡价格参考$...

在 iPhone 上下载国外App

地区/国家限制App Store 会根据 Apple ID 的国家或地区限制应用下载。如果你的 Apple ID 绑定的是中国大陆,就可能无法下载 OpenAI 官方的 ChatGPT 应用,因为它在大陆 App Store 不上架。解决办法:换成美国、加拿大、香港等地区的 Apple ID。或者在现有 Apple ID 上更改地区。注册一个国外 Apple ID(推荐)比如注册 美国区 Appl...

Node.js 中的异步编程:回调与 Promise

Node.js 是一个基于 JavaScript 构建的单线程、非阻塞运行环境,它通过异步编程机制来高效处理多个操作。在执行如文件读取、API 请求或数据库查询等任务时,Node.js 不会等待这些操作完成,而是使用回调函数和 Promise 来避免阻塞主线程。 回调方式实现异步 那么当异步操作完成后,Node.js 如何知道接下来要做什么呢?这就要用到 回调函数(callback)。 回调本质上...

Selenium自动化测试入门指南

Selenium自动化测试入门指南

什么是自动化测试? 自动化测试是指利用软件工具自动执行测试用例,模拟用户操作,如打开网页、点击链接、输入文本等,并验证结果是否符合预期。 其主要优点包括: 大幅减少人工成本 测试速度快 可以在非工作时间运行 支持持续集成和交付 然而,它也存在一些局限性,例如开发成本较高、不适合快速变化的项目、依赖稳定的UI界面等。 自动化测试的应用条件 适合引入自动化测试的情况包括: 手动测试耗时且需要大量...

Android 中 EventBus 的通信机制与实现原理深度解析

EventBus 核心设计思想 EventBus 是一个基于观察者模式的事件总线框架,广泛应用于 Android 平台以实现组件解耦。它通过中心化的消息分发机制,使不同层级、不同线程的对象能够以"发布-订阅"方式通信,避免了传统接口回调或广播带来的强依赖问题。 核心角色说明 事件(Event):任意 Java 对象,作为数据载体,如网络状态变更通知、用户登录信息等。 发布者(Publi...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。