当前位置：首页 > 随笔 > 正文内容

MariaDB Galera集群故障快速恢复指南

访客随笔 2026年5月21日 52

OpenStack控制节点采用三节点MariaDB Galera集群架构。当数据库集群因故障重启时，有时会出现Galera集群无法正常启动的问题。虽然有多种方法可以恢复数据库服务，但如何实现快速启动同时确保数据完整性呢？

通过分析日志发现，MariaDB Galera集群节点宕机时会在日志中输出以下信息：

[Note] WSREP: 新集群视图：全局状态: 874d8e7e-5980-11e8-8c23-83493ba049c2:3111, 视图# -1: 非主节点，节点数量: 0，我的索引: -1，协议版本 3

1. 确定数据最新的节点

比较三个节点日志中的 New cluster view: global state 状态，可以识别出哪个节点包含最新数据。

使用此最新节点数据，通过 wsrep_new_cluster 方式启动集群即可。

比较三个节点日志中的 New cluster view: global state 状态，可确定哪个节点数据最新

cd /var/log/mariadb/
grep "New cluster view" /var/log/mariadb/mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'


[mysql@test45 日志]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 14:59:00 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:2840, 视图# 3

[mysql@test44 日志]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:03 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:3068, 视图# 4

[mysql@test43 日志]$ grep "New cluster view" mariadb.log |awk  -F: 'END { print $1":"$2":"$3 $6":"$7}'
180518 15:55:41 [Note] WSREP 874d8e7e-5980-11e8-8c23-83493ba049c2:3111, 视图# -1

得知三个节点数据状态：3111>3068>2840

因此，[mysql@test43 日志] 上的节点数据是最新的

2. 修改最新节点的`grastate.dat`文件

修改此最新节点上的 grastate.dat 文件，该文件可能位于不同目录，通常在 MariaDB 的数据文件目录，即 datadir 目录下

[mysql@test43 脚本]$more grastate.dat 
# GALERA 保存的状态
版本: 2.1
uuid:    874d8e7e-5980-11e8-8c23-83493ba049c2
序列号:   -1
安全引导: 0

修改为：

[mysql@test43 数据]$  vim ../data/grastate.dat 
# GALERA 保存的状态
版本: 2.1
uuid:    874d8e7e-5980-11e8-8c23-83493ba049c2
序列号:   3111
安全引导: 1

将 序列号 设置为 3111（这是上面获取到的值，不是固定值）。 安全引导 设置为1

注意：启动数据库前，建议对数据目录进行备份，以防出现问题时可以恢复。

3. 按顺序启动节点

1. 在【mysql@test43】节点使用wsrep_new_cluster方式启动mysql

mysqld_safe --defaults-file=/data/conf/my.cnf  --user=mysql --wsrep_new_cluster &

2. 以常规方式启动其他两个节点

mysqld_safe --defaults-file=/data/conf/my.cnf  --user=mysql&

根据这两个节点的数据状态，系统会自动执行 SST 或 IST 同步操作。

参考：https://coding3min.com/855.html

标签: MariaDB

返回列表

上一篇：C语言核心特性：递归机制与指针操作详解

下一篇：智能体记忆系统设计：三层架构实现经验继承与持续优化

可以按小时收费的VPS

很多 VPS 提供商都支持按小时计费（hourly billing），想短期试用 / 临时搭建节点、测试网络、短期项目等场景非常合适。下面是当前最主流且靠谱的按小时 VPS 选项，分别按不同需求场景整理： 1. Vultr（全球节点，包括日本）按小时计费可选机房：东京 / 大阪 / 洛杉矶 / 法兰克福 / 伦敦 … 支持 PayPal（部分情况），但更常用信用卡/PayPal+卡价格参考$...

在 iPhone 上下载国外App

地区/国家限制App Store 会根据 Apple ID 的国家或地区限制应用下载。如果你的 Apple ID 绑定的是中国大陆，就可能无法下载 OpenAI 官方的 ChatGPT 应用，因为它在大陆 App Store 不上架。解决办法：换成美国、加拿大、香港等地区的 Apple ID。或者在现有 Apple ID 上更改地区。注册一个国外 Apple ID（推荐）比如注册美国区 Appl...

Node.js 中的异步编程：回调与 Promise

Node.js 是一个基于 JavaScript 构建的单线程、非阻塞运行环境，它通过异步编程机制来高效处理多个操作。在执行如文件读取、API 请求或数据库查询等任务时，Node.js 不会等待这些操作完成，而是使用回调函数和 Promise 来避免阻塞主线程。回调方式实现异步那么当异步操作完成后，Node.js 如何知道接下来要做什么呢？这就要用到回调函数（callback）。回调本质上...

Selenium自动化测试入门指南

什么是自动化测试？自动化测试是指利用软件工具自动执行测试用例，模拟用户操作，如打开网页、点击链接、输入文本等，并验证结果是否符合预期。其主要优点包括：大幅减少人工成本测试速度快可以在非工作时间运行支持持续集成和交付然而，它也存在一些局限性，例如开发成本较高、不适合快速变化的项目、依赖稳定的UI界面等。自动化测试的应用条件适合引入自动化测试的情况包括：手动测试耗时且需要大量...

Android 中 EventBus 的通信机制与实现原理深度解析

EventBus 核心设计思想 EventBus 是一个基于观察者模式的事件总线框架，广泛应用于 Android 平台以实现组件解耦。它通过中心化的消息分发机制，使不同层级、不同线程的对象能够以"发布-订阅"方式通信，避免了传统接口回调或广播带来的强依赖问题。核心角色说明事件（Event）：任意 Java 对象，作为数据载体，如网络状态变更通知、用户登录信息等。发布者（Publi...

老程序员博客

MariaDB Galera集群故障快速恢复指南

1. 确定数据最新的节点

2. 修改最新节点的`grastate.dat`文件

3. 按顺序启动节点

相关文章

可以按小时收费的VPS

在 iPhone 上下载国外App

Node.js 中的异步编程：回调与 Promise

Selenium自动化测试入门指南

Android 中 EventBus 的通信机制与实现原理深度解析

发表评论

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

老程序员博客

MariaDB Galera集群故障快速恢复指南

1. 确定数据最新的节点

2. 修改最新节点的grastate.dat文件

3. 按顺序启动节点

相关文章

可以按小时收费的VPS

在 iPhone 上下载国外App

Node.js 中的异步编程：回调与 Promise

Selenium自动化测试入门指南

Android 中 EventBus 的通信机制与实现原理深度解析

发表评论取消回复

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

2. 修改最新节点的`grastate.dat`文件

发表评论