达梦数据库教程(12)守护集群部署与管理

达梦数据库教程(12)守护集群部署与管理

一、达梦数据库守护集群介绍

达梦数据库通过守护集群可以实现主备模式或读写分离集群,二者在搭建过程上基本一致,区别在于:

· 数据守护集群:通常使用实时归档 + ARCH WAIT APPLY=0 (高性能模式)

· 读写分离集群:通常使用即时归档 + ARCH WAIT APPLY=1 (数据一致性模式) + 客户端读写分离与读写百分比配置

二、达梦数据库守护集群部署

1、主备节点数据库安装

参考单机部署的方式先正常部署达梦数据库,注意各节点的 INSTANCE_NAME 不能相同

2、数据备份与还原

截止2025年8月,DM8数据守护集群版本为 V4.0 。该版本下无论主备节点是否存在数据,在进行集群部署时都必须进行一次备份还原的方式确保主备节点数据一致如果是没有数据的新集群,建议采用主库脱机备份、备库脱机还原的方式来准备数据;如果主库已经处于运行状态,可以对主库进行联机备份,然后对备库脱机还原的方式来准备数据。一定不能采用拷贝数据文件的方式来让主备节点数据一致,原因如下:

1、数据库实例在初始化时会生成一个永久魔数(permenant_magic),该魔数生成后就无法改变。主备节点在传送日志时会先判断节点间的魔数是否一样,只有来自同一个数据守护环境中的实例才能收发日志

2、由于 dminit 初始化数据库时,会生成随机密钥用于加密,每次生成的密钥都不相同,备库无法解析采用主库密钥加密的数据

3、每个库都有一个数据库魔数(DB_MAGIC),每经过一次还原、恢复操作,DB_MAGIC 就会产生变化,需要通过这种方式来区分同一个数据守护环境中各个不同的库

· 主节点脱机备份

systemctl stop DmServiceDMSERVER.service
su - dmdba

./bin/dmrman CTLSTMT="BACKUP DATABASE '/dmdbms/data/DAMENG/dm.ini' FULL TO FULL_BACKUP_FILE BACKUPSET '/dmdbms/backup/FULL_BACKUP'"
· 备节点脱机还原

· 从节点脱机还原

#restore
/data/dmdbms/bin/dmrman CTLSTMT="RESTORE DATABASE '/dmdbms/data/DAMENG/dm.ini' FROM BACKUPSET '/dmdbms/backup/FULL_BACKUP'"

#recover
/data/dmdbms/bin/dmrman CTLSTMT="RECOVER DATABASE '/dmdbms/data/DAMENG/dm.ini' FROM BACKUPSET '/dmdbms/backup/FULL_BACKUP'"

#更新魔数
/data/dmdbms/bin/dmrman CTLSTMT="RECOVER DATABASE '/dmdbms/data/DAMENG/dm.ini' UPDATE DB_MAGIC"

3、主节点配置

· dm.ini 配置

vi /dmdbms/data/DAMENG/dm.ini

#只需要修改以下内容
INSTANCE_NAME = DMSERVER_MASTER
PORT_NUM = 5236
DW_INACTIVE_INTERVAL = 60     #接收守护进程消息超时时间
ALTER_MODE_STATUS = 0      #不允许手工方式修改实例模式/状态/OGUID
ENABLE_OFFLINE_TS = 2      #不允许备库OFFLINE表空间
MAL_INI = 1        #打开MAL系统
ARCH_INI = 1        #打开归档配置

· dmmal.ini 配置

创建 dmmal.ini文件,MAL_HOST 使用内部网络 IP,MAL_PORT 与 dm.ini 中 PORT_NUM 使用不同的端口值,MAL_DW_PORT 是各实例对应的守护进程之间,以及守护进程和监视器之间的通信端口

#该配置文件主备库配置完全一致
vi /dmdbms/data/DAMENG/dmmal.ini
MAL_CHECK_INTERVAL = 5  # MAL链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5  # 判定MAL链路断开的时间

[MAL_INST1]                             # 每个实例信息
 MAL_INST_NAME = DMSERVER_MASTER # 实例名,和dm.ini中的INSTANCE_NAME一致
 MAL_HOST = 192.168.159.102     # MAL系统监听TCP连接的IP地址
 MAL_PORT = 7236      # MAL系统监听TCP连接的端口,默认7236
 MAL_INST_HOST = 192.168.159.102    # 实例的对外服务IP地址
 MAL_INST_PORT = 5236      # 实例的对外服务端口,和dm.ini中的PORT_NUM一致
 MAL_DW_PORT = 7436          # 实例本地的守护进程监听TCP连接的端口,默认7436
 MAL_INST_DW_PORT = 7536      # 实例监听守护进程TCP连接的端口,默认7536

[MAL_INST2]
 MAL_INST_NAME = DMSERVER_BACKUP
 MAL_HOST = 192.168.159.103
 MAL_PORT = 7236
 MAL_INST_HOST = 192.168.159.103
 MAL_INST_PORT = 5236
 MAL_DW_PORT = 7436
 MAL_INST_DW_PORT = 7536

· dmarch.ini 配置

dmarch.ini用于进行本地归档和实时归档相关配置。除了配置本地归档之外,其他归档配置项中的 ARCH_DEST 均表示“当实例是 Primary 模式时,需要同步归档数据的目标实例名。如当前集群中有实例 TEST_MASTER 为主库,有 TEST_SLAVE为实时备库,那么 ARCH_DEST 配置就应为 TEST_SLAVE

vi /dmdbms/data/DAMENG/dmarch.ini
[ARCHIVE_REALTIME]
ARCH_TYPE = REALTIME     ##配置归档类型为实时归档
ARCH_DEST = DMSERVER_BACKUP   ##配置归档目标实例名,这里填写为备机

[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL      ##本地归档类型
ARCH_DEST = /dmdbms/dmarch          ##本地归档文件存放路径
ARCH_FILE_SIZE = 128     ##单位Mb,本地单个归档文件最大值
ARCH_SPACE_LIMIT = 0    ##单位Mb,0表示无限制,范围1024~2147483647M

· dmwatcher.ini配置

修改 dmwatcher.ini 配置守护进程,配置为全局守护类型,使用自动切换模式

#该配置文件主备库配置完全一致
vi /dmdbms/data/DAMENG/dmwatcher.ini
[GRP1]                              # 和备库保持一致
DW_TYPE = GLOBAL      # 全局守护类型
DW_MODE = AUTO       # 自动切换模式
DW_ERROR_TIME = 10      # 远程守护进程故障认定时间
INST_RECOVER_TIME = 60     # 主库守护进程启动恢复的间隔时间
INST_ERROR_TIME = 10     # 本地实例故障认定时间
INST_OGUID = 453331     # 守护系统唯一标识码,即OGUID
INST_INI = /dmdbms/data/DAMENG/dm.ini   ##dm.ini配置文件路径
INST_AUTO_RESTART = 1     # 实例是否自动重启
INST_STARTUP_CMD = /data/dmdbms/bin/dmserver #自启动命令路径
RLOG_SEND_THRESHOLD = 0    #指定主库发送日志到备库的时间阈值,默认关闭
RLOG_APPLY_THRESHOLD = 0    #指定备库重演日志的时间阈值,默认关闭


· 启动主节点

一定要以Mount方式启动数据库实例,否则系统启动时会重构回滚表空间,生成Redo日志;并且启动后应用可能连接到数据库实例进行操作,破坏主备库的数据一致性。这里执行命令后是前台拉起,当完成oguid和primay standby状态设置后,就可以将前台退出,使用dmwatcher来拉起数据库实例了

su - dmdba
./dmserver /dmdbms/data/DAMENG/dm.ini mount

· 设置 OGUID

启动命令行工具 DIsql,登录主库设置 OGUID 值。系统通过OGUID值确定一个守护进程组,由用户保证OGUID值的唯一性,并确保数据守护系统中,数据库、守护进程和监视器配置相同的OGUID值

su - dmdba
/dmdbms/bin/disql SYSDBA/SYSDBA

#将手动修改模式的功能打开
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 1);

#设置OGUID
SQL>sp_set_oguid(453331);

SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 0);


· 修改数据库模式

/dmdbms/bin/disql  SYSDBA/SYSDBA 
SQL>alter database primary;
#启动另一个会话登录数据库,此时状态应该为“主库打开状态”

4、备节点配置

· dm.ini配置

vi /dmdbms/data/DAMENG/dm.ini
INSTANCE_NAME = DMSERVER_BACKUP
PORT_NUM = 5236  ##数据库实例监听端口
DW_INACTIVE_INTERVAL = 60 ##接收守护进程消息超时时间
ALTER_MODE_STATUS = 0  ##不允许手工方式修改实例模式/状态/OGUID
ENABLE_OFFLINE_TS = 2  ##不允许备库OFFLINE表空间
MAL_INI = 1  ##打开MAL系统
ARCH_INI = 1 ##打开归档配置

· dmmal.ini 配置

#该配置文件主备库配置完全一致
vi /dmdbms/data/DAMENG/dmmal.ini
MAL_CHECK_INTERVAL = 5  # MAL链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5  # 判定MAL链路断开的时间

[MAL_INST1]                             # 每个实例信息
 MAL_INST_NAME = DMSERVER_MASTER # 实例名,和dm.ini中的INSTANCE_NAME一致
 MAL_HOST = 192.168.159.102     # MAL系统监听TCP连接的IP地址
 MAL_PORT = 7236      # MAL系统监听TCP连接的端口,默认7236
 MAL_INST_HOST = 192.168.159.102    # 实例的对外服务IP地址
 MAL_INST_PORT = 5236      # 实例的对外服务端口,和dm.ini中的PORT_NUM一致
 MAL_DW_PORT = 7436          # 实例本地的守护进程监听TCP连接的端口,默认7436
 MAL_INST_DW_PORT = 7536      # 实例监听守护进程TCP连接的端口,默认7536

[MAL_INST2]
 MAL_INST_NAME = DMSERVER_BACKUP
 MAL_HOST = 192.168.159.103
 MAL_PORT = 7236
 MAL_INST_HOST = 192.168.159.103
 MAL_INST_PORT = 5236
 MAL_DW_PORT = 7436
 MAL_INST_DW_PORT = 7536


· dmarch.ini配置

由于当前实例是备库,为了确保以后发生主从切换后还能把数据传送给其他节点,这里就需要将 ARCH_DEST 配置为 原来的MASTER

vi /dmdbms/data/DAMENG/dmarch.ini
[ARCHIVE_REALTIME]
ARCH_TYPE = REALTIME  ##配置归档类型为实时归档
ARCH_DEST = DMSERVER_MASTER ##配置归档目标实例名,这里填写主库

[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL  ##本地归档类型
ARCH_DEST = /dmdbms/dmarch          ##本地归档文件存放路径
ARCH_FILE_SIZE = 128  ##单位Mb,本地单个归档文件最大值
ARCH_SPACE_LIMIT = 0 ##单位Mb,0表示无限制,范围1024~2147483647M


· dmwatcher.ini配置

#该配置文件主备库配置完全一致
vi /dmdbms/data/DAMENG/dmwatcher.ini
[GRP1]                              # 和备库保持一致
DW_TYPE = GLOBAL  # 全局守护类型
DW_MODE = AUTO  # 自动切换模式
DW_ERROR_TIME = 10  # 远程守护进程故障认定时间
INST_RECOVER_TIME = 60  # 主库守护进程启动恢复的间隔时间
INST_ERROR_TIME = 10  # 本地实例故障认定时间
INST_OGUID = 453331  # 守护系统唯一标识码,即OGUID
INST_INI = /dmdbms/data/DAMENG/dm.ini   ##dm.ini配置文件路径
INST_AUTO_RESTART = 1  # 实例是否自动重启
INST_STARTUP_CMD = /data/dmdbms/bin/dmserver #自启动命令路径
RLOG_SEND_THRESHOLD = 0  #指定主库发送日志到备库的时间阈值,默认关闭
RLOG_APPLY_THRESHOLD = 0  #指定备库重演日志的时间阈值,默认关闭

· 启动从节点

和主节点一样,也需要以Mount方式启动数据库实例

su - dmdba
./dmserver /dmdbms/data/DAMENG/dm.ini mount

· 设置 OGUID

和主库设置为相同的 OGUID

su - dmdba
/dmdbms/bin/disql SYSDBA/SYSDBA  

SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 1);
SQL>sp_set_oguid(453331);
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 0);

· 修改数据库模式

启动命令行工具 DIsql,登录备库修改数据库为 Standby 模式。如果当前数据库不是 Normal 模式,需要先修改 dm.ini 中 ALTER_MODE_STATUS 值为 1,允许修改数据库模式,修改 Standby 模式成功后再改回为 0。如果是 Normal 模式,请忽略下面的第 1 步和第 3 步

SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 1);  //第1步
SQL>alter database standby;  //第2步
SQL>SP_SET_PARA_VALUE(1, 'ALTER_MODE_STATUS', 0);  //第3步

5、DMWatcher 守护进程启动与服务注册

将守护进程dmwatcher注册为系统服务并进行启动以拉起数据库,此时开始广播自身和其监控实例的状态信息

su - dmdba 

# -p 对应INSTANCE_NAME
/dmdbms/script/root/dm_service_installer.sh -t dmwatcher -watcher_ini /dmdbms/data/DAMENG/dmwatcher.ini -p DAMENG

systemctl start DmWatcherServiceDAMENG

#前台启动方式
/dmdbms/bin/dmwatcher /dmdbms/data/DAMENG/dmwatcher.ini

三、达梦监视器(DMMonitor)配置与使用

在上面的配置中,将主库和实时备库的守护进程配置为了自动切换模式,此种模式下必须通过 DMMonitor 监视器来对集群进行监管和状态的切换,否则节点都是配置状态

达梦数据库监视器分为普通监视器和确认监视器两种类型。它们都是用于接收守护进程消息、获取守护系统状态以及执行各种监控命令,但是只有确认监视器才能实现状态确认和自动接管能力。确认监视器又分为单实例和多实例模式,多实例模式是对监视器本身进行高可用。

1、单实例监视器配置

单实例监视器的配置文件是 dmmonitor.ini ,通过 MON_DW_CONFIRM 参数决定是普通监视器还是确认监视器,0为普通监视器(默认)、1为确认监视器。除了该选项以外,其他监视器配置基本都是一样的。由于在实际管理中会将监视器注册为系统服务并放在后台运行,此时没有办法手动对监视器进行管理,所以建议额外配置一个非确认监视器用于在前台手动管理集群,以下为两个配置文件内容

#确认监视器配置
vi /dmdbms/data/DAMENG/dmmonitor.ini
MON_DW_CONFIRM = 1  
MON_LOG_PATH = /dmdbms/log/ ##监视器日志文件存放路径
MON_LOG_INTERVAL = 60  ##每隔60s定时记录系统信息到日志文件
MON_LOG_FILE_SIZE = 32  ##每个日志文件最大32M
MON_LOG_SPACE_LIMIT = 0  ##不限定日志文件总占用空间

[GRP1]                      #组名要和主备配置一致
 MON_INST_OGUID = 453331 ##组GRP1的唯一OGUID值
 
#以下配置为监视器到组GRP1的守护进程的连接信息,以“IP:PORT”的形式配置,IP对应dmmal.ini中的MAL_HOST,PORT对应dmmal.ini中的MAL_DW_PORT
 MON_DW_IP = 192.168.159.102:7236
 MON_DW_IP = 192.168.159.103:7236
 

#非确认监视器配置 
vi /dmdbms/data/DAMENG/dmmonitor_manual.ini
MON_DW_CONFIRM = 0
MON_LOG_PATH = /dmdbms/log/
MON_LOG_INTERVAL = 60
MON_LOG_FILE_SIZE = 32
MON_LOG_SPACE_LIMIT = 0

[GRP1]
MON_INST_OGUID = 453331

#对应dmmal.ini中的MAL_DW_PORT
MON_DW_IP = 10.152.70.171:7436
MON_DW_IP = 10.152.70.172:7436

2、监视器服务注册

/dm8/script/root/dm_service_installer.sh -t dmmonitor -monitor_ini /dm8/dmmonitor.ini -p Monitor
# -t 服务类型,这里为dmmonitor 
# -monitor_ini monitor配置文件路径
# -p 对应INSTANCE_NAME

3、启动监视器

# 启动确认监视器
systemctl start DmMonitorServiceMonitor

#启动非确认监视器
bin/dmmonitor /dmdbms/data/DAMENG/dmmonitor.ini

4、节点状态查询

# 确保各节点 STATUS$ 都是 OPEN,主库 MODE$ 是 PRIMARY、备库是 PRIMARY
SELECT NAME,HOST_NAME,STATUS$,MODE$ FROM SYS.V$INSTANCE

5、监视器管理命令

#前台启动监视器后通过login命令登录集群,所需账号信息为SYSDBA
login
  
#查看集群状态
show global info
2025-04-16 15:01:10
#================================================================================
GROUP            OGUID       MON_CONFIRM     MODE            MPP_FLAG
GRP1             13272225    FALSE           AUTO            FALSE
<<DATABASE GLOBAL INFO:>>
DW_IP          MAL_DW_PORT  WTIME                WTYPE     WCTLSTAT  WSTATUS        INAME            INST_OK   N_EP  N_OK  ISTATUS     IMODE     DSC_STATUS     RTYPE     RSTAT
192.168.1.101  15439        2025-04-16 15:01:09  GLOBAL    VALID     OPEN           CJC01            OK        1     1     OPEN        PRIMARY   DSC_OPEN       REALTIME  VALID
DW_IP           MAL_DW_PORT  WTIME                WTYPE     WCTLSTAT  WSTATUS        INAME            INST_OK   N_EP  N_OK  ISTATUS     IMODE     DSC_STATUS     RTYPE     RSTAT
192.168.1.102  15439        2025-04-16 15:01:09  GLOBAL    VALID     OPEN           CJC02            OK        1     1     OPEN        STANDBY   DSC_OPEN       REALTIME  VALID
#================================================================================#  

#查看可切换为主机的实例列表
choose switchover GRP1   

#节点正常状态下手动进行主备切换,切换后登录数据库查看角色以进行验证
switchover
 
#主节点故障状态下手动进行主备切换,切换后登录数据库查看角色以进行验证 
takeover GRP1.实例名

6、集群自动化高可用

· 监视器正常、主库故障、备库正常

常规场景下,当集群处于自动模式下且监视器正常时,主库故障,备库通常会自动切换为主库。待原主库恢复后自动成为从库,整个过程无需人为干预。如果主库主机长时间无法修复,可以通过监控器takeover指令来进行故障转移。在进行转移前可以使用 Choose Takeover 命令选择符合条件的备库

· 主库正常、备库故障

主库数据库实例进入短暂的SUSPEND状态,大概持续3秒,此时不可读写,然后自动修改状态为OPEN,恢复正常读写。如果状态没有恢复可以尝试手动调整

select status$ from v$instance;
alter database open;


更多监视器的内容可以参考达梦官方文档https://eco.dameng.com/document/dm/zh-cn/pm/data-watch-monitor.html

文章评论

猜你喜欢

国产数据库 达梦数据库教程(15)SQL跟踪日志与慢查询日志

达梦数据库教程(15)SQL跟踪日志与慢查询日志
达梦数据库教程(15)SQL跟踪日志与慢查询日志
达梦数据库教程(15)SQL跟踪日志与慢查询日志
达梦数据库教程(15)SQL跟踪日志与慢查询日志

一、达梦跟踪日志达梦数据库跟踪日志即trace log,是数据库的详细诊断信息文件,包含系统各会话执行的 SQL 语句、参数信息、错误信息、执行时间等,用于排查故障、性能问题或内部错误。它和普通的错误...

达梦数据库教程(14)统计信息与执行计划

国产数据库 达梦数据库教程(14)统计信息与执行计划

一、达梦数据库执行计划所有DBMS的执行计划作用基本都是相同的,用于显示一条 SQL 语句在数据库中的执行过程,通过执行计划可以看出SQL影响数据量、是否有使用合理的索引等,有助于SQL优化1、达梦数...

达梦数据库教程(13)如何查找并解决阻塞事务

国产数据库 达梦数据库教程(13)如何查找并解决阻塞事务

一、数据库阻塞的原因当一个数据库提交DML、DDL语句时出现阻塞现象通常有两种情况,一是该语句影响的数据量太多,数据库需要时间来处理,这种情况一般无需处理,等事务正常结束即可;另一种则是被其他事务的锁...

达梦数据库教程(11)达梦数据库授权与版本更新

国产数据库 达梦数据库教程(11)达梦数据库授权与版本更新

一、达梦数据库授权管理1、查询授权查询授权到期时间,如果是永久授权,EXPIRED_DATE 列值是 NULL,AUTHORIZED_CUSTOMER 是用户名称SELECT * ...

国产数据库 达梦数据库教程(9)达梦数据库定时备份配置

达梦数据库教程(9)达梦数据库定时备份配置
达梦数据库教程(9)达梦数据库定时备份配置
达梦数据库教程(9)达梦数据库定时备份配置
达梦数据库教程(9)达梦数据库定时备份配置

一、达梦数据库备份管理达梦数据库通过自带的一些函数以及动态视图可以实现定期物理备份、清理历史备份集等自动化操作,不需要再额外配置操作系统的计划任务。如果是需要自动化逻辑备份的话,则需要使用dexp结合...