nfs+drbd+heartbeat高可用（实验）-白红宇

nfs+drbd+heartbeat高可用（实验）

阅读量：5935 次

发布时间：2019-06-19

本文共 7750 字，大约阅读时间需要 25 分钟。

一.环境介绍

master eth0:192.168.48.128 eth1:192.168.1.228 ---作为主服务器

slave eth0:192.168.48.129 eth1:192.168.1.229 ---作为从服务器

虚拟IP 192.168.48.130 ---通过Heartbeat来实现,对外提供服务的IP

两台服务器将 /dev/sdb4 作为镜像

1.两台都同步时钟（实践证明这个不同步关系不大，但是做下这步也无防）

yum install -y ntp

ntpdate ntp.api.bz

2.两台都设置hosts相互解析

在 /etc/hosts 文件中加入如下内容：

192.168.48.128 master

192.168.48.129 slave

yum 安装：

yum -y install drbd83 kmod-drbd83

2.加载模块

[root@master ~]# modprobe drbd

查看drbd模块是否已经加载到内核中了:

[root@master ~]# lsmod |grep drbd

drbd 300440 0

先确认两台要镜像的机器是否正常, 之间的网络是否通畅, 需要加载的硬盘是否处于umount状态.

在两台主机上都创建硬件设备drbd.

mknod /dev/drbd0 b 147 0

//mknod /dev/drbd1 b 147 1

//mknod /dev/drbd2 b 147 2 如需多个drbd设备则依次去创建.

二台机器将/dev/sdb1互为镜相(两台机器配置相同).

yum -y install portmap

yum -y install nfs

mkdir /d //创建共享目录.

vim /etc/exports

/d 192.168.48.0/255.255.255.0(rw,no_root_squash,no_all_squash,sync)

[root@master ~]# chkconfig --level 3 portmap on

[root@master ~]# chkconfig --level 3 nfs off

[root@master ~]# /etc/init.d/portmap start

启动 portmap： [确定]

两台都配置drbd

[root@master ~]# mv /etc/drbd.conf /etc/drbd.conf.bak

[root@master ~]# vim /etc/drbd.conf

resource r0 {

protocol C;

#采用C协议，表示收到远程主机的写入确认后，则认为写入完成。

startup { wfc-timeout 0; degr-wfc-timeout 120; }

disk { on-io-error detach; }

net {

timeout 60;

connect-int 10;

ping-int 10;

max-buffers 2048;

max-epoch-size 2048;

}

syncer { rate 30M; }

#设置主备节点同步时的网络速率最大值

on master {

device /dev/drbd0;

disk /dev/sdb;

address 192.168.48.128:7788;

meta-disk internal;

}

on slave {

device /dev/drbd0;

disk /dev/sdb;

address 192.168.48.129:7788;

meta-disk internal;

}

drbd的启动, 激活前面配置的drbd资源 “r0″. （两个节点都要执行）

[root@slave ~]# drbdadm create-md r0

出现提示：

* If you wish to opt out entirely, simply enter 'no'.

* To continue, just press [RETURN]

success

现在可以启动drbd了, 分别在两台主机上执行.

[root@master ~]# /etc/init.d/drbd start或者service drbd start

设置drbd开机自动启动.

[root@master ~]# chkconfig --add drbd

[root@slave ~]# chkconfig --add drbd

现在可以查看drbd当前的状态, 然后在master上执行:

[root@master ~]# cat /proc/drbd

version: 8.3.13 (api:88/proto:86-96)

GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36

0: cs:Connected ro:Secondary/Secondary ds:Inconsistent/Inconsistent C r-----

ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:2097052

第一行的’ro’表示两台主机的状态,都是”备机”状态.‘ds’是磁盘状态,都是”不一致”状态.

这是由于,DRBD无法判断哪一方为主机,以哪一方的磁盘数据作为标准数据.所以,我们需要初始化一个主机, 那么需要在centos1上执行.

初始化master（这步只要在主节点上操作）

[root@master ~]# drbdsetup /dev/drbd0 primary -o //定义为主节点.

第一次设置主节点时用 drbdadm 命令会失败, 所以先用drbdsetup 来做, 以后就可以用drbdadm了.

再次查看drbd当前的状态.

[root@master ~]# cat /proc/drbd

version: 8.3.13 (api:88/proto:86-96)

GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36

0: cs:SyncSource ro:Primary/Secondary ds:UpToDate/Inconsistent C r-----

ns:1649664 nr:0 dw:0 dr:1649664 al:0 bm:100 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:447388

[==============>.....] sync'ed: 78.8% (447388/2097052)K

finish: 0:00:13 speed: 32,096 (31,124) K/sec

现在主备机状态分别是’主/备’, 主机磁盘状态是’实时’, 备机状态是’不一致’.

在第3行, 可以看到数据正在同步中, 即主机正在将磁盘上的数据, 传递到备机上.

现在的进度是0.3%.

设置完之后的第一次同步耗时比较长, 因为需要把整个分区的数据全部同步一遍.

第一次同步完成之后, 就可以对drbd的设备创建文件系统了:

稍等一段时间, 在数据同步完后, 再查看一下两台机器的DRBD状态:

[root@master ~]# cat /proc/drbd

version: 8.3.13 (api:88/proto:86-96)

GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36

0: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----

ns:2097052 nr:0 dw:0 dr:2097052 al:0 bm:128 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0

[root@slave ~]# cat /proc/drbd

version: 8.3.13 (api:88/proto:86-96)

GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36

0: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r-----

ns:0 nr:2097052 dw:2097052 dr:0 al:0 bm:128 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0

现在磁盘状态都是’实时’, 表示数据同步完成了.

#查看drbd的实时状态，我喜欢用service drbd status

drbd的使用.

现在可以把主机上的DRBD设备挂载到一个目录上进行使用.

备机的DRBD设备无法被挂载, 因为它是用来接收主机数据的, 由DRBD负责操作.

在master主服务器上执行:

[root@master ~]# mkfs.ext3 /dev/drbd0

[root@master ~]# mount /dev/drbd0 /d

注意: secondary节点上不允许对drbd设备进行任何操作, 包括只读.

所有的读写操作只能在primary节点上进行.

只有当primary节点挂掉之后, secondary节点才能提升成为primary节点, 继续进行读写操作.

如在备服务器上

[root@slave ~]# mkfs.ext3 /dev/drbd0

mke2fs 1.39 (29-May-2006)

mkfs.ext3: 错误的介质类型 while trying to determine filesystem size

五、Heartbeat的配置过程

真实的服务器之间的连接用交叉线连接，本着简单高效的原则，直接购买即可。

1. 安装, 在两台主机都同样的安装.

yum -y install heartbeat

#奇怪的事，此命令要执行二次，不然heartbeat还真安装不上去，奇怪的问题。

其中Heartbeat配置共涉及3个文件.

/etc/ha.d/ha.cf

/etc/ha.d/haresources

/etc/ha.d/authkeys

/etc/ha.d/resource.d/killnfsd

2. 二个节的配置的配置文件ha.cf都是一样, 文件内容如下:

[root@master ha.d]# vim ha.cf

logfile /var/log/ha-log

#定义HA的日志名字及存放位置

logfacility local0

keepalive 2

#设定心跳(监测)时间为2秒

deadtime 10

warntime 10

deadtime 5

#死亡时间定义为5秒

ucast eth1 192.168.1.229

#采用单播方式，IP地址指定为对方IP

auto_failback off

#服务器正常后由主服务器接管资源，另一台服务器放弃该资源

node master

node slave

#定义节点

[root@slave ha.d]# vim ha.cf

logfile /var/log/ha-log

#定义HA的日志名字及存放位置

logfacility local0

keepalive 2

#设定心跳(监测)时间为2秒

deadtime 10

warntime 10

deadtime 5

#死亡时间定义为5秒

ucast eth1 192.168.1.228

#采用单播方式，IP地址指定为对方IP从服务器心跳接口 IP，主从之间相互指定对方IP

auto_failback off

#服务器正常后由主服务器接管资源，另一台服务器放弃该资源

node master

node slave

#定义节点

2. 编辑双机互联验证文件: authkeys

[root@master ha.d]# vim authkeys

auth 1

1 crc

[root@master ha.d]# chmod 600 authkeys //需要将 /etc/ha.d/authkeys设为600的权限.

[root@slave ha.d]# chmod 600 authkeys

3. 编辑集群资源文件: haresources

root@master ha.d]# vim haresources

master IPaddr::192.168.48.130/24/eth0 drbddisk::r0 Filesystem::/dev/drbd0::/d::ext3 killnfsd

[root@slave ha.d]# vim haresources

master IPaddr::192.168.48.130/24/eth0 drbddisk::r0 Filesystem::/dev/drbd0::/d::ext3 killnfsd

#为服务器加VIP，此文件二台机器上配置一样，千万不要自做聪明在另一台机器上配置成slave

4.编辑脚本文件killnfsd，目的其实就是为了重启nfs服务。这是因为NFS服务切换后，必须重新mount一下nfs共享出来的目录，否则会出现stale NFS file handle的错误。

[root@master ha.d]# vim /etc/ha.d/resource.d/killnfsd

killall -9 nfsd; /etc/init.d/nfs restart; exit 0

[root@master ha.d]# chmod 755 /etc/ha.d/resource.d/killnfsd

[root@slave ha.d]# vim /etc/ha.d/resource.d/killnfsd

killall -9 nfsd; /etc/init.d/nfs restart; exit 0

[root@slave ha.d]# chmod 755 /etc/ha.d/resource.d/killnfsd

5. 在二个节点启动Heartbeat即可,先在主节点启动

[root@master ha.d]# service heartbeat start

[root@slave ha.d]# service heartbeat start

加到启动项

[root@master ~]# chkconfig --add heartbeat

[root@slave ~]# chkconfig --add heartbeat

#这时就可以在另外的机器上面，正常挂载192.168.4.194:/d到自己的/mnt/data下进行正常的读写了，client会认为这个就是一个提供NFS的机器。

生产环境测试：

测试一、在另一台centos下挂载192.168.48.130:/d，向里面写数据时，忽然重新启动主DRBD，看此时写数据有影响不，发现DRBD+Heartbeat正常切换还是需要些时间的；

测试二、正常状态下关机Primary机，然后看数据有无问题，观察DRBD的status；然后等主机启动后，再观察变化，然后再关机secondary，然后再启动，观察DRBD变化及Heartbeat起作用了没。

测试三、假设此时把primary的eth0 给ifdown了, 然后直接在secondary上进行主的提升,并也给mount了, 发现在primary上测试拷入的文件确实同步过来了。之后把primary的 eth0 恢复后, 发现没有自动恢复主从关系, 经过支持查询,发现出现了drbd检测出现了Split-Brain 的状况, 两个节点各自都standalone了，故障描术如下：Split-Brain detected, dropping connection!这个即时传说中的脑裂了，DRBD官方推荐手动恢复(生产环境下出现这个机率的机会很低的，谁会去故障触动生产中的服务器)

以下手动恢复Split-Brain状况：

i. 在secondary上：

drbdadm secondary r0

drbdadm disconnect all

drbdadmin -- --discard-my-data connect r0

ii.在primary上：

drbdadm disconnect all

drbdadm connect r0

当主节点状态变成 primary/unknow 从节点此时是 secondary/unknow 时，可以采用以下步骤进行解决：

1.从节点操作： drbdadm -- --discard-my-data connect all

2.主节点操作： drbdadm connnect all

基本以上两步就OK了！