博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
云计算之路-阿里云上:部分服务器未及时续费造成docker swarm集群故障
阅读量:4877 次
发布时间:2019-06-11

本文共 775 字,大约阅读时间需要 2 分钟。

非常非常抱歉,由于我们的疏忽 —— docker swarm 集群中的 2 台服务器没有及时续费,造成在夜里0点被自动关机,从而引发整个 docker swarm 集群故障,造成今天凌晨 0:30 ~ 7:50 左右跑在集群上的站点无法访问,由此给您带来很大很大的麻烦,恳请您的谅解。受这次故障影响的站点有 ,,,,,,,,openapi 。

昨天下午 14: 30 左右我们收到了阿里云的服务器到期通知,由于打算更换这2台到期的服务器,所以没有立即进行续费,准备安排在晚上更换服务器,但晚上由于忙去其他事情忘了进行操作,从而酿成了这次大错。我们会深刻吸取教训,改进我们的运维工作。

这次故障也让我们对 docker swarm 集群的稳定性有了更多的疑惑。之前遇到的故障都是由于节点的 CPU 波动,而这次虽然有 2 个节点下线,但集群中还有 3  个节点,当时负载极低,CPU 也没出现波动,但整个集群依然宕机。从这个角度至少说明 docker swarm 集群并不是真正意义上的分布式集群,对节点的运行状况依赖比较大,节点问题很容易影响到整个集群。

docker swarm 的不稳定也给我们带来了另外一个困扰,我们目前正在进行博客站点的 .NET Core 迁移工作,目前的博客站点用了 4 台 4 核 8 G 的 Windows Server 2016 服务器在跑,迁移完成后要不要切换到 docker swarm 上?之前是有这样的打算,但现在有点望而却步。

另外,给阿里云的一个建议,是否可以将服务器过期关机的动作放在中午 12:00 进行,而不是放在夜里 0:00 ,这样即使忘了续费也可以在中午吃饭的时间及时发现并处理,不然一错过就是一夜。

转载于:https://www.cnblogs.com/cmt/p/8397371.html

你可能感兴趣的文章
[小技巧] gcc 编译选项-###
查看>>
0513课堂01 数组,数学函数,时间函数
查看>>
grunt对象之api
查看>>
《驻足思考》笔记
查看>>
全网最详细的Windows系统里PLSQL Developer 64bit的下载与安装过程(图文详解)
查看>>
自动化测试用例getText()获取某一个元素的值返回null或空
查看>>
大数智能未来
查看>>
virtualenv和virtualenvwrapper 的安装和使用
查看>>
MAC sublime text 无法自动补齐标签
查看>>
NgBook留言本开发全过程(1)
查看>>
LeetCode-指针法
查看>>
Python之路,Day12 - 那就做个堡垒机吧
查看>>
linux之shell之if、while、for语句介绍
查看>>
Mysql phpStudy升级Mysql版本,流产了怎么办?
查看>>
SQLServer之数据库行锁
查看>>
OFDM仿真
查看>>
浅谈linux内核中内存分配函数
查看>>
走近SpringBoot
查看>>
thinkphp3.2.3分页
查看>>
python程序之profile分析
查看>>