博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
0023-HOSTS配置问题导致集群异常故障分析
阅读量:6854 次
发布时间:2019-06-26

本文共 2224 字,大约阅读时间需要 7 分钟。

hot3.png

1.问题现象

Hadoop集群HDFS、YARN、Hive等服务出现异常告警

重启集群异常告警任然存在大量告警

Cluster 1

HDFS

可用空间抑制...

NameNode 运行状况抑制...
HDFS 金丝雀抑制...

DataNode (ip-172-31-10-118) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-5-190) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-9-33) 日志文件

NameNode 连接抑制...

Hive Metastore Server (ip-172-31-6-148)  日志文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118)  日志文件

进程状态抑制...

Impala Daemon (ip-172-31-5-190)  日志文件

进程状态抑制...

Impala Daemon (ip-172-31-9-33)  日志文件

进程状态抑制...

NameNode (ip-172-31-6-148) 日志文件

安全模式状态抑制...

Server (ip-172-31-5-190) 日志文件

Quorum 成员资格抑制...

Zookeeper服务“Quorum 成员资格”告警

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

2.问题复现

集群环境:

  • CDH5.12.0
  • 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)

1.还原现场配置,所有服务器hosts配置文件配置

127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4::1         localhost localhost.localdomain localhost6 localhost6.localdomain6172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置为多出的异常配置。

在主机上ping自己的hostname显示

2.重启集群服务

CM出现如下大量告警

Cluster 1HDFS可用空间抑制...    NameNode 运行状况抑制...    HDFS 金丝雀抑制...DataNode (ip-172-31-10-118)  日志文件NameNode 连接抑制...DataNode (ip-172-31-5-190)  日志文件NameNode 连接抑制...DataNode (ip-172-31-9-33)  日志文件NameNode 连接抑制...    Hive Metastore Server (ip-172-31-6-148)  日志文件Hive Metastore Canary 抑制...HiveServer2 (ip-172-31-6-148)  日志文件进程状态抑制...    Impala Daemon (ip-172-31-10-118)  日志文件进程状态抑制...    Impala Daemon (ip-172-31-5-190)  日志文件进程状态抑制...    Impala Daemon (ip-172-31-9-33)  日志文件进程状态抑制...NameNode (ip-172-31-6-148)  日志文件安全模式状态抑制...Server (ip-172-31-5-190)  日志文件Quorum 成员资格抑制...    ip-172-31-10-118代理状态抑制...    ip-172-31-5-190代理状态抑制...    ip-172-31-9-33代理状态抑制...

Zookeeper与现场告警一致,且Zookeeper服务如下状态

在查看CM节点的日志出现如下异常“Connection refused”

Host列表监控状态

3.问题原因

集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致

4.解决方法

修改所有节点的hosts文件,将127.0.0.1行配置注释

重启集群服务恢复正常;

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

转载于:https://my.oschina.net/u/4016761/blog/2878603

你可能感兴趣的文章
我的友情链接
查看>>
虚拟化--042 vsphere Vapp&resource pool内存和cpu资源参数详细介绍
查看>>
通过ajax访问远程天气预报服务
查看>>
我的友情链接
查看>>
CA服务器安装
查看>>
nat 地址协议转换
查看>>
在 Kubernetes 环境中 debug Java 程序
查看>>
记录Java Double类型的数值相加/相减出现精度误差的问题
查看>>
Mysql主从配置,实现读写分离
查看>>
【Nginx探究系列一】Nginx初学指南(初学者篇)
查看>>
Http常见状态码
查看>>
Confluence 6 编辑一个空间的配色方案
查看>>
Presto Oracle Plugin
查看>>
shell笔记
查看>>
通过案例学调优之--和 LOG BUFFER 相关的主要 Latch
查看>>
OpenCV3.1 xfeatures2d::SIFT 使用
查看>>
[spring-framework] 定时器配置和使用(补充篇)
查看>>
JAVA 知识体系
查看>>
Silverlight 简介
查看>>
我的友情链接
查看>>