如何构建 HBase 集群监控系统？-小白筆記-匯編語言學習筆記

2019独角兽企业重金招聘Python工程师标准>>>

公司有自己的监控系统，我们所要做的就是将 HBase 中我们关心的指标项发送到监控系统去，问题就转换为我们开发，采集并返回哪些 HBase 集群监控指标项。

HBase集群监控系统

HBase 集群监控指标

采集的监控数据主要包括以下几个方面：某台机器 OS 层面上的数据，例如 CPU、内存、磁盘、网络、load、网络流量等；某台 regionserver（或master）机器 jvm 的状态，例如关于线程的信息，GC 的次数和时间，内存使用状况，以及 ERROR、WARN、Fatal 事件出现的次数；regionserver（或 master）进程中的统计信息。

可以通过以下地址获取 HBase 提供的 JMX 信息的 web 页面

http://your_master:60010/jmx //所有的bean

OS 监控数据JMX web 页面的数据格式是json格式，信息很多！

HBase 中对于 OS 的监控数据，主要是 OperatingSystem 的对象来进行的，如下就是我提取出来的 JSON 信息，

{
"name" : "java.lang:type=OperatingSystem",
"modelerType" : "com.sun.management.UnixOperatingSystem",
"MaxFileDescriptorCount" : 1000000,
"OpenFileDescriptorCount" : 413,
"CommittedVirtualMemorySize" : 1892225024,
"FreePhysicalMemorySize" : 284946432,
"FreeSwapSpaceSize" : 535703552,
"ProcessCpuLoad" : 0.0016732901066722444,
"ProcessCpuTime" : 59306210000000,
"SystemCpuLoad" : 0.018197029910060655,
"TotalPhysicalMemorySize" : 16660848640,
"TotalSwapSpaceSize" : 536862720,
"AvailableProcessors" : 8,
"Arch" : "amd64",
"SystemLoadAverage" : 0.0,
"Name" : "Linux",
"Version" : "2.6.32-431.11.7.el6.ucloud.x86_64",
"ObjectName" : "java.lang:type=OperatingSystem"
}

其中比较重要的指标有

OpenFileDescriptorCount , FreePhysicalMemorySize , ProcessCpuLoad , SystemCpuLoad , AvailableProcessors , SystemLoadAverage

JVM 监控数据

Hbase 中对于 JVM 的监控数据，主要是 JvmMetrics 的对象来进行的，如下就是提取出来的 JSON 信息，欢迎点击链接加入群【Java并发编程交流组】：https://jq.qq.com/?_wv=1027&k=5jLmydM

{
"name" : "Hadoop:service=HBase,name=JvmMetrics",
"modelerType" : "JvmMetrics",
"tag.Context" : "jvm",
"tag.ProcessName" : "Master",
"tag.SessionId" : "",
"tag.Hostname" : "uhadoop-qrljqo-master2",
"MemNonHeapUsedM" : 53.846107,
"MemNonHeapCommittedM" : 85.84375,
"MemNonHeapMaxM" : 130.0,
"MemHeapUsedM" : 79.05823,
"MemHeapCommittedM" : 240.125,
"MemHeapMaxM" : 989.875,
"MemMaxM" : 989.875,
"GcCountParNew" : 15190,
"GcTimeMillisParNew" : 72300,
"GcCountConcurrentMarkSweep" : 2,
"GcTimeMillisConcurrentMarkSweep" : 319,
"GcCount" : 15192,
"GcTimeMillis" : 72619,
"ThreadsNew" : 0,
"ThreadsRunnable" : 21,
"ThreadsBlocked" : 0,
"ThreadsWaiting" : 144,
"ThreadsTimedWaiting" : 18,
"ThreadsTerminated" : 0,
"LogFatal" : 0,
"LogError" : 0,
"LogWarn" : 0,
"LogInfo" : 0
}

JvmMetrics 主要统计的信息包括：内存的使用状态信息；GC的统计信息；线程的统计信息；以及事件的统计信息。

内存的统计信息主要是：JVM 当前已经使用的 NonHeapMemory 的大小、以及配置的 NonHeapMemory 的大小；JVM 当前已经使用的 HeapMemory 的大小、以及配置的 HeapMemory 的大小； JVM 运行时的可以使用的最大的内存的大小。

GC 的统计较为简单，仅统计了进程在固定间隔内 GC 的次数和花费的总时间。

线程的统计，主要是统计进程内当前线程的处于 NEW 、RUNNABLE、BLOCKED、WAITING、TIMED_WAITING、TERMINATED 这六种状态下的线程数量。

对于事件的统计，主要统计固定时间间隔内的 Fatal、Error、Warn 以及 Info 的数量。(这块好像不怎么重要)

REGION SERVERS 健康

你也可以通过如下地址：

http://your_master:60010/jmx?qry=Hadoop:service=HBase,name=Master,sub=Server

获得到 Region Servers 健康值

{
"name" : "Hadoop:service=HBase,name=Master,sub=Server",
"modelerType" : "Master,sub=Server",
"tag.liveRegionServers" : "xxx",
"tag.deadRegionServers" : "",
"tag.zookeeperQuorum" : "xxx",
"tag.serverName" : "xxx2,60000,1495683310213",
"tag.clusterId" : "e5e044a3-ef9f-48f7-ba63-637376f5fa90",
"tag.isActiveMaster" : "true",
"tag.Context" : "master",
"tag.Hostname" : "xxx",
"masterActiveTime" : 1495683312239,
"masterStartTime" : 1495683310213,
"averageLoad" : 143.66666666666666,
"numRegionServers" : 3,
"numDeadRegionServers" : 0,
"clusterRequests" : 1297834323
}

从全部的 JSON 值中你会看到很多种 MemoryPool 值，比如 Par Eden Space 、CMS Perm Gen、Par Survivor Space、CMS Old Gen、Code Cache ，按需获取吧。MEMORYPOOL