本文针对大型商业银行数据中央IT设备硬件级监控技能进行磋商,利用以信息流的来源和去向为维度的二维象限法,对监控观点进行了四象限划分,提出了带内硬件监控和带外硬件监控的观点;同时,浅析了业界主流的各种监控技能,并对各技能的适用场景进行了比拟;以监控观点为辅导,以监控技能为要素,提出了构建面向大型商业银行数据中央的监控办理方案的配置运用策略。
一、数据中央IT硬件运维的寻衅
大型商业银行数据中央支配的IT设备数量动辄数以千计。由于设备数量多、硬件架构繁芜,长期生产运行过程中IT设备硬件故障难以避免,硬盘、板卡和电源等硬件告警事宜频发,严重影响了生产的安全运行。数据中央的IT硬件运维面临着严厉的寻衅。

目前,IT硬件运维业已成为数据中央亟待办理的痛点。以中国农业银行(以下简称“农行”)数据中央为例,该数据中央的机房支配了IT设备数千台套。设备类型繁多,个中包含:主机、小型机、PC做事器、刀片做事器、SAN存储、NAS存储、带库、负载均衡、网络干系设备和其他类型设备等,个中PC做事器占比较大。同时,设备品牌、型号繁多,共涉及品牌数十个,型号数百种。经统计,一年内发生的确定性硬件告警次数高达1000多起。
农行数据中央的现有IT硬件监控手段是人工巡检。值班职员每天以一定频度检讨每台设备的硬件运行情形,检讨手段包括:看指示灯、感想熏染机箱温度和听有无杂音等。值班职员的巡检频度为几小时一次,事情相称繁重,且效率低下。以人工巡检为手段的IT硬件监控存在如下毛病:
(1)相应韶光较长,需小时级的韶光方能创造某告警,还不包括后续人工报告的韶光。
(2)准确度不高,告警定位不准确,误报、漏报的可能性较大。
(3)逐个检讨设备状态,对值班职员的体力是个巨大的寻衅。
(4)可扩展性差,对付飞速发展的商业银行数据中央,将来面对万平米级的机房面积和上万数量级的设备,现有监控手段将会捉襟见肘。
二、IT硬件监控的观点与分类
监控实质上是一个信息流动的过程,监控工具被关注的信息点,我们称为监控指标。本文考试测验从该信息流的来源和去向的二元判断维度,对IT监控进行划分和观点上的定义。
以信息流的来源维度,IT监控可划分为系统级监控和硬件级监控。监控指标是用来描述OS、中间件或运用状况的监控,我们称之为系统级监控。监控指标是用来描述IT设备硬件状况的监控,我们称之为硬件级监控。必须指出,两类监控的判断标准是信息的来源,而不是信息的载体和渠道。某些可在OS层获取的信息,如果传达的是硬件的状况,仍被认为是硬件监控指标,下文会有进一步论述。系统级监控的常见监控指标包括:各种运用的运行状态及告警信息、各种中间件的运行状态及告警信息、数据库运行状态及告警信息和OS层的软件级告警信息。硬件级监控常见监控指标包括:CPU状况、内存状况、硬盘状况、机箱温度、电源状况(电流、功率及告警信息)和风扇状况等。
以信息流的去向维度,IT监控可划分为带内监控和带外监控。通过标准网口传输监控数据的监控,称为“带内监控”。通过专用的硬件管理接口传输监控数据的监控,称为“带外监控”。带内监控通过标准网口传输,不须要独特的硬件支持,常日不可独立于OS进行。带外监控通过分外定义的硬件接口规格传输数据,需独特的硬件支持,一样平常需配置单独的管理口IP,可实现不依赖OS乃至BIOS的独立数据传输。
利用二维象限法,通过两个划分维度可以将监控划分为一个四象限观点空间,如图1所示。
IT硬件监控根据实现路子可分为两类:带内硬件监控和带外硬件监控。通过带内传输监控数据的硬件监控,称为“带内硬件监控”;通过带外传输监控数据的硬件监控,称为“带外硬件监控”。下面将以上文提出的观点族作为线索,论述各种监控技能和监控办理方案。
三、IT硬件监控技能浅析
根据上述的四象限监控空间模型,无论是系统级监控还是硬件级监控都有带内和带外的实现办法,这在技能上确实是可行的,这是由于OS与IT硬件具备特有的交互性,如图2所示。
我们知道,OS作为直接运行在硬件裸机上的最基本的系统软件,是IT硬件的管家,它可以隐蔽详细硬件细节同时向上供应抽象化、通用化的硬件接口。简而言之,许多硬件的状况都能在OS层获取,而硬件的故障也多能反响为OS层的某些告警,从而通过带内传输出去。以此类推,带外技能也支持从操作系统中得到一些信息。
我们从技能层面对IT硬件监控进行解析,将能实现硬件监控的技能分为两类:带内硬件监控技能和带外硬件监控技能,两类技能分别通过不同路子获取来自硬件的信息,如图3所示。
带内硬件监控技能的实现事理是:利用OS与硬件的交互性,对硬件信息在OS层的某些映射进行过滤、关联剖析和判断,形成监控数据,全体过程的数据通过带内进行传输。该事理仅是详细技能的概括性阐述,各种监控技能的详细实现千差万别。这里说的OS层映射,既包括日志、文件和进程这样的信息载体,也包括掌握台、API这样的交互接口;过滤、关联剖析和判断等事情可能发生在被监控设备的OS中,也可能是传输到监控设备后进行。带外硬件监控技能的实现事理是:定义专门的管理接口标准,在分外的硬件部件的支持下,通过带外传输监控数据。
下面将分类先容各种监控技能,并对各自的适用场景进行剖析。
1.带内硬件监控技能
根据是否需在被监控机支配代理软件(插件),带内硬件监控技能又可分为Agent监控和非Agent监控两大类。
(1)Agent监控
顾名思义,Agent监控是指在通过在被监控端OS上支配代理软件(插件),实现数据采集的监控技能,是一种功能较为强大、效率较高、可定制性较高且对监控端依赖较小的监控手段。Agent运行在被监控端,需占用一定的系统资源(CPU、内存等)来运行。Agent可以对数据进行剖析和汇总,并经压缩后进行实时传输,在一定程度上解放了监控端。其余,Agent可定制性较高,一样平常支持二次开拓,可监控用户定制的监控指标。
Agent监控比较适用的场景有:一是需采集的数据量较大且实时性较强的监控;二是被监控端系统资源充足而监控端资源相对紧张的监控;三是网络带宽较为紧张的监控;四是监控指标定制化程度较高的监控。
(2)非Agent监控
非Agent监控是指不依赖支配在被监控真个软件(插件),而通过一些标准的协议或其他路子,实现监控数据采集的诸多监控技能的统称。相对而言,非Agent监控具有对被监控机影响小、支配大略、网络带宽占用率较高和不可二次开拓等特点。
①SNMP监控
SNMP即大略网络管理协议。目前,险些所有厂商都已实现了对SNMP的支持,SNMP已成为一个统一的、跨平台的公用通信协议。SNMP监控又可分为主动型监控和被动型监控两类:主动型监控是指通过Server发送状态要求报文,而由Client相应并将干系状态信息反馈给Server的监控办法;被动型监控,又称Trap监控,当某些须要被关注的事宜发生时,Client可以向Server发送Trap报文,以奉告Server该事宜。
SNMP监控的适用范围非常广泛,所有支持SNMP协议的举动步伐皆可利用。主动型监控和Trap监控可灵巧配置,以适用于不同场景。
②SSH/RSH/Telnet/FTP监控
该技能一样平常是通过TCP/IP协议族里的协议连接到被监控机,通过协议功能或运行脚本并传输运行结果到监控端实现监控。
SSH/RSH/Telnet/FTP监控的监控办法大略直接,随意马虎支配,而监控结果呈现的信息相对原始,可监控的指标也有限。
③Syslog过滤监控
Syslog是一种用来在TCP/IP的网络中通报系统日志的标准。该协议通过Syslog进程记录系统的干系事宜,并供应了一个通报办法,许可设备通过网络把事宜信息通报给监控端。利用Syslog协议实现硬件监控,难点不在于支配,而在于设置过滤策略提取出跟硬件干系的事宜和问题。
Syslog过滤监控的适用场景:被监控机开通了Syslog协议和端口,拥有网络准入,且监控机资源相对充足的环境。
④HMC监控
HMC供应了一套标准的用户接口来配置和管理小型机上的分区。配备HMC的小型机也可以通过HMC进行硬件监控。在HMC上,可通过编写脚本,实现对硬件状态进行轮询;同时支持设置SNMP Trap,实时发送须要被关注的事宜。
HMC监控实质上不是独立于其他监控技能的独立技能。实在用处景为配置了HMC的小型机。
⑤WMI监控
WMI是一项Windows的核心管理技能,供应了一个通过操作系统、网络和企业环境去管理本地或远程打算机的统一接口集。利用WMI,我们可以访问、配置、管理和监视险些所有的Windows资源。通过WMI,运用或脚本避免了直接访问操作系统各个部分的底层API,从而大大降落了实现难度。
WMI监控的适用场景:操作系统是Windows的设备。
⑥SMI-S监控
SMI-S即存储管理接口标准,是一种专门用来监控和管理存储设备的标准。SMI-S的主旨是,提高存储区域网络(SAN)中异构的存储设备的互操作性,在存储设备和管理系统之间供应标准化的通信办法,使存储管理实现厂商无关性,提高存储管理系统能够实现鉴别、分类、监控和掌握物理及逻辑资源的能力。
SMI-S监控的适用场景:支持SMI-S的存储设备。
2.带外硬件监控技能
下面先容业界盛行的带外硬件监控技能—IPMI监控。IPMI的主旨在于供应一种硬件管理接口标准,通过该标准用户可以在不依赖OS乃至BIOS的情形下配置管理做事器并监视做事器的物理特色。
IPMI的核心事情部件是一个专用芯片——基板管理掌握器(BMC),它常日是一个安装在做事器主板上的独立板卡(有的主板也可直接支持)。IPMI规范定义了一套指令,在事情时,所有的IPMI功能都是通过向BMC发送指令完成的,如图4所示。
基板管理掌握器可通过传感器、监测电路网络信息,并将传感器信息存储到本地的传感器数据记录(SDR)里,将系统事宜存储到本地的系统事宜日志(SEL)中,以便日后查询。对付吸收到的严重事宜,BMC将发送警报信息和故障日志记录给监控端。其余,IPMI2.0供应的SOL(LAN上串行)功能,更可以使得系统与串口之间的对话由BMC重定向到网络上。这样一来,Windows的紧急事宜管理掌握台(EMS)和Linux的串行掌握台,均可以通过IPMI来访问。这便是IPMI可以同时获取硬件层信息和OS层信息的缘故原由。
IPMI当前的适用范围紧张是X86构架的机器。很多品牌的机器自带的监控管理接口也支持IPMI功能,详细要看设备型号是否为支持IPMI的机型。
3.带内硬件监控与带外硬件监控的比拟
带内、带外硬件监控技能的差异紧张表示在以下五个方面。
(1)监控指标:带内硬件监控技能是通过OS与硬件的交互性来得到硬件情形的,它可以监控的指标较多;带外硬件监控技能监控的指标相对少但直不雅观性更强。
(2)运行办法:带内硬件监控技能需在OS层及以上运行;带外硬件监控技能依赖于分外的硬件模块,可以独立于CPU、OS乃至BOIS运行,纵然系统未加载或宕机,依然可以事情。
(3)资源占用情形:带内硬件监控技能需占用或多或少的系统、网络资源;带外硬件监控技能占用的是独立的硬件模块和带外管理网络。
(4)支配办法:带内硬件监控的支配险些都在软件层面;带外硬件监控的支配须要进行物理布线等事情。
(5)适用范围:带内硬件监控技能多样,适用范围广,可涵盖险些所有设备类型;带外硬件监控技能(IPMI)目前只支持X86构架的设备。
四、大型数据中央硬件监控技能的配置运用
大型数据中央每每支配着数以千计的IT设备,设备类型、品牌、型号分布广泛。各种监控技能各有其特点和适用场景,并且不同于已相对完善的运用和中间件监控,IT硬件监控没有OS的统一界面及其生态环境下一系列标准协议族的支持,IT硬件的监控具有其固有的繁芜性。因此,要想有效实现覆盖所有IT设备的统一监控平台系统,必须根据设备类型、利用场景合理配置各种监控技能。
根据各种监控技能特点,结合大型数据中央的运维履历,提出IT设备硬件监控技能的配置运用策略如下。
(1)对付PC做事器:以IPMI带外监控做为根本监控手段,获取其支持监控的基本硬件状态信息;同时可采取各带内监控技能为赞助,获取更全面的硬件状态信息。
(2)对付主机:IBM主机都配备HMC,可采取HMC监控。
(3)对付小型机:配有HMC的小型机采取HMC监控;未配置HMC的小型机在支持干系标准协议且路由可达的情形下可采取SNMP、Syslog、SSH/RSH/Telnet/FTP监控等。
(4)对付存储:以SMI-S监控(可辅以SNMPTrap)为监控手段。
(5)对付负载均衡、交流机:以SNMP为监控手段。其余,对付高度定制化、功能及性能哀求较高的监控需求,可以考虑在权限许可且资源富余IT设备上支配Agent进行监控。对付已经装有Agent的IT设备,可以考虑接入Agent数据进行监控。
五、监控效果实测评估
以上文提出的监控技能配置运用策略为辅导,我们搭建了IT硬件监控原型测试系统,对可行性和监控效果进行了测试,从全面性、实时性及准确性等方面进行了评估。
原型系统测试中,我们择选了17个不同型号的IT设备各1台作为测试标的,待测设备型号均为常见型号(所属设备数量占设备总数的较大比例),且只管即便覆盖不同的设备类型、品牌和购置年代,较能代表数据中央IT设备基本情形。设备类型包括:PC做事器、小型机、刀片做事器、负载均衡、带库和存储等;设备品牌包括:华为、曙光、IBM、HP、DELL、F5、昆腾和Netapp等;购置年代从2007年至2014年间。设备列表见表1。
通过原型系统的实际测试,对待测试IT设备均实现了IT硬件级监控,可自动创造IT硬件级故障并发出告警信息,详述如下。
1.全面性评估
原型监控系统可检测各设备类型的硬件信息指标共计55个,包括但不限于以下指标:面板灯、CPU、内存、硬盘、主板、电源、风扇、功耗、温度、机箱入侵、日志、RAID卡、CMOS电池、IO插槽、分区状态和DVD等。每台设备的详细监控指标视设备类型及设备型号有所不同。
原型监控系统运行1个月,对17台待测设备检测到的故障告警进行统计,自动识别率达到100%,可覆盖所有IT硬件级告警。
2.实时性及准确性评估
由于自然发生的硬件告警难于追踪且不具有范例性,又由于待测IT设备均是开拓、测试类设备,以是我们选择人工触发部分告警(或事宜)的办法,评估监控的实时性和准确性。我们选择人工触发6组告警(或事宜),包括:单路电源掉电;仿照温度非常;机箱入侵;风扇转速的阈值告警;带库I/E槽插入陌生磁带;设备开机。触发办法见表2。
(1)实时性评估,是通过测试从触发告警到监控系统检测到告警的韶光来实现的。测试结果见表3。可见,监控系统可在分钟级的韶光内检测到硬件告警。比较传统人工巡检,IT硬件监控技能可以大大缩短硬件故障创造和处置韶光。
(2)准确性评估,是通过查阅监控系统对告警的描述与实际情形是否吻合来实现的。测试结果见表4。可见,监控系统可准确描述硬件告警信息,指示出告警部件(或指标),这将提高维修的针对性和准确性,大大提升IT硬件运维效率。
本文首先从观点上提出了基于四象限观点划分的带内硬件监控和带外硬件监控的定义;浅析了业界盛行的各种监控技能及实在用处景,提出了构建面向大型商业银行数据中央的监控办理方案的配置运用策略。以该策略为辅导,通过搭建原型监控系统,对监控效果进行了实际测试,从监控的全面性、实时性及准确性等方面进行了评估。由此可见,合理配置后的硬件监控方案,可大规模利用于商业银行数据中央的IT硬件运维事情,从而大大地提高IT硬件运维效率,提升了监控效果。
转载地址:http://www.cfc365.com/mobile/index.php/Index/show/id/14873.html