服务热线:
400-028-3350
您的位置: 首页 > 乐鱼网站下载 > 公司新闻

浅谈数据中心机房动力环境监控系统模块设计与优化

来源:乐鱼体育网页版登录入口    发布时间:2024-03-13 23:30:30   浏览量:21 次

  判断开关的通断状态;当监测的开关状态与设定默认状态不一致时,监控主系统发出报警。②防雷监测:通过监测防雷器的遥信触点,实时监测防雷器状态;当监测的防雷器状态与设定默认状态不一致时,监控主系统发出报警。③新风排烟监控:通过在新风和排烟管道中安装压差开关检测压差信号,监测机房内新风机和排烟机的运作时的状态,可远程控制新风机的启停。④防入侵监测:通过在机房内安装红外探头以监测机房内人员移动状态;当红外探测器的状态异常时,系统发出报警。⑤消防监测:通过采集消防控制主机报警输出点的信号,实时监测机房内各分区的消防状态;若发生报警,系统就自动切换到相应的监控界面,火警状态图标变红且闪烁显示,同时产生报警事件并记录存储。

  硬件设备的供电需双路UPS电源,以确保供电可靠性,满足24h不间断提供服务的要求;而且重要的硬件设备要求主从配置,如动环服务器具备双机热备功能,利用“双监控系统+双数据库”模式,保证系统的不间断运行。

  动环监控系统硬件设备的组网要求A、B双网运行设备逐级汇接模式,网络设备由POE交换机、接入交换机、汇聚交换机、核心交换机组成。POE交换机负责视频摄像机的供电和数据传输;接入交换机使用二层有VLAN功能的交换机,负责采集单元中数据收敛;汇聚交换机使用三层交换机,用于汇聚POE交换机数据,避免二层网络过大导致环路,也减轻了核心交换机的数据负担。动环监控系统的网络拓扑结构如图2所示。图2网络拓扑结构图

  动力环境集中监控平台软件采用B/S结构,通过在机房中安装各种传感器及数据采集设备做底层数据采集,外厂家设备需提供通信接口及其开放的通信协议,进行数据“翻译”处理,通过机房监控平台集中监控,全中文、图形化;界面结构层次清晰,实时反映数据状态。集中监控平台能运行于中文Windows操作系统。动力环境集中监控平台软件采用模块化设计,可划分为采集层、处理层、管理层及展示层,如图3所示。其中,个人工作平台能提供动环监控主界面、告警事件列表、待办事项、告警等级统计、PUE实时曲线、基础设施分类饼状图等可自由选择的个性化定制界面。报表管理可根据机房管理原有报表格式生成详细的数据记录报表和数据分析报表,存储格式为Excel或PDF;数据存储时间需长于1年,且具有防篡改功能。软件交互界面中,动环监控模块可直观看到各个机房实时运行状态,设置机房名称、设备图标等超链接可直达各子界面,通过温湿度监测、门禁、视频监控、温度场、漏水监测、红外监测、消防监测等按钮可直达各分画面,并提供基于电子地图、实时曲线、饼状图、折线图、直方图等多形式数据展现方式,便于运维人员分析设备历史运行趋势,以判断设备状况。

  系统告警采取短信、电话、现场语音三种报警结合的方式,报警等级分为紧急、重要、一般三个层次,不同级别的报警采用不一样报警方式实现报警信息的发送。无论系统处于任何画面,都可自动提示告警,显示告警信息。当一个报警状态解除时,系统可自动发送相应的恢复短信,以便机房管理人员随时掌握相关动态。

  动环监控系统运行以来,出现过监控平台数据不刷新,监控平台电脑“假死”,采集数据不准确,系统告警漏报、误报、频发(告警信号抖动)及延迟报警问题。

  (1)监控平台数据不刷新。这种情况在实际运维工作中*常见,整个监控平台软件数据不刷新或系统中某设备数据不刷新,导致运维人没办法收到告警信息。

  (2)采集数据不准确。这种情况大多数表现在监控画面显示的数据与现场设备实际运行数据不符,若画面显示的数据超过告警的阈值就非常有可能造成系统误告警或不告警,影响设备的运行安全。如智能仪表部分测点值与系统显示值不一致或单位不同,将导致该设备失去监控。在冷热通道温度检验测试过程中,监控软件显示的数值超过告警上限阈值引发告警,而运维人员现场检查后并未超限,造成人力资源的浪费。

  (3)实时告警问题。动环监控系统告警漏报、误报、频发、延迟报警及告警信号抖动等问题是困扰数据中心运维工作人员的严重问题。数据中心运维值班人员7×24h应急值班,告警信息误报、频发将给人员造成很严重的身体伤害;而告警信息的漏报与延迟将导致设备发生故障时未能及时通知因此导致更严重的机房事故。

  ①告警漏报:告警漏报根本原因是告警级别设置过低或设备通信中断或设备信息采集故障等导致重要告警信息缺失,未能及时上报运维人员,从而错失重要告警信息,将导致严重后果。

  ②告警误报:告警误报是衡量动环监控系统可用性的重要指标,采集装置受到电磁干扰或周围环境改变、协议解析有误、采集装置故障、仪表故障、板卡端口故障等均会引起误报,如精密空调四周部署的漏水绳因灰尘或沙土等导致电阻变大从而引起误报。

  ③告警频发:告警频发类似于“信息轰炸”,可分为两种情况:一是同一告警信息频繁多次报送给运维人员,原因是当某一测点触发告警时,采集值在告警阈值附近来回波动;二是同一事件触发机房多个动力设备同时告警,如机房停电或闪停后恢复,各相应重要开关、电量仪、UPS、机柜PDU等多设备引起的“电话短信轰炸”。

  ④告警延迟:告警信息是否及时上报给运维人员是考验监控系统合不合格的重要指标之一,而上报时间应设置为用户可选项,如电力闪断立即恢复的情形,可设置一定延时;而重要信息应能在15s内完成上报。

  (1)监控平台数据不刷新问题的解决。运维人员需熟知动环监控系统架构和网络拓扑,从单点设备故障到网络故障进行排除,对重要设备必要时可优化系统结构或网络拓扑,对采集设备或装置进行冗余备份,或对重要监控对象通信采用A、B双网通信。

  (2)采集数据准确性问题的解决。检查智能仪表装置或第三方设备的通信协议是否准确,与原厂家技术上的支持核实设备协议文本正确性,如更换智能仪表未核对通信协议,将导致数据不准确或无法采集。检查通信故障,首先检查物理连接是不是真的存在问题,然后对通信配置进行检查,检查波特率、校验位、串口的设置等是否有一定的问题。检查采集装置或采集箱等设备、温湿度探测器等硬件自身是不是真的存在故障,排除设备硬件故障导致数据采集不准确的问题。

  (3)实时告警问题的优化。首先严控智能设备串接数量,避免串接设备数量过多引起数据上传缓慢,进而导致告警延迟。合理配置FSU扫描时间,通过调整动环设备扫描周期来缩短采集装置对各个测点的问询时间,以提高采集速度。其次合理选择设备测点,对重要测点做到合理选择和优化,避免扫描过多的测点造成采集器负担过重,进而影响采集效率。另外,运维人员应避免非重要数据的扫描占用过多资源,引起采集过慢。再者通过软件手段控制告警频发和非合理数据引发的告警,可增加告警回差屏蔽功能,数据采集值超出合理范围的,通过设置有效的阈值上下限,屏蔽此部分数据,消除误告警。电磁干扰在传输过程中产生的误告警,除在软件端进行相对有效门限屏蔽外,还可在传输线路上套装抗干扰磁环以减少干扰。*后采用人工智能等先进手段增加告警逻辑关系分析和对告警信息做到合理分类。如增加告警溯源功能,划分主次告警,确定告警产生设备的主从关系,进而对告警信息进行相对有效优化,以减少告警“信息轰炸”,同时不漏掉重要告警信息。

  通过数据中心动环监控系统,实现了对数据中心的门禁状态、水浸状态,烟雾状态,视频状态,环境状态,高低压配电状态,设备正常运行状态进行实时监测,并进行实时报警,保障数据中心正常运行,避免运行环境的失控导致配电设备正常运行故障,保证维护人员安全,延长设备常规使用的寿命,减少配电室粗放式管理导致成本过高。同时实现动环监控并对各用能耗能进行能效分析,帮助用户实现用能效率的优化。

  (1)展示当前数据中心总能耗,IT能耗,空调能耗,及其他能耗并且计算出当前数据中心实时PUE值,通过仪表盘形式直观展示。

  (2)选择查看数据中心的中低压配电系统主接线图,并在一次图显示配电系统当前遥测、遥信数据和状态。实时监测各配电柜的电压、电流等电力参数,变电站的温湿度、烟感、水浸、门禁等环境情况。

  (3)电气接点温度实时监测,断路器触头、触臂、母排和线缆连接等位置安装无线测温传感器监测接点温度,便于提前发现温度异常导致的事故。

  (4)监测各变压器各项参数,包括负载率、频率、功率因数、三相不平衡度等,并且显示历时曲线图,数据实时变化。帮助用户直

  (5)电能质量在线监测,可以监测电流和电压谐波畸变率、电压暂升暂降暂中断等暂态事件记录、ITIC容忍曲线)系统采集UPS输入、输出端和旁路三相电压、电流、有功功率、功率因数频率,同时监测UPS温度、蓄电池电压、当前负载下的剩余时间等数据。

  (7)展示单体电池电压、内阻和温度,预测电池带载时剩余时间,每节电池数据均可设为异常报警,及时有效地发现蓄电池异常。

  (8)展示精密配电柜内进线和馈线回路电气参数,包括电流电压功率电能以及开关状态,并可以对数据来进行报警设置和分级,数据取自精密配电柜测量模块。

  (9)展示智能小母线的始端箱和插接箱电气参数,包括电流电压、开关状态、插接点温度,并对数据来进行报警设置和分级。

  (10)通过平面图显示数据中心能源分布,设备分布情况,并显示设备能耗数据,点击平面图上设备能进入具体设备监控界面。

  (11)实时显示当前数据中心PUE值以及历史PUE曲线。并且显示各分项用能的用能情况及用能排行。监测各变压器运行及负载情况,给出本月变压器输出电能排行。

  (12)显示电能消耗日/月/年报表,并可对具体回路选择曲线图、饼图进行展示。对数据中心用电数据来进行同比、环比分析比较,查看用电趋势。

  (13)监测精密空调的回风温湿度,出回水温度,并可以设定精密空调的温湿度,达到更好的控制效果。

  (14)监测数据中心温湿度、开关门、水浸、烟雾、噪声、气体浓度状态等参数。曲线图直观明了,同时支持历史数据查询

  (15)通过列表显示各类报警事件数量,通过柱状图显示逐日报警数量,提供报警总数以及增长趋势。

  维管理功能,可针对数据中心各主要设备做巡检派工,消缺,抢修等维护工作。

  具有全电量测量、电能统计、电能质量分析及网络通讯等功能,可扩展多种功能模块。通常用于进线回路配电监测。

  实现进线自投自投、进线互投、母联自投自复、柴油备投、自适应备投、联切备投等19种切换方式;

  实现进线自投自投、进线互投、母联自投自复、柴油备投、自适应备投、联切备投等19种切换方式;

  既可以对负载进行开关控制,还可以输出0—10V调光信号对拥有相对应调光接口的灯具进行亮度调节,此外还可实现预设、场景功能。

  可通过区分按键短按长按并结合不同参数设置实现开关、调光、场景、数值发送等功能。

  可实现开关、调光、场景、数值发送等功能。和我司智能面板功能一致大多数都用在控制回路较多的区域。

  具有全电量测量、电能统计、电能质量分析及网络通讯等功能,可扩展多种功能模块。通常用于进线回路配电监测。

  一机多能,既可补谐波,又可兼补无功,可对2~51次谐波进行全补偿或特定次谐波进行补偿。

  动环监控系统在银行数据中心基础设施设备的运行维护中发挥及其重要的作用,在某些特定的程度上扮演了运维人员“眼耳鼻”的角色。动环监控系统的正常运行在于7×24h不间断服务和重要告警信息能及时通知相关运维人员。而动环监控系统稳定可靠正确运行的重点是系统架构、供电及组网的设计。在运维过程中,系统难免会出现一些问题,需不断总结经验、梳理出问题并进行优化改进。本文基于银行数据中心动环监控系统建设实际出发,对该系统来进行设计并实现,同时对运行出现的问题做到合理优化,结果证明该策略的可行性。

  【1】万立勇.数据中心机房动力环境监控系统模块设计及优化探究.[J].电工技术,2022(15):164-167.

  【2】李可,王甲甲.电力企业数据中心基础设施运行管理平台设计[J].数字技术与应用,2021(39):196-197.