从作业调度和任务分配控制系统的能量消耗是系统级能耗优化的关键技术之一。
动态电源管理(DPM)是一种根据工作负载变化,选择性地设置系统部件到低能耗状态或关闭部分系统部件,以最小的活动部件数目或最小的部件能耗来提供系统所需服务和性能级别的方法。该方法最早被应用于单机系统中。在机群中则表现为关闭或休眠暂时不用的节点或设备。由于动态电源管理需按照系统负载变化适时采用。因此,可将其与调度系统相结合。目前在高性能计算机系统中多与作业调度系统结合使用。
广义上讲,动态电源管理可以在三个级别上实施,分别是CPU级、单机系统级和机群级。CPU级为动态电压频率调节方法,单机系统级的动态电源管理策略是指对系统部件能耗状态转换时机和选择何种状态做出决策,主要分为超时策略、基于预测的启发式策略和基于随机过程的优化策略。在机群系统级,通过动态电源管理降低能耗的基本思想是粗粒度地调节处于活动状态的服务器数量,即关闭或休眠系统中某些空闲的节点,以适应变化的系统需求。
DPM技术实施需要一定的前提。首先,系统中的工作负载是不断变化的,这样才能存在资源组件的空闲期,将其关闭或转为低能耗状态;其次,工作负载的起伏变化是可以预测的,即能决定何时改变设备状态。
动态电压频率调节(DVFS)从广义上说是一种CPU级的动态电源管理方法。目前的大多数处理器都支持动态电压调节,该方法被普遍运用在实时系统中。DVFS允许处理器在运行时动态改变速度和电压,这样可以使运行周期扩展到空闲时间,从而节约能源。因为CPU速度和能耗之间的关系是非线性的,作业运行时可以通过将运行周期分散到空闲周期,而不采用先让CPU全速运行,之后闲置的方式。处理器以较低的速度运行时消耗较少的电能。因此,通过使任务运行时降低电压和频率来降低能耗是可行的。
松弛时间(slack time)指在实时系统中前一个操作在截止期之前完成所剩的时间,此时可以采用DVFS来节能。越多松弛时间可以用于频率和电压调节以节能,则用于容错的松弛时间就会越少。这样可能导致可靠性降低,并且有时会引起延迟。因此,各种反馈控制技术被采用。(www.daowen.com)
在机群作业调度系统中,传统调度算法的评价指标主要集中在性能方面,包括:资源利用率、吞吐率、作业平均响应时间等。由于能耗问题日趋明显,基于原有算法研究能效感知的调度算法越来越多。目前对能效感知的调度算法的研究呈现多角度的趋势。从任务模型来看,有独立任务、树型任务和基于有向无环图(DAG,Directed Acyclic Graph)模型的任务;从适用环境来看,有网格调度和机群作业调度。近年来,随着机群能耗问题的凸显,研究者开始从调度算法入手研究降低系统能耗的方案。主要是通过一般调度算法中加入能耗计算以及能耗控制的方法来实现任务执行过程中的能耗优化。
从冷却角度研究热量感知或温度感知的调度算法也逐渐增多。高性能计算机系统中的电能消耗表现在系统设备和冷却设备两个方面。对于一个大型数据中心,每年的能耗成本高达几百万美元,而其中近一半是冷却成本。由于机群系统大多采用机房空调系统(Computer Room Air Conditioning,CRAC)进行冷却。图9-2(见彩插)显示了系统中具有不同状态节点的示意图。由于负载分布的不均匀、异构硬件特点、基础设施的分布不均匀(即交换机、存储、备份设备等在系统中位置的多变性)以及其他的一些因素,热区问题是不可避免的。机房过热实际上是指“局部过热”,即形成了相对集中的发热量过大机柜形成的过热区域。
图9-2 节点状态示意图
系统布局图中可以看到有热区出现。为解决“热区”(hot spot)问题,除了很多基础架构级别的诸如冷却系统布局等方法外,商业资源管理和调度系统LSF(Load Sharing Facility)提出了按照节点所在的空间位置选择合适的节点,使热量聚集最小化。负载管理系统按照事先收集到的应用程序的能耗数据,分配时优先使用最冷的节点。在很多情况下,关于能耗的数据不能事先获得。针对冷却成本增加,温度感知的负载分配策略可以降低冷却成本。通过探究热量传递的物理特点,从系统热力学角进行分析,然后依据其冷却成本对各服务器赋予优先级。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。