首页 » 网站推广 » phplanmudigui技巧_灯火通明未来电力输送故障容错在现代电网中的关键角色

phplanmudigui技巧_灯火通明未来电力输送故障容错在现代电网中的关键角色

duote123 2024-11-19 0

扫一扫用手机浏览

文章目录 [+]

| 梦书君

编辑 | 梦书君

phplanmudigui技巧_灯火通明未来电力输送故障容错在现代电网中的关键角色

序言

在当代超级打算时期,打算节点网格已成为连接遍布环球的分布式打算机或资源的范例手段,用于打算和分布式存储。
大多数组织利用最新技能来构建网格。
科学和工程中的繁芜问题须要永劫光运行,因此对其进行抵抗底层硬件和根本举动步伐故障的处理变得非常主要。
网格打算系统用于实行须要更永劫光的运用程序。
在并行运用程序中,如果碰着任何节点故障,则打算无法完成。
因此故障容错已成为必需品。

phplanmudigui技巧_灯火通明未来电力输送故障容错在现代电网中的关键角色
(图片来自网络侵删)

自动故障处理

故障容错技能常日在效率和节点可靠性之间做出妥协,以便在故障存在的情形下完成打算。
目标常日是保持效率,希望故障会较少发生。
然而只管网格的打算资源增加了,但其动态行为使得环境不可预测且随意马虎发生故障。
当今并行运用程序面临的紧张障碍之一是适当处理网格环境中发生的故障。

大多数运用程序开拓职员不理解网格环境中可能发生的不同类型的故障。
理解和处理故障对付运用程序开拓职员来说是一种不必要的包袱,由于他们已经忙于开拓繁芜的分布式运用程序。
因此网格中间件的自动故障处理是必要的。

这种策略使运用程序用户对此功能无感知。
这将使不同的数据密集型网格运用程序能够实现容错,而无需每个运用程序支付额外的用度。

看门狗定时器算法是嵌入式系统中常用的一种方法,已被用于在集群和网格环境中引入容错。
详细谈论了在集议论况中利用类似看门狗定时器的策略的履行细节。
这种方法须要修正运用程序。
此方法随后进一步发展,网络程序状态以便在适当的韶光启动程序。
该技能许可纵然在节点故障的情形下也能实行永劫光运行的并行运用程序。

在我们的事情中,利用了看门狗定时器方法来处理硬件和软件故障。
这种方法的履行帮助我们检测节点故障。
然而,对付并行打算性能运用程序来说,这种策略可能是昂贵的,并且并不是每次都可能实现。
希望在检测到故障后,在故障节点上运行的运用程序应连续在康健节点上运行。

策略是早年次保存的数据开始在新添加的节点上规复运用程序。
在这种方法中,须要修正并行运用程序以网络中间步骤的状态。
此策略可以并入运用程序本身。
然而,这可能增加运用程序的繁芜性并降落运用程序的运行速率。

因此永劫光运行的运用程序无需从头开始启动,这常日是非常昂贵的。
此任务由主节点实行,我们假设此节点具有非常高的可靠性。
由于集群和网格层的中间件实现不同,因此开拓了不同的运用程序集。

通过利用不同的运用程序集,在集群和网格层的中间件上网络并行运用程序的状态,被称为“Sanchita”故障容错技能。
该技能有助于处理集群和网格环境中不同类型的故障,以完成打算任务并实现故障容错。
这些运用程序被集成在一起,利用户无感知。

浩瀚关于分布式并行系统中容错机制的研究已经展开。
这些事情的重点在于供应单一故障规复机制。
已经检测出不同类型的故障,被称为故障检测和故障规复机制已经运用。
在并行程序的视角下,有供应商实现的用于在某些商业并行打算机上运行MPI运用程序的检讨点、重启技能。

台湾中正大学的MPI检讨点、重启实现利用折衷和非折衷策略相结合来为MPI运用程序做检讨点。
它是建立在中正大学MPI实现之上,并利用Libtckpt作为后端检讨点程序。
一个本地守护进程折衷运行在同一节点上的进程的检讨点,而不同节点上的进程则利用记录的办法进行非折衷检讨点。

现有的商用集群检讨点MPI运用程序的系统存在一个局限性,即它们利用MPI库,这在大多数情形下紧张用作研究平台。
其次,检讨点、重启系统与特定的单进程检讨点紧密耦合。
由于单进程检讨点常日仅支持有限数量的平台,限定了该技能可以运用的系统范围。
对付商业操作系统的透明检讨点-重启机制进行了评估,该机制以同等的办法检讨点和重启多个进程。

该系统将内核级检讨点机制与稠浊用户级和内核级重启机制相结合,只管即便利用现有的操作系统接口和功能来实现透明的检讨点-重启。
关于资源故障方面的容错问题在中进行了磋商。
作者设计了一种用于打算网格中容错作业调度的策略。
该策略在网格信息做事(GIS)中掩护资源故障发生历史信息。

资源代理

每当资源代理有作业要调度时,它利用GIS中的资源故障发生历史信息,并根据这些信息在调度作业到不同趋向于故障可接管做事的资源时利用不同强度的检讨点和复制。
容错功能的目标是保持在系统内部故障引起的缺点的存不才连续供应预期做事,作者Avizienis对其进行了描述。

缺点被检测出来,并进行纠正,永久性故障被定位并移除,而系统连续供应可接管的做事。
通过Weissman的方法,以检讨点或复制的办法实现了SPMD运用程序的容错实行。
为了进行直接定量比较,假设了一个大略的检讨点模型,个中每个SPMD任务在一组预定的迭代中将其数据域的部分保存到磁盘上。

在Abawajy等人的定义中,资源被视为任何必须由底层实现进行调度、分配或掌握,以确保进程之间没有冲突利用的能力。
网格系统的调度策略可以分为空间共享和韶光共享。
还可以将这两种类型的策略结合起来,设计成稠浊策略来进行在线调度。
Tuong设计了一个框架,它可以将容错技能轻松集成到基于工具的网格运用程序中。

利用增加了容错能力的编程工具,他们展示了如何编写可以容忍崩溃故障的运用程序。
一个容错做事被设计成可以模块化地集成到分布式打算系统、工具或运用程序中。
该做事利用基于不可靠故障探测器的众所周知的技能来检测和报告组件故障,同时许可用户在报告及时性和误报率之间进行权衡。

Liang等人描述了从用户视角出发的网格方法,并根据线程状态捕获机制、非常处理方法和移动代理技能来考虑网格故障的性子。
Globus已成为网格打算的事实标准。
Globus工具包包括一组工具和库,用于支持网格运用程序。

网格系统中的容错方法常日通过检讨点规复和作业复制实现,这在J.B Weissman和Womack、Abawajy和Townend中有描述,这些方法创建运行作业的副本,希望至少有一个成功完胜利课。

B.Weissman和Womack引入了一种用于分布式系统的调度技能,该系统由于远程站点数量不敷而导致作业延迟增加。
在资源不敷的情形下调度作业实现了网格环境中的容错。
该方法在实行开始之前至少须要一个站点志愿运行副本。

Townend等人将作业副本提交到不同的站点,返回结果的校验和。
从各个站点收到的校验和然后进行比较,以确保多数结果相同,从而避免来自恶意资源的结果,这会延迟结果的检索,直到达到多数结果。
因此,延迟可能不仅来自故障,还可能来自验证开销。

然而,大多数由Abawajy、Dandamudi、Weissman和Womack提到的任务级容错技能试图在主机崩溃事宜中在网格中替代资源上重启作业。
因此,有必要通过改进站点级的故障处理来补充这些方法,特殊是在集群打算环境中。

在LinuxHA集群项目中,LinuxHA是一种利用数据复制作为紧张技能构建高可用性Linux集群的工具。
然而,LinuxHA仅为平面构造集群供应心跳和故障转移机制,这不易支持大多数作业站点常用的Beowulf架构。
OSCAR是一个用于支配和管理Beowulf集群的软件堆栈。

集群安装和管理

该工具包包括一个GUI,简化了集群安装和管理。
然而,Beowulf架构的一个不利成分是单点故障。
当单个主节点发生故障时,全体集群可能完备崩溃。
因此,有必要改进集群设计的高可用性方面。
最近发布的HA-OSCAR软件堆栈是一项在这方面取得进展的努力。
HA-OSCAR处理主节点的可用性和故障问题,采取多头故障转移架构和做事级别容错机制。

PBS和Condor是广泛用于集群社区的资源管理软件。
虽然Condor作业管理器有一个HA办理方案,但PBS作业管理器缺少这样的办理方案。
Condor Central Manager的故障会导致无法匹配新的作业并对有关作业状态和利用统计的查询作出相应。

Condor试图通过拥有多个CM和一个高可用性守护进程来肃清单点故障,后者监视它们并确保它们中的一个始终处于活动状态。
类似地,HA-OSCAR的自愈核心监视PBS做事器以及其他关键的网格做事,以确保在发生任何故障时保持高可用性。

关于故障容错设计的评估和通过仿照、实验或两者结合的办法进行。
可靠性预测系统与无容错的系统进行了比较。
物理参数、故障检测和规复和算法被用作天生可靠性预测的参数。
当规复过程中涌现性能降落时,须要为各种性能水平天生可靠性预测。

当可靠性包括对要容忍的最小故障数量的规定时,须要进行不同的评估,无论故障在系统中的哪个部分发生。
Foster和lamnitchi、Foster等人和Lorenzo等人中描述的故障容错技能每每会导致性能降落,由于须要重新分配处于优雅退化模式的作业的开销。

优雅可退化的系统是指用户除了可能看到系统功能减少之外,不会看到缺点。
目前构建可靠系统的实践不敷以有效地将优雅退化构建到任何系统中。

在具有自动重新配置机制的系统中,优雅退化变得相称随意马虎实现。
在检测到每个缺点后,会进行一次新的系统重新配置,以利用剩余的系统资源得到最大功能,从而得到仍旧可以运行的系统,只管总体效用较低。

硬件定时器

看门狗定时器是一种打算机硬件定时器,如果主程序由于故障未相应,则会触发系统复位。
其目的是将系统从挂起状态规复到正常运行。
常日利用看门狗定时器在嵌入式系统中,看门狗定时器常日是微掌握器的内置单元,用于产生软件中断。

这个定时器可以让系统在主程序不相应时进行重启。
有时,看门狗定时器还会保存调试信息到持久性媒介上,以便于调试造成故障的问题。
在许多串行运用程序中,看门狗定时器被用作一种容错技能。

常日集群和网格环境中须要容错技能,由于现在运行的大型运用程序须要处理各种故障。
单个节点的故障可能导致实行延迟长达数天,从而影响开拓进度。
在这篇文章中,描述了两种容错技能。
这些技能在运用程序和集群、网格环境的中间件层中实现。
两种技能,即看门狗定时器和Sanchita故障容错技能,都对处理故障起到了帮助浸染。

然而,对付看门狗定时器算法,须要修正并行运用程序,以便在特定时间间隔内获取打算的中间步骤的状态。
这对运用程序开拓者来说是一个包袱。
因此,为了战胜这个问题,实现了Sanchita FT技能。

在这种技能中,运行作业的状态被网络在中心节点,并存储了中间结果。
由于节点故障导致的未完成任务会在另一个节点上通过利用存储在文件中的最新打算数据进行规复。
因此运用程序的实行韶光可能会延长,但是通过在另一个节点上利用最新数据来规复任务,实行会顺利完成,从而实现了系统的优雅退化。
总体而言,可靠性将会提高,这对付实行许多繁芜程序是必要的。

总结

总结来说对付现今的集群和网格环境,容错技能是必要的,由于现在的大型运用程序须要处理各种故障。
两种描述的容错技能在实践中都起到了一定的浸染,但须要权衡利弊并根据详细情形选择得当的方法。
对付未来的研究和发展,须要进一步改进容错机制,以适应不断发展的打算环境和运用需求。

标签:

相关文章

DLL9路虎,豪华SUV市场的璀璨明珠

随着我国经济的快速发展和人民生活水平的不断提高,豪华SUV市场逐渐成为汽车行业的新宠。在众多豪华SUV品牌中,DLL9路虎凭借其卓...

网站推广 2024-12-28 阅读0 评论0

DLLC传参在软件开发中的应用与优势

随着计算机技术的飞速发展,软件工程在我国得到了广泛应用。在软件开发的各个阶段,如何提高代码质量、降低开发成本、提升开发效率,已成为...

网站推广 2024-12-28 阅读0 评论0

自组织协议栈,未来网络通信的基石

随着互联网技术的飞速发展,网络通信已成为人们生活中不可或缺的一部分。传统的网络通信方式存在着诸多弊端,如网络延迟、资源浪费、安全性...

网站推广 2024-12-28 阅读0 评论0

色彩搭配的艺术,探寻色彩语言的魅力

色彩,是视觉艺术中最具表现力的元素之一。色彩搭配,作为一种独特的语言,不仅能够传递情感,还能展现个性。在日常生活中,我们无时无刻不...

网站推广 2024-12-28 阅读0 评论0