上传者: weixin_38731123
|
上传时间:2024/6/23 5:50:44
|
文件大小:254KB
|
文件类型:PDF
提高集群系统稳定性的自动化管理方法
为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.
本软件ID:15434615