2.4RAS

RAS 是与可靠性 (Reliability)、可用性 (Availability) 和可维护性 (Serviceability) 相关 的功能的首字母缩略词。

SPARC Enterprise M8000/M9000 服务器的 RAS 可对相应位置进行错误检查,并对错 误检查进行集中式监视和控制,从而最大限度地减少了系统停机时间。

另外,还可以使用群集软件或集中式管理软件来配置 SPARC Enterprise M8000/M9000 服务器,以增强 RAS 功能。也可以在不影响正在运行资源的情况下执行任何计划的系统停机 (如定期维护或系统 配置更改)。这可以显著地增加服务正常运行时间。

2.4.1可靠性

要提高质量并获得高可靠性,在选择相应组件时必须考虑产品的生命周期以及产生错误 时的响应情况。

可靠性对于硬件和软件具有同等的重要性。此外,不仅程序错误可以触发软件错误,而且硬件错误也可触发软件错误。SPARC Enterprise M8000/M9000 服务器可提供以下功能以实现高可靠性:XSCF 进行监视,以定期检查软件 (如 Solaris 操作系统)是否在域中运行 (主 机监视器监视)。

定期执行内存巡查 (patrol) 以检测内存软件错误和关联故障 (即使是通常不使用的 内存区),来防止使用有故障的内存,从而防止发生由故障内存引起的系统故障。

由于 ECC 可保护所有路由 (包括计算单元、寄存器、高速缓存内存和系统总线)中 的功能性数据,因此,所有的 1 位错误可通过硬件自动修正以确保数据完整性。

2.4.2可用性

通过服务器是否容易发生故障,以及用户从故障中恢复的迅速程度来确定可用性。系统 可用的时间量以百分比形式表示。

无法完全消除系统中的硬件和软件故障。要提供高可用性,系统必须包含这样的机制, 即,即使硬件 (如组件和设备)或软件 (如操作系统或应用程序软件)中出现故障, 系统也可以持续运转。

SPARC Enterprise M8000/M9000 服务器可提供下面列出的功能,以获得高可用性。 也可通过将服务器与群集软件或管理软件组合使用,来获得更高的可用性。

2 章 系统特性 2-11