驱动器发生故障时，如何使我的HP服务器通过电子邮件发送给我？

11

理想情况下，安装尽可能简单，而无需重新启动服务器。主要是DL380 G5's因为有帮助。

— 扎伊斯·阿佩斯博士
source

遗憾的是它们不是G7，或者您可以使用HP Insight Manager。

— 汤姆·奥康纳

您的服务器运行Windows还是Linux？

— 汤姆·奥康纳

您在这些服务器上运行什么操作系统？

— ewwhite 2011年

它们都是2003或2008的Vanilla和R2。我玩过SIM卡，但无法与G5通话。

— DrZaiusApeLord 2011年

SIM卡仍应与G5 ProLiants兼容。您之前尝试过安装过代理吗？

— ewwhite 2011年

16

这在某种程度上取决于您在服务器上运行的操作系统，但是通常，可以从HP ProLiant服务器和Smart Array RAID控制器获取警报。

此处列出了DL380 G5系统的完整驱动程序和软件支持列表。

SNMP和监视解决方案是最好的方法...但是您可以使用某些HP工具来增强它。惠普提供了HP Systems Insight Manager，该软件可下载并随服务器一起提供。这是服务器集合的理想选择。如果您要查找一次性警报而没有建立管理或监视基础结构，则只需安装HP Management Agents（aka ProLiant Support Pack）。

对于独立的Linux系统，我将让代理通过电子邮件发送陷阱。通常，我将使用默认值或自定义捆绑包配置支持包，然后编辑/opt/hp/hp-snmp-agents/cma.conf并更改该trapemail行以指向收件人地址：

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

如果您正在运行Linux，并且不想安装完整的HP管理套件，则可以围绕cciss_vol_status实用程序开发脚本来查询控制器/磁盘状态。另请参阅：在OpenFiler上安装HP代理

— 怀特
source

除了将驱动器从插槽中拉出之外，是否有任何优雅的方法来测试RAID阵列故障的警报？我有几个ProLiant DL360 G7服务器，并且设置了HP SIM以进行监视。

— Banjer 2013年

从来没听说过。Insight代理绝对可以工作。如果您可以通过hpacucli实用程序查看阵列状态，并且知道您正在HP SIM中收到警报，那么我认为可以正常工作是很公平的。

— ewwhite

5

检出HP Insight Manager

https://www.hpe.com/cn/zh/product-catalog/detail/pip.489496.html#

我相信它应该与您的服务器一起使用。

— ckliborn
source

3

我使用了@ewwite在他的答案中提到的轻量级程序： cciss_vol_status

如果您遵循随附的INSTALL指令，则脚本位于中/usr/local/bin/cciss_vol_status。

这是一个包装脚本，我用来grep cciss_vol_status的输出，并在任何数组的状态为FAILED时发送电子邮件。

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

在cron中调用上述脚本。我每两分钟运行一次检查：

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

我们确实使用HP System Insight Manager来检查我们的HP是否已启动并正在运行，但除此之外没有其他内容。我发现Linux代理对我们来说太过强大了，因为我们还有其他监视解决方案，因此上面的脚本很好地满足了其特定目的。

更新

只是一个故障排除技巧，以防您遇到这种情况。今天早上，当我收到有关失败阵列的电子邮件时，该脚本证明是有用的：

达到缓存脏限制

设备变为只读状态，在中不可见/proc/partitions。我重新启动了服务器，并在启动时看到了以下消息：

由于可能的数据丢失，逻辑驱动器已禁用。选择“ F1”以继续禁用逻辑驱动器选择“ F2”以接受数据丢失并重新启用逻辑驱动器

我选择了F2，RAID很好并且可以在启动时安装。

— 班杰
source

1

安装smartmontools。在驱动器发生故障之前向您发送邮件。

— 史蒂芬
source

2

大约30％的时间。SMART 不是灵丹妙药。

— HopelessN00b 2012年