您实施的最省时的方法是什么?[关闭]


37

您实施的哪些更改对节省日常sysadmin工作量的时间影响最大​​?为了获得相同的结果,提高效率,完成更多工作或减少工作的诀窍是什么?

我正在考虑自动化,工作流/流程的更改,新工具,完全停止做某些事情,外包,更好的委派,更改软件/硬件,减少官僚主义等。


在当前的话题规则下,这个问题是题外话。
HopelessN00b 2015年

Answers:


30

监控+警报 -这是很大的安全网。就像开发人员编写单元测试以确保更新代码时不会弄乱事情一样,我依靠监视作为额外的安全网,以防万一我搞砸了某些事情(即断开服务器连接,拒绝防火墙上的生产流量等) 。它让您高枕无忧-如果出现问题,我会在客户致电之前通知您。


另外:我们在墙上有一台巨大的电视,显示了我们网络的旋转图(使用nagios和nagvis完成)。创造了巨大的知名度,并且nagvis的最新版本令人震惊。给您的老板和用户一种控制权的感觉(一旦拥有了,就可以控制住)。
wolfgangsz 2010年

26

对我来说,它是集中式身份验证。

我要指出的是,我要管理40台左右的Slackware机器,每台机器都具有本地身份验证以及本地Samba身份验证。我也有一个VPN解决方案,其中需要设置每个帐户,以及一个内部jabber服务器和一个内部电子邮件服务器。一切都有自己的帐户。MAC(移动,添加,更改)非常疯狂。

因此,我从Slackware切换到CentOS,创建了Active Directory基础结构,并使用“类似开放”对我的所有Linux计算机进行了AD身份验证。大概一个月可以节省我20个小时,甚至一点也不开玩笑。

现在,我已经通过AD进行了所有身份验证,并且效果很好。如果您仍在以旧的方式行事,我不建议您使用集中式身份验证。


您是否知道开放同样能解决samba所信任的域的问题?见serverfault.com/questions/35492/...
chmeee

1
chmeee:我不知道,因为我的基础结构没有您的复杂。我建议您在备用盒上尝试一下。同样,Open是免费的,除了将计算机添加到AD计算机OU之外,它根本不进行任何域更改。
马特·西蒙斯

为什么选择AD而不能选择OpenLDAP或Redhat / Netscape?主要是Windows网络吗?
David Gardner,2009年

因为我熟悉AD,而不是OpenLDAP或Redhat Directory Server
Matt Simmons 2009年

20

我同意这里显而易见的选择;自动化和中央身份验证。但是,看来我必须是提及document的人

通过记录尽可能多的问题,工作流程,安装和指南,人们可以解决一些问题,而无需让我们的部门来处理。

另一个节省时间的好方法是问题跟踪

能够确定任务的优先级,将其分配给团队成员,从而摆脱了通过电子邮件,msn或干脆到办公室来发送请求的所有混乱情况。这也有助于我们的好朋友,经理了解您的效率(如果需要)。

然后,当然,锦上添花的将是我的“ RTFM”(阅读精美手册)杯子,它得到了很大的提高。


监视和警报恕我直言比文档更好。它是隐式文档(不是我不喜欢书面文档)。同意进行问题跟踪,离不开
serverhorror 2009年

2
监测+警报是“什么”。文档是“为什么”。
David Mackintosh,2009年

您可以根据需要进行所有监视和警报,但是如果您没有关于寻呼机关闭时的操作的任何文档,也没有关于如何扩展监视的注释,那么您将无法回答所有页面并维护所有内容。监视自己。通过文档可以进行知识转移,因此您可以组建团队,让其他人员参与进来共享工作。
dannyman 2011年

17

使用ChefPuppet之类的工具进行基础架构自动化是我在所管理的系统上实现的最好的事情。监视非常棒,但是,通常,要使各个部分与其余基础架构完美配合,需要进行大量工作。Chef和Puppet都非常擅长于自动化整个基础架构,并提供了很多手工编写的胶水。特别是将哪些服务器提供什么服务拼凑在一起。

Chef具有内置的查询服务器上其他节点上应用的属性和配方的功能,因此您可以询问谁是生产Web服务器,或者谁是数据库主服务器,这使自动化变得容易得多。Puppet也可以做到这一点,但是它需要一个外部节点分类工具,例如iClassify

这将对Nagios和Munin等监视和趋势分析工具产生明显影响。例如,它还可以提供负载平衡环境的自动配置,因此LB可以查询特定应用需要涵盖的所有Web服务器。

我在各种环境中实现的另一个省时的方法是自动构建,例如kickstart(redhat / centos)和preseed(debian / ubuntu)。对于大多数人来说,这应该是显而易见的,但是令人惊讶的是,有多少站点仍使用CD来构建系统。如果自动构建使系统准备好运行Chef或Puppet来准备所有其他商品,那就更好了。


2
配置管理(我使用过puppet)加上PXE服务器(补鞋匠)对我来说节省了很多时间。但是最大的节省时间来自“时间管理”,我发现汤姆·利蒙切利(Tom Limoncelli)的书“系统管理员的时间管理”在这方面是无价的。现在,我的一天变得更加结构化和计划好了,我花在“计划”和拖延上的时间减少了,而将更多的时间用于相关的事情上。
aussielunix

不错的自动化工具,但是您知道与Chef或Puppet类似的任何不基于Ruby的工具吗?
Andrioid

@Android-cfEngine,但Chef和Puppet更适合使用,Ruby:D也是如此。
jtimberman 2009年

签出Bcfg2。它的功能类似于Puppet,但使用Python编写。
卡米尔·基西尔

16

多台监视器,在我负责的每台服务器的控制台上打开了一个窗口。


6
到目前为止,这只会扩展。
Teddy

是。尽管我可以继续添加带有其他显示器的其他计算机,但实际上您只能走得那么远。
艾伦H

7

监视固然很好,但不确定是否可以节省时间。对我来说,这是集中式日志记录,它具有一个查看系统,该系统可以过滤掉平凡的事物,突出显示危险(磁盘故障,病毒扫描程序发现)并显示其他所有内容以便进行分类。

syslog(和perl)获胜。

基本上,它使我可以在吃百吉饼的同时读取网络上所有计算机的事件日志。至少要经过粗略的检查才能发现任何令人恐惧的东西。节省大量时间。


+1集中式日志记录和Perl脚本报告。
David Mackintosh,2009年

我们正在将logcheck推广到我们的服务器。为我们不关心的行添加过滤器需要一些时间,但这很有用。
大卫·帕什利

1
我知道它的商业用途,但请看一下splunk,这是一个具有出色前端的日志集中系统。
詹姆斯

6

删除了所有用户的本地管理员权限。(如果我能)

这已经产生了效果,现在我不必处理任何问题,如何安装X应用程序(因为现在不允许这样做),我的计算机有病毒/间谍软件,我的计算机运行缓慢几乎与此有关的任何东西。

在遇到一个在审计,Windows更新等过程中完全错过的工作站之前,我从未想过这会使工作站变得多么稳定。它已经运行了大约4年,没有对其进行任何更新。我想我在Windows SP1上。该站点从来没有抱怨过任何问题,当我发现它时,我发现它运行得很好。


对于将笨拙地过渡到中型公司的小型公司而言,这确实是一个很好的建议。
staticsan

1
我要补充一点,在这样的策略下将所有用户捆绑在一起是行不通的。如果有合法的超级用户(例如开发人员),则需要区别对待它们。如果不是,则a)他们无法完成工作,b)无论如何都会破坏它,从而导致其他问题。因此,该策略需要了解许多类型的用户。
jplindstrom

不要以为开发人员需要管理员权限。如果他们没有管理员访问权限,那么他们实际上将开发能够以受限用户的身份正常运行的程序(进行更改)。有些用户确实需要它,这就是为什么会给他们第二个帐户来安装软件的原因,等等,因此他们的日常帐户仍然是受限用户。很像Linux世界的工作方式。如果他们颠覆它,那很容易,请开除第一人称,其他人将很快进入现实。如果他们需要安装某些东西来完成工作,则可以请求他们需要的东西,而不是管理员权限。
SpaceManSpiff

6

虚拟化(VMware)

从模板部署服务器,从单个界面管理服务器,内置到基础架构客户端的详细硬件监控之间,这确实改变了我们管理基础架构的方式。

它对我们如何思考“硬件”产生的影响确实使它成为了改变游戏规则的人。集群不再“太昂贵”,因为我们可以虚拟部署它们。需要更多Citrix服务器,请将其克隆。只要我们保持物理硬件场提供足够的资源(并且这些服务器现在确实是商品),一切都会变得很顺利。


4

cfengine,用于在debian / linux下进行配置管理。

openvpn连接卫星站

tighvnc通过vpn到达卫星站中的2300 Windows客户端。

穆宁纳吉奥斯,用于监测和报告

服务器上的smartmontools用于自动运行状况检查(以及状态邮件,如果出现问题)

服务器上的raid1(镜像)。如果一个磁盘出现故障,则服务器仍在运行-这对于我的时间管理来说确实很重要。

团队合作 -自己做所有事情是没有用的。分享工作,共同提高工作效率。

工作氛围尊重您的同伴,开玩笑和大笑-这对于营造积极和创新的氛围非常有用。

祝您工作愉快!男人,我爱我的工作!这让我真的很傻(我认为;)



3

木偶。更改一个位置并使所有系统受影响的想法非常棒。

将其与标准安装相结合,可以很快地建立一个新系统。您进行netboot并运行标准安装,然后由puppet接管并配置所有内容。

最后,标准化。不,您真的不想要35个不同的Linux发行版和4个不同的Solaris版本。努力进行一项标准安装。关闭的每个唯一系统都可以节省大量时间。


2

再次添加监视权。原理很简单:在用户受到影响之前,我想知道正在发生什么。理想情况下,系统管理应该是透明的角色。用户既不知道也不关心您在做什么。从他们的角度来看,它应该只是工作。快乐和满意的用户应等于快乐和满意的管理员。

在IT中经常被忽略的一件事是计算机在那里为我们工作,而不是逆向工作。不过,我知道管理员会花费大部分时间手动检查服务器和日志。为什么?计算机可以相互监视,并且只需编写少量脚本即可将日志中有趣的部分发送给您。确实,您无需费力浏览几百万条信息条目,例如Fred的打印作业或DNS传输成功。告诉我他们什么时候不在。


2

我实现的最大节省时间的方法是生产工作站的磁盘映像。它们都是一样的,没有人在本地存储任何东西,因此,如果有问题,我只需重新镜像机器,便可以使用,就像新机器一样。


2

当系统停机时,节省时间最重要。

我在标准化目录结构中的标准化文本文件中记录了所有支持合同信息。我有一个中心,并保留了多个副本。

信息的每一位(Web门户,电话号码,联系点,有效期,合同号,电话菜单快捷方式等)都以旧的.ini格式的标准标签(tag:data)开头。

查找电话号码就像转到顶层目录并运行以下命令一样简单:

grep Phone */*support.txt | more

第一个通配符扩展到供应商和/或产品名称的位置。

我之所以没有使用Excel,Word,OpenOffice,数据库等等等,仅仅是因为发生故障时,可能正是某些东西保留了您的支持信息。同样,这些也不容易从文本模式控制台屏幕上查看。

我还以相同的方式记录了所有操作方法。


为实现时间的业务价值而投票。
jplindstrom

2

几年前,我实现了IT部门Wiki(对于感兴趣的人使用Mediawiki)。当我们开始习惯使用它时,对办公室周围许多问题的回答是“您是否检查了维基?” 我们花了一些时间来习惯于检查Wiki中的特定信息,但是一旦我们做到了,我们就意识到它的巨大潜力。我们唾手可得所有需要的信息-如果其中不存在任何内容,我们可以快速添加/更改页面。



1

我必须同意pQd进行监控。

尽管我们尚未看到全部好处,但是使用Puppet实施配置管理有望为我们节省大量时间并大幅度减少错误。


1

我找到了AutoIt,后来又找到了AutoHotkey,并坠入了爱河。

我最后的工作是为一家定制汽车制造商。汇编者是精通计算机的用户,设法使他们进入所从事的工作所需的程序崩溃。每天,每天几次,我不得不走到3座不同建筑物中的15多个工作站,杀死崩溃的程序,重新启动它,然后将其返回到数据输入屏幕。最终,我安装了VNC,因此可以远程进行操作,从而减少了旅行时间,但我仍然想起要经常进入并重置机器。当我找到AutoIt时,我意识到我可以将程序设置为监视计算机,并且如果5分钟内没有任何输入,它可以重置程序并键入并单击所需的所有内容以使其返回输入屏幕。


1

++用于中央身份验证和帐户管理,包括帐户创建和终止处理。我们拥有AD(两个目录林)和LDAP(以及直到最近的NDS),并且具有访问每个目录中现有资源的各种组。我们花了很多时间来使目录同步并在一个或另一个目录中管理所有资源,这是值得的。

下一个最大的赢利是任何数量的自动化,无论是帐户清理,配置集中化还是您拥有什么。

我不确定实际监视可以节省多少时间,但这是必不可少的。一个环境变得足够大或足够复杂,以使“手动检查”成为不可能和无效,这并不需要花费太多。另外,有时候睡觉很高兴。;)

这可能与对此的主要想法有所偏离,但是当我们标准化硬件平台时,我们也取得了巨大的胜利。我们选择了一个可在公司内部所有操作系统上使用的服务器平台,并且已经使用了几年。我们了解了硬件,并了解了其远程管理,它通过各种方式节省了时间和精力:

  1. 不再支持分别具有自己的怪癖的六个或六个以上怪异类型的服务器
  2. 跨团队支持:涉及到硬件时,Unix的人都知道,Windows的人也知道,甚至网络人也很熟悉它,因为他们的各种设备都在硬件上运行,因此可以根据需要进行操作。
  3. 备件!

标准的,记录的和经过审查的操作系统版本也是如此。可能看起来很基本,但是我经常碰到那些商店不是标准的商店,也没完没了地去看看这个工具或那个工具是否存在或者特定服务器的设置是否正确。这种混乱甚至可以将最基本的任务和问题变成麻烦。


1

学习委派和信任我的同事-一旦您知道您可以将工作交给他人,生活就会变得轻松多了。并不是因为我懒惰,并且让其他人为我做我的工作。知道您拥有良好的备份后,您才可以放心使用。当然,还有在标准硬件上受到良好监控的标准化OS配置。一点不吭就走了。

我对自动化的目标一直是,现在我再次收到一封电子邮件,说“服务器foo如此损坏。它已得到修复。” 然后,将错误发送给开发人员后,我可以返回阅读纸张并喝咖啡。我们还没有到那儿,但是与过去每天应对的被动混乱相比,我们已经走了很长一段路。


1

我最近在工作中实施了AntHill Pro,现在我们对许多项目的所有构建和部署都是完全自动化和跟踪的。这包括创建所有项目都使用的共享Tomcat部署Ant库,从而简化了AHP中这些项目的维护。下一步是为站点CDA部署创建类似的库。

虽然这并不能节省我个人的时间,但可以节省我们的开发人员和运营人员的时间。我喜欢为别人的车轮装油。:-)

我希望接下来看看Chef和Puppet,以帮助实现自动化的基础架构方面。

哦,文档对您有很大帮助。将人们指向一个写得很好的文档,而不是回答相同的问题20次,可以节省大量时间。


1

我最大的省时器是用于安装Linux工作站的脚本。我们一直都有来来往往的承包商,因此我们有大量的工作站可以定期重复使用。当他们回到IT部门时,我们将安装CD放入其中,将预先安装的文件添加到install命令中,并且在20分钟内(无需我们任何人进行任何击键),盒子又回到了全新的,可以正常工作的基础安装状态,这些工具和预先配置为在我们的网络中运行。即插即用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.