Questions tagged «metrics»

2
OpenTSDB和Graphite有什么区别?
据我所知,主要区别如下: OpenTSDB不会随着时间的推移而恶化数据,这与Graphite不同,在Graphite中,数据库的大小是预先确定的。 OpenTSDB可以每秒存储指标,而Graphite的间隔是分钟(我不确定,Graphite文档显示的保留策略每分钟存储一次指标,但是我不知道这是否是我们最小的时间单位可以玩) 我想就使用哪种工具存储指标做出明智的决定,我是否错过了这两个系统中的其他差异?它们的性能/可扩展性如何? 奖励问题:我还应该查看其他时间序列系统吗?

2
Windows是否相当于Unix的“ CPU窃取时间”?
为了评估性能的虚拟化平台监测精度,占用CPU时间已成为一个日益相关的指标-见EC2监控:被盗CPU的情况下,在上下文中的启发总结亚马逊EC2和IBM的纸张上的CPU时间占了一该概念的更深入的技术说明(包括插图): 窃取时间是在管理程序为另一个虚拟处理器提供服务时,虚拟CPU等待实际CPU的时间的百分比。 因此,它在当今大多数相关的Unix / Linux监视工具中都已公开-例如,参见%steal或st in sar或列top: st-窃取时间 虚拟机管理程序从此虚拟机“偷”用于其他任务(例如运行其他虚拟机)的CPU数量。 我一直无法弄清楚如何在Windows上捕获相同的指标,这是否可能?(理想情况下,对于EC2上的Windows 2008 Server R2 AMI,当然也可以通过相应的Windows性能计数器。)

2
路由选择:特异性与指标
我了解Linux 在进行路由选择时会选择到目标的最特定路由。但是,路线的度量标准呢?它具有比路由特定性更高的优先级吗? 对Linux使用的路由选择算法的细节的参考也将被理解。

9
何时将虚拟服务器移至物理服务器?
虚拟化有很多好处,但是有时虚拟化服务器需要更高的性能,应该将其移至物理服务器。 我的问题是,您怎么知道这些时间是什么时候?我正在寻找可衡量的数据和指标,这些数据和指标表明将服务器移至其自己的物理机箱将对性能产生重大影响。我个人对Windows感兴趣,但是大概所有平台上的基本要素都是相同的。

7
寻找有关衡量使用CDN的高可用性应用程序的建议
我在一家财富500强公司中工作,该公司在为高可用性应用程序(即,具有5秒的页面到页面导航速度而提高了99.5%的应用程序)的性能和可用性进行准确测量的过程中苦苦挣扎。我们将计划内和计划外的停机时间都考虑在内,以确定此可用性数字。但是,我们最近将CDN添加到了组合中,这使我们的指标有些复杂。现在,CDN可以处理大约75%的流量,而其余的则发送到我们自己的服务器。 我们试图衡量我们所谓的“真实用户体验”(即,我们的测试脚本模拟了典型的用户点击应用程序的情况。)这些监视脚本位于我们网络的外部,这意味着CDN达到了75%时间。 管理层已决定我们采用最坏的情况来衡量可用性。因此,如果我们的原始服务器出现问题,但是CDN可以很好地提供内容,那么我们仍然会影响可用性。反之亦然。我的想法是,只要“用户体验”成功,我们就不应不必要地惩罚自己。毕竟,CDN可以改善性能和可用性! 我只是想知道是否有人对其他《财富》 500强公司如何计算其可用性数字有任何了解?例如,我看一下apple.com的店面,该店面使用的CDN似乎从未崩溃(除非即将发布重要产品。)拥有一些真实的事实数据将非常棒,因为我不知道不必相信我们需要在这些指标上不必要地伤害自己。我们正在根据这些数字制定业务决策。 但是,我可以说,鉴于这些指标对管理人员来说是可见的,因此问题可以很快得到解决和解决(请阅读:我们很快就消除了繁文ta节。)不幸的是,作为开发人员,我不希望管理层认为由于某些外部因素(例如CDN)影响数字,因此应用程序启动或关闭。 有什么想法吗? (我将这个问题错误地发布到了StackOverflow上,对于交叉发布,我事先表示抱歉)

2
石墨停止随机收集数据
我们有一个Graphite服务器,可以通过collected,statsd,JMXTrans收集数据。几天以来,我们的数据经常出现漏洞。挖掘我们仍然拥有的数据,我们可以看到碳缓存的大小有所增加(从50K增加到4M)。我们看不到收集的指标数量增加(metricsReceived稳定在30万左右)。我们的查询数量平均从1000个增加到1500个。 奇怪的是,当高速缓存大小增加时,cpuUsage从100%(我们有4个CPU)略微降低到50%。 再次奇怪的是,如果从磁盘读取八位位组,则数量会增加,而写入八位位组的数量会减少。 我们将carbon配置为大多数使用默认值: MAX_CACHE_SIZE = inf MAX_UPDATES_PER_SECOND = 5000 MAX_CREATES_PER_MINUTE = 2000 显然,我们的系统已经发生了某些变化,但是我们不知道是什么,也不知道如何找到原因。 有什么帮助吗?

5
我需要用更具可扩展性的东西来代替穆宁[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为服务器故障的主题。 5年前关闭。 我已经在多个服务器上使用munin多年,并取得了巨大的成功,但是在munin节点超过100个的情况下,当客户端上有负载时,处理就会超时。 我对cron作业和客户端进程数进行了一些缩放更改,并减少了运行的插件数,等等。但是我决定寻找一种具有更可扩展的体系结构的替代方案。 任何建议或经验都将受到欢迎。我基本上对服务器度量标准感兴趣,该度量标准可用于容量规划和诊断资源使用情况。(我们有nagios提醒)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.