Questions tagged «monitoring»

1
如何创建一个集中式仪表板来监视多个云(Amazon和Google)?
我正在寻找一种可以用作集中仪表板的单一产品或服务,以监控除应用程序之外的Amazon Web Services和Google Cloud Platform提供的云基础架构。 我正在寻找sensu等支持Amazon Web Services中所有服务的选项,但是我没有找到任何插件来监视Google Cloud Platform。 还有其他允许我创建此服务的服务或产品,我更喜欢开源吗? 注意:每个人都可以访问GCP和AWS,并且如果有人启动某些功能,则很容易使用一个仪表板进行监视。

3
如何解决Prometheus数据库中丢失的数据?
我已逐渐将Prometheus集成到我的监视工作流程中,以便收集有关运行基础结构的详细指标。 在此期间,我注意到我经常遇到一个奇特的问题:有时候,一个应该被Prometheus提取数据的出口商变得毫无反应。可能是由于网络配置错误-它不再可访问-或仅仅是因为出口商崩溃了。 无论是什么原因,我都会发现我希望在Prometheus中看到的某些数据丢失了,并且在一定时间内该系列中没有任何数据。有时,一个出口商失败(计时?)也似乎导致其他出口商失败(第一次超时将整个作业推到了顶级超时之上?只是推测)。 我看到的只是该系列中的空白,如上面的可视化效果所示。发生这种情况时,日志中没有任何内容。普罗米修斯的自我指标似乎也很贫乏。我只是不得不手动尝试复制Prometheus所做的事情并查看它在哪里中断。真讨厌 一定会有更好的办法!尽管我不需要实时警报,但我至少希望能够看到导出器无法传递数据。即使是布尔值“嘿检查您的数据”标志也将是一个开始。 我如何获得有关普罗米修斯未能从出口商获得数据的有意义的信息?我如何理解为什么无需执行Prometheus数据收集的手动模拟而存在差距?在这方面有哪些明智的做法,甚至扩展到普罗米修斯(Prometheus)以外的总体监测数据收集方面?

2
如何检查Jenkins构建执行程序的可用内存?
在Jenkins中,单击“ 生成执行器状态”时,我只能看到与可用磁盘空间有关的统计信息(URI:)/computer。如何在Jenkins中监视空闲系统内存(RAM)? 我问,是因为有时候当我的执行者过多(尽管配置了交换空间,但下面没有)时,詹金斯却死机了或崩溃了很多。

1
云术语“ Firehose”到底是什么?
我从Loggregator System Cloud Foundry文档概述中找到了Firehose定义。 Firehose是一个WebSocket端点,用于流式传输所有来自Cloud Foundry部署的事件数据。数据流包括来自所有应用程序的日志,HTTP事件和容器指标,以及来自所有Cloud Foundry系统组件的指标。来自系统组件(例如Cloud Controller)的日志不包括在firehose中,通常通过rsyslog配置进行访问。 由于来自Firehose的数据可能包含敏感信息,例如应用程序日志中的客户信息,因此只有具有正确权限的用户才能访问Firehose。 这个术语的根源在哪里?为什么这样称呼它?其他云产品和平台的概念是否相同? 当我将此术语翻译成我的母语时,这很有趣。

4
监视多台服务器上的程序进度
我们有三台服务器正在运行python程序,这些程序正在tmux会话中运行数据分析任务。我们目前使用的方法是将它们连接到每个tmux会话中,并在命令行中查看输出。 这种方法很繁琐,因此我们正在寻找一种解决方案,该解决方案可以同时自动监视多个服务器的程序进度(在CLI上输出)。理想情况下,我们希望使用Web UI解决方案,但CLI也非常适合。 感谢您的阅读。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.