跟踪生产物联网设备中的异常和错误?


11

公司目前如何跟踪物联网设备,网关和平台上的错误?我的公司正在使用Papertrail来汇总来自所有设备的日志,但是当生产中发生错误时,这常常使我们在多个系统之间徘徊。

我正在寻找一种方法来减少可能在一个地方(例如,在IoT平台上)产生但由于其他地方的问题而产生的异常时减少“根本原因”的时间。堆栈—例如,来自边缘设备的数据错误。

根据我在此空间中发现的信息,SentryRollbar可以很好地跟踪服务器或应用程序上的异常,但不能像上一段中所讨论的那样提供跟踪级联错误的方法。

有没有比文本记录更好的系统呢?我特别希望利用从Sentry获得的面包屑样式事件,但要在整个分布式系统中进行跟踪。

Answers:


5

分布式跟踪

本Google白皮书中有关其Dapper解决方案的最常见的信息是任何有价值的分布式跟踪背后的想法。请注意,我并不是说他们发明了它。从本质上讲,它对于IoT的工作原理相同,只需在后端(甚至在后端设备)的边缘开始跟踪。

尽管Google白皮书或多或少地侧重于服务器端系统,但该概念可以轻松地适用于包括最终设备在内的所有方面。Netflix 最近通过开源的Vizceral所做的每一次可视化展示了使用跟踪和跨度ID跟踪整个系统中所有信息的魔力区域视图下的博客内容可视化完全基于实时日志分析,其中通过跟踪ID将呼叫关联起来。请注意,就像Google在Dapper论文中提到的那样,Netflix在其API上有一系列调用示例。Google在论文中提到了1:1000,这已经有几年了。显然,Netflix在某些请求类型上已经达到了1:1百万。

我不了解您的系统,但很有可能可以从实际100%跟踪开始。

无论哪种方式,只要您可以从一开始就将跟踪匹配到您的IoT设备,或者甚至首先在端点上创建跟踪ID,都不会阻止您以包括边缘设备的方式来适应这些想法。


谢谢Helmar,我希望我在最初的问题中提到了Dapper,因为我已经在阅读有关该领域的文章!当然可以利用它,但是还希望看看是否还有其他现有的解决方案正在使用中?
上钩
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.