我正在尝试在我们产品之一的多个日志文件上构建数据集。
不同的日志文件具有各自的布局和内容。我成功地将它们分组在一起,只剩下一步了...
确实,日志“消息”是最好的信息。我没有所有这些消息的完整列表,并且基于这些消息进行硬编码是一个坏主意,因为该列表每天都可能更改。
我想做的是将标识文本与值文本分开(例如:“ Loaded file XXX”变成(标识:“ Loaded file”,值:“ XXX”))。不幸的是,该示例很简单,并且在现实世界中存在不同的布局,有时还有多个值。
我当时在考虑使用字符串内核,但它是为了集群化而设计的……cluseting在这里不适用(我不知道各种类型的消息的数量,尽管那会太多)。
你有什么主意吗?
谢谢你的帮助。
PS:对于那些编程的人,这可能更容易理解。假设该代码包含printf(“ blabla%s”,“ xxx”)->我希望将“ blabla”和“ xxx”分开