因此,情况如下:
我有一个Web服务的多个实例,该实例将一滴数据写入Azure存储。我需要能够将blob分组到一个容器(或虚拟目录)中,具体取决于何时接收。偶尔(每天在最坏的情况下)旧的Blob将得到处理,然后删除。
我有两个选择:
选项1
我制作了一个名为“ blobs”的容器(例如),然后将所有博客存储到该容器中。每个Blob将使用目录样式名称,其中目录名称为接收时间(例如“ hr0min0 / data.bin”,“ hr0min0 / data2.bin”,“ hr0min30 / data3.bin”,“ hr1min45 / data.bin”) ,...,“ hr23min0 / dataN.bin”等-每X分钟创建一个新目录)。处理这些Blob的事物将首先处理hr0min0 Blob,然后处理hr0minX,依此类推(并且在处理Blob时仍在写入它们)。
选项2
我有很多容器,每个容器都有一个基于到达时间的名称(因此,首先是一个名为blobs_hr0min0的容器,然后是blobs_hr0minX等),并且容器中的所有blob都是在指定时间到达的blob。处理这些博客的事物将一次处理一个容器。
所以我的问题是,哪个选项更好?选项2使我的并行化更好(因为容器可以位于不同的服务器中)还是选项1更好,因为许多容器会引起其他未知问题?