Questions tagged «ds.algorithms»

有关完成任务的明确指令的问题,以及有关时间/内存/等方面的相关分析。

2
独立集的属性测试
假设我们得到了图和参数。对于值的范围有(或者是可行的所有),这就是它能够测试是否是 -far从具有至少一个独立的集大小的在时间?GGGķ ,εķ,ϵk,\epsilonķķkķķkGGGϵϵ\epsilonķķkO (n + 多边形(1 / ϵ ))Ø(ñ+聚(1个/ϵ))O(n + \text{poly}(1/\epsilon)) 如果我们使用 -far 的通常概念(即最多需要更改边才能获得这样的集合),那么对于。所以ϵϵ\epsilonϵñ2ϵñ2\epsilon n^2k = O (nϵ√)ķ=Ø(ñϵ)k = O(n\sqrt{\epsilon}) 看来,如果较大,一些采样方法应该可以解决该问题。真的吗 ?ķķk 是否有 -far的其他概念(即边代替),在这些概念下有不平凡的结果?ϵϵ\epsilonϵ | Ë|ϵ|Ë|\epsilon |E| 我现在基本上正在寻找参考。


4
连续聚类
因此,在与实时连续流数据进行群集方面,我面临一个问题。由于我拥有不断增长的数据集,因此我不确定哪种是运行高效集群的最佳方法。我提出了一些可能的解决方案,包括: 设置允许的数据点数限制,这样就可以在最早的数据点到达另一个数据点时就达到限制。从本质上讲,这表明较旧的数据与我们之间的关联性不再足够,无法通过丢弃这些数据来照顾我们丢失的内容。 一旦有足够的数据来进行良好的聚类,请考虑这种“设置”,并随着新点的出现,而不是重新聚类所有数据,而只是找出新点最靠近哪个聚类中心并将其添加到该聚类中心。这样做的好处是,您可以不必在每个新点上重新进行聚类,并且不必考虑聚类“足够好”而只存储聚类中心的所有其他点。不利的一面是从头开始使用所有数据点重新运行该算法可能会更准确。 虽然这些是我脑力激荡的一些潜在解决方案,但我想知道是否有更好的已知技术来解决此问题。我认为像Google这样的网站必须以某种方式处理它(我希望“添加更多的ram,服务器和处理器”或“不断扩展数据中心”不是唯一可用的答案)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.