Questions tagged «clustering»

5
是否可以测试可计算数字是有理数还是整数?
是否可以通过算法测试可计算数是有理数还是整数?换句话说,将有可能为图书馆实现可计算数提供的功能isInteger还是isRational? 我猜测这是不可能的,并且这在某种程度上与以下事实有关:无法测试两个数字是否相等,但是我看不出如何证明这一点。 编辑:可计算的数字xxx由函数给出,该函数fx(ϵ)fx(ϵ)f_x(\epsilon)可以返回精度为ϵ的的有理近似值:| x − f x(ϵ )| ≤ ε,对于任何ε > 0。鉴于这样的功能,就是可以测试,如果X ∈ Q或X ∈ ž?xxxϵϵ\epsilon|x−fx(ϵ)|≤ϵ|x−fx(ϵ)|≤ϵ|x - f_x(\epsilon)| \leq \epsilonϵ>0ϵ>0\epsilon > 0x∈Qx∈Qx \in \mathrm{Q}x∈Zx∈Zx \in \mathrm{Z}
18 computability  computing-over-reals  lambda-calculus  graph-theory  co.combinatorics  cc.complexity-theory  reference-request  graph-theory  proofs  np-complete  cc.complexity-theory  machine-learning  boolean-functions  combinatory-logic  boolean-formulas  reference-request  approximation-algorithms  optimization  cc.complexity-theory  co.combinatorics  permutations  cc.complexity-theory  cc.complexity-theory  ai.artificial-intel  p-vs-np  relativization  co.combinatorics  permutations  ds.algorithms  algebra  automata-theory  dfa  lo.logic  temporal-logic  linear-temporal-logic  circuit-complexity  lower-bounds  permanent  arithmetic-circuits  determinant  dc.parallel-comp  asymptotics  ds.algorithms  graph-theory  planar-graphs  physics  max-flow  max-flow-min-cut  fl.formal-languages  automata-theory  finite-model-theory  dfa  language-design  soft-question  machine-learning  linear-algebra  db.databases  arithmetic-circuits  ds.algorithms  machine-learning  ds.data-structures  tree  soft-question  security  project-topic  approximation-algorithms  linear-programming  primal-dual  reference-request  graph-theory  graph-algorithms  cr.crypto-security  quantum-computing  gr.group-theory  graph-theory  time-complexity  lower-bounds  matrices  sorting  asymptotics  approximation-algorithms  linear-algebra  matrices  max-cut  graph-theory  graph-algorithms  time-complexity  circuit-complexity  regular-language  graph-algorithms  approximation-algorithms  set-cover  clique  graph-theory  graph-algorithms  approximation-algorithms  clustering  partition-problem  time-complexity  turing-machines  term-rewriting-systems  cc.complexity-theory  time-complexity  nondeterminism 

2
低尺寸的欧几里德平方最大割
令x1,…,xnx1,…,xnx_1, \ldots, x_n为平面R2R2\mathbb{R}^2。考虑一个完整的图,以点为顶点,边权重为∥xi−xj∥2‖xi−xj‖2\|x_i - x_j\|^2。您是否总能找到至少减少2的体重2323\frac 2 3总重量的 3?如果不是,则哪个常数应替换2323\frac 2 3? 我能找到的最糟糕的例子是等边三角形上的3个点,该点达到了2323\frac 2 3。请注意,随机分割会产生1212\frac 1 2,但从直觉上看,很明显,在低维度上,人们可以比随机地更好地聚集。 对于k> 2的max-k-cut会发生什么?尺寸d> 2怎么样?是否有回答此类问题的框架?我知道Cheeger的不等式,但是这些不等式适用于最稀疏的切割(而不是最大切割),并且仅适用于规则图。 (问题的灵感来自计算机图形中的光源聚类问题,以最大程度地减少方差)。

5
无量纲数据的聚类算法
我有一个包含数千个点的数据集,并且可以测量任意两个点之间的距离,但是数据点没有维数。我想要一种算法来在此数据集中找到聚类中心。我认为由于数据没有维度,因此群集中心可能由多个数据点和一个容差组成,并且群集中的成员资格可能由数据点到群集中心中每个数据点的距离的平均值来确定。 如果这个问题有一个众所周知的解决方案,请原谅我,我对这种问题知之甚少!我的研究(非常有限)仅提出了维度数据的聚类算法,但是如果我遗漏了一些明显的内容,我会提前道歉。 谢谢!

2
可分离数据的除K均值以外的聚类形式化
现实世界中的数据有时具有自然数量的集群(尝试将其集群成小于某个魔术系数k的集群数量会大大增加集群成本)。今天,我参加了亚当·迈耶森(Adam Meyerson)博士的演讲,他将这类数据称为“可分离数据”。 除了K均值以外,还有哪些聚类形式化方法可以用来利用数据的自然可分离性的聚类算法(近似或启发式算法)?

1
在二次时间发现相似的向量
让 d:{0,1}k×{0,1}k→Rd:{0,1}k×{0,1}k→Rd:\{0,1\}^k\times \{0,1\}^k \to \mathbb{R}是我们称为相似函数的函数。相似度函数的例子有余弦距离,l2l2l_2 范数,汉明距离,Jaccard相似度等。 考虑 nnn 长度的二进制向量 kkk: v⃗ ∈({0,1}k)nv→∈({0,1}k)n\vec{v} \in (\{0,1\}^k)^n。 我们的目标是对相似的向量进行分组。更正式地说,我们要计算一个相似度图,其中节点是向量,边表示相似的向量(d(v,u)≤ϵd(v,u)≤ϵd(v,u) \leq \epsilon)。 nnn 和 kkk 是非常大的数字,并且比较两个长度 kkk 向量很昂贵,我们不能做所有的蛮力 O(n2)O(n2)O(n^2)操作。我们想要用更少的操作来计算相似度图。 这可能吗?如果不能,我们可以计算出一个近似图,其中包含相似图中的所有边加上最多O(1)O(1)O(1) 其他边缘?

1
将一组点平分为两个最佳子集
我想将一组点分成两个大小相等的子集,以使簇内平方和最小。我们可以假设这些点在二维欧几里得空间中。考虑到k = d = 2,我希望比一般的k-均值聚类算法更快。谁能为此指出一个好的算法的方向? 如果我们有一个很好的近似值,则不需要精确的解决方案。 谢谢!

4
连续聚类
因此,在与实时连续流数据进行群集方面,我面临一个问题。由于我拥有不断增长的数据集,因此我不确定哪种是运行高效集群的最佳方法。我提出了一些可能的解决方案,包括: 设置允许的数据点数限制,这样就可以在最早的数据点到达另一个数据点时就达到限制。从本质上讲,这表明较旧的数据与我们之间的关联性不再足够,无法通过丢弃这些数据来照顾我们丢失的内容。 一旦有足够的数据来进行良好的聚类,请考虑这种“设置”,并随着新点的出现,而不是重新聚类所有数据,而只是找出新点最靠近哪个聚类中心并将其添加到该聚类中心。这样做的好处是,您可以不必在每个新点上重新进行聚类,并且不必考虑聚类“足够好”而只存储聚类中心的所有其他点。不利的一面是从头开始使用所有数据点重新运行该算法可能会更准确。 虽然这些是我脑力激荡的一些潜在解决方案,但我想知道是否有更好的已知技术来解决此问题。我认为像Google这样的网站必须以某种方式处理它(我希望“添加更多的ram,服务器和处理器”或“不断扩展数据中心”不是唯一可用的答案)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.