统计和大数据 clustering

2

假设我有400名学生（在一所大大学中）必须执行计算机科学项目，并且他们必须独自工作（没有一组学生）。一个项目的例子可以是“在fortran中实现快速傅立叶变换算法”（我知道，这听起来并不性感，但是这使我的问题更简单了）。我是纠正者，我想发送例程以检查是否有提议实施的学生群体“过于相似，无法真正独立编写”。这是对集群的无监督搜索。我认为问题更多是关于使用哪些属性，而不是使用哪种聚类算法。我要做的第一件事是一个字母一个字母的直方图。理想情况下，由于作弊者比这更聪明，因此我最终将尝试选择较好的字母随机排列，以查看是否存在字母直方图（带有排列）的良好匹配。那些没有探究代码结构，只探究字母的边际分布的人……您有什么解决方案？是否有专门用于解决此问题的软件或软件包？（实际上，在过去，计算机科学老师声称他们拥有这种工具，但现在我怀疑他们的工具非常简单）我猜软件开发的律师也有这类问题（不是有1000名学生，而是有2个大代码...这使事情变得更难了）？

10 hypothesis-testing clustering

3

聚类分布

我有几个发行版（下图中的10个发行版）。实际上，这些是直方图：在x轴上有70个值，它们是溶液中某些粒子的大小，对于x的每个值，y的对应值是大小在x值附近的粒子所占的比例。我想对这些分布进行聚类。目前，例如，我使用具有欧几里得距离的层次聚类。我对距离的选择不满意。我已经尝试过诸如Kullback-Leibler之类的信息理论距离，但是数据中有很多零，这会造成困难。您是否有适当距离和/或其他聚类方法的建议？

10 clustering

3

如何对纵向变量进行聚类？

我有一堆变量，其中包含从第0天到第7天的纵向数据。我正在寻找一种合适的聚类方法，该方法可以将这些纵向变量（而不是案例）聚类为不同的组。我试图按时间分别分析此数据集，但结果很难合理地解释。我调查了SAS程序的可用性，PROC SIMILARITY因为它的网站上有一个示例。但是，我认为这不是正确的方法。先前的一些研究在每个时间点都使用了探索性因素分析，但是由于结果不合理，在我的研究中也不是一种选择。希望可以在此处提供一些想法，并且可以使用已编译的程序（例如SAS或R）进行处理。任何建议表示赞赏！这是一个简短的示例（很抱歉，数据和变量名之间的位置不一致）： id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 2 0 8 7 3 7 6 6 0 0 5 2 2 1 3 5 2 6 5 5 1 1 4 2 2 2 2 3 2 4 4 2 0 …

10 clustering

2

检测点云数据中的圆形图案

对于我正在研究的一些体积重建算法，我需要检测3d点数据中的任意数量的圆形图案（来自LIDAR设备）。这些图案可以在空间中任意定向，并且可以假定（尽管不是很完美）位于薄的2d平面中。这是在同一平面上有两个圆的示例（尽管请记住，这是一个3d空间）：我尝试了许多方法。.最简单的方法（但到目前为止效果最好的方法）是基于最近邻图的不相交集进行聚类。当模式相距较远时，这可以很好地工作，但对于示例中的彼此非常靠近的圆圈，效果则较小。我尝试了K-means，但效果不佳：我怀疑圆点排列可能不太适合。另外，我还有另一个问题，就是事先不知道K的值。根据最近邻图中的循环检测，我尝试了更复杂的方法，但是我得到的结果太脆弱或计算量太大。我还阅读了很多相关主题（霍夫变换等），但似乎没有什么东西可以在这种特定情况下完美地适用。任何想法或灵感将不胜感激。

10 clustering image-processing

1

在R中使用stats包进行kmeans聚类

我很难理解集群程序包的一两个方面。我正在密切关注Quick-R中的示例，但不了解分析的一两个方面。我已经包含了用于此特定示例的代码。 ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 131.4349206, 0, 762.6110846, 3837.850406), b = c(19578.64174, 2233.308842, 4714.514274, 0, 2760.510002, 1225.392118, 3706.428246, 2693.353714, 2674.126613, 592.7384164, 1820.976961, 1318.654162, 1075.854792, 1211.248996, 1851.363623, 3245.540062, 1711.817955, 2127.285272, …

10 r clustering

1

聚类分析，然后进行判别分析

我在文献中不时看到的（主要是关于精神障碍的临床分型），如果对基于k均值的聚类算法的结果使用判别分析（DA），有什么理由（如果有）？通常不建议测试在聚类构建过程中使用的变量的组差异，因为它们支持类间（分别为类内）惯性的最大化（最小化）。因此，除非我们设法将个体嵌入较小维度的阶乘空间中，并获得这种划分的“一般化”的想法，否则我不确定是否会完全理解预测DA的附加值。但是即使在这种情况下，聚类分析从根本上仍然是一种探索性工具，因此乍一看，使用以这种方式计算的类成员资格来进一步得出评分规则似乎很奇怪。对相关论文有什么建议，想法或指示吗？

10 clustering discriminant-analysis

1

K-均值：实际情况下有多少次迭代？

我没有数据挖掘或大数据方面的行业经验，所以很高兴听到您分享一些经验。人们实际上在一个非常大的数据集上运行k-means，PAM，CLARA等吗？还是他们只是从中随机抽取一个样本？如果他们只是对数据集进行抽样，如果数据集不是正态分布的，结果是否可靠？在实际情况下，运行这些算法时，我们能否说出收敛之前通常需要进行多少次迭代？还是迭代次数总是随数据大小而增长？我之所以这样问，是因为我正在考虑开发一种在收敛之前终止迭代算法的方法，但是结果仍然可以接受。我认为值得尝试的是，如果迭代次数大于1,000，则可以节省一些计算成本和时间。你怎么看？

10 clustering data-mining k-means convergence large-data

2

调整后的兰德指数与调整后的共同信息

我正在尝试评估集群性能。我正在阅读有关metrics的skiscit-learn文档。我不了解ARI和AMI之间的区别。在我看来，他们以两种不同的方式做同样的事情。从文档中引用：有了基本实况类分配labels_true和我们的相同样本labels_pred的聚类算法分配的知识，调整后的兰德指数就可以衡量两个分配的相似性，而无需考虑排列和机会归一化。与在了解了基本事实类分配labels_true和我们的相同样本labels_pred的聚类算法分配的知识后，互信息是一个函数，用于测量两个分配的一致性，而忽略排列... AMI是最近提出的，并针对机会。我应该在聚类评估中同时使用它们吗？还是多余？

10 clustering python scikit-learn

2

一小部分布尔特征样本的PCA和频谱聚类之间的差异

我有50个样本的数据集。每个样本均由11个（可能相关的）布尔特征组成。我想介绍一下如何在2D图上可视化这些样本，并检查50个样本中是否存在聚类/分组。我尝试了以下两种方法：（a）在50x11矩阵上运行PCA，并选择前两个主要成分。将数据投影到2D图上并运行简单的K均值以识别聚类。（b）构造一个50x50（余弦）相似度矩阵。运行频谱聚类以降低维数，然后再次进行K均值。直接进行PCA与使用相似性矩阵的特征值之间在概念上有什么区别？这个比那个好吗？此外，还有更好的方法以2D形式显示此类数据吗？由于我的样本大小始终限制为50，并且功能集始终在10-15范围内，因此我愿意即时尝试多种方法并选择最佳方法。相关问题：通过聚类或PCA对样本进行分组

10 clustering data-visualization pca k-means spectral-analysis

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

哪种深度学习模型可以对不互斥的类别进行分类

示例：我的职位描述中有一句话：“英国Java高级工程师”。我想使用深度学习模型将其预测为2类：English 和IT jobs。如果我使用传统的分类模型，则只能预测softmax最后一层具有功能的标签。因此，我可以使用2个模型神经网络来预测两个类别的“是” /“否”，但是如果我们有更多类别，那就太贵了。那么，我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别？ “编辑”：使用传统方法使用3个标签，它将由[1,0,0]编码，但在我的情况下，它将由[1,1,0]或[1,1,1]编码示例：如果我们有3个标签，并且所有这些标签都适合一个句子。因此，如果softmax函数的输出为[0.45，0.35，0.2]，我们应该将其分类为3个标签或2个标签，或者可以是一个？我们这样做的主要问题是：分类为1个，2个或3个标签的最佳阈值是多少？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

随机变分推断在高斯贝叶斯混合中的应用

我试图实现与随机变推理高斯混合模型，如下文。这是高斯混合的pgm。根据本文，随机变异推断的完整算法为：我仍然对将其缩放到GMM的方法感到非常困惑。首先，我认为局部变分参数仅为qzqzq_z，其他均为全局参数。如果我错了，请纠正我。步骤6是什么意思as though Xi is replicated by N times？我应该怎么做才能做到这一点？你能帮我吗？提前致谢！

9 machine-learning bayesian clustering gaussian-mixture variational-bayes

2

聚类问题的特征选择

我正在尝试使用无监督算法（聚类）将不同的数据集组合在一起。问题是我有很多功能（〜500）和少量情况（200-300）。到目前为止，我以前只做分类问题，对此我总是将数据标记为训练集。在那里，我使用了一些标准（即random.forest.importance或information.gain）来预先选择特征，然后我使用了针对不同学习者的顺序正向选择来找到相关特征。现在，我看到在无监督学习的情况下，我既没有任何预选标准，也不能使用顺序正向选择（至少在mlr软件包中没有）。我想知道是否可以先进行主成分分析，然后再找到少量适合我的聚类算法的功能。还是您还有其他想法？谢谢编辑：好的，所以在网上进行了一些研究之后，我可以稍微更新一下我的问题：首先，由于两个原因，我读了一些不鼓励在聚类算法之前使用PCA的文章： PC具有所有功能的功能，因此很难将结果与初始数据集相关联，因此很难解释此外，如果您有一个问题，就是实际上只有很少一部分功能有助于进行聚类，则不必说这些功能也描述了样本之间最大的差异（PC就是这样做的）因此PCA不在桌面上... 现在，我回到了最初的想法，对集群进行顺序的前向选择。您会推荐什么绩效指标？（我想到过Dunn-Index）哪种聚类算法会导致大小大致相同的聚类？（对于分层集群，我通常会得到一个集群，其中有一个异常值，而另一个集群则具有所有其他异常值->因此，我需要某种可以防止异常值的东西）希望你们能帮助我...

9 r clustering feature-selection unsupervised-learning

2

如何找到权重来衡量差异性

我想学习（推论）可以用于聚类的差异度量的属性权重。我有一些例子对对象的是“相似的”（应该是相同的簇中），以及一些实施例中（Ç 我，ð 我）对对象的是“不相似”（不应位于同一群集中）。每个对象都有许多属性：如果您愿意，我们可以将每个对象视为特征的d维向量，其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例，从中估算出相似度度量的最佳特征权重？（一个一世，b一世）（一个一世，b一世）(a_i,b_i)（c一世，d一世）（C一世，d一世）(c_i,d_i)ddd 如果有帮助，在我的应用程序中，集中精力学习作为加权L2范数的相异性度量可能是合理的： d（x ，y）= ∑ĴαĴ（x [ j ] − y[ j ] ）2。d（X，ÿ）=∑ĴαĴ（X[Ĵ]-ÿ[Ĵ]）2。d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. 其中权重不知道和应该汲取的。（或者，某种加权余弦相似度的可能是合理的了。）是否有好的算法来学习权重α Ĵ对于这样的措施，给出的例子？还是我应该考虑其他方法来学习相似性度量/相异性度量？αĴαĴ\alpha_jαĴαĴ\alpha_j 不幸的是，维数非常大（数千个或更高；它是从单词袋特征派生的）。但是，我确实有数以万计的示例。然后，我有成千上万个要聚类的对象，因此对示例进行归纳以学习良好的相异性度量很重要。我认为这属于半监督聚类的范畴，这听起来像是“适应相似性”的范畴，但是我无法找到用于此目的的算法的清晰描述。

9 clustering similarities supervised-learning semi-supervised

2

如何创建“美国Reddit”图？

以下是p中的图表。Christian Rudder的Dataclysm的 202 ，尽管它是由James Dowdell制造的。它说明了排名前200的子reddit之间的关系，这是reddit.com上感兴趣的区域，用户可以在其中提交链接，评论和投票。这些类似于此站点上的标签。次修订区域的大小代表了它们的受欢迎程度。子评论通过交叉注释进行分组，并且较深的色调表示留在该子评论中而不发布给他人的人数百分比。这仅仅是一个标准的Voronoi分区，带有一些用于孤立的颜色，还是更多地涉及其中？如何去做其中之一？

9 clustering data-visualization

Questions tagged «clustering»