7 欧氏距离通常不适用于稀疏数据吗? 我曾在某处看到,当我们拥有多维和稀疏数据时,经典距离(如欧几里得距离)变得难以区分。为什么?您是否有两个稀疏数据向量的示例,其中欧几里得距离的效果不好?在这种情况下,我们应该使用哪种相似性? 72 machine-learning clustering data-mining sparse euclidean
6 为什么k均值聚类算法仅使用欧几里得距离度量? 在效率或功能方面是否有特定目的,为什么k-means算法不使用余弦(不)相似度作为距离度量,而只能使用欧几里得范数?通常,当考虑或使用除欧几里得以外的其他距离时,K均值方法会符合并正确吗? [由@ttnphns添加。这个问题有两个方面。“非欧氏距离”可以涉及两个数据点之间的距离或数据点与聚类中心之间的距离。到目前为止,都尝试了两种方法来解决答案。] 62 clustering k-means distance-functions euclidean
2 余弦相似度是否等于12归一化的欧式距离? 相同的含义是,对于向量u和向量V的集合之间的相似性排名,它将产生相同的结果。 我有一个向量空间模型,该模型具有距离度量(欧式距离,余弦相似度)和归一化技术(none,l1,l2)作为参数。根据我的理解,设置[余弦,无]的结果应该与[euclidean,l2]相同或至少真的非常相似,但事实并非如此。 实际上,系统仍然有可能出现故障,或者向量是否存在严重错误? 编辑:我忘了提到向量是基于语料库文档中的单词计数。给定一个查询文档(我也将其转换为单词计数向量),我想从我的语料库中找到与其最相似的文档。 仅计算它们的欧几里得距离是一个简单的方法,但是在我从事的任务中,余弦相似度通常被用作相似度指示符,因为仅长度不同的向量仍被视为相等。距离/余弦相似度最小的文档被认为是最相似的。 27 normalization natural-language euclidean cosine-distance cosine-similarity
1 将相似度矩阵转换为(欧式)距离矩阵 在随机森林算法中,Breiman(作者)构造相似矩阵如下: 将所有学习示例发送到森林中的每棵树上 如果两个示例落在同一片叶子上,则相似矩阵中的对应元素增加1 用树数归一化矩阵 他说: 情况n和k之间的接近度形成矩阵{prox(n,k)}。从它们的定义可以很容易地看出,该矩阵是对称的,正定的并且在1上有界,对角线元素等于1。由此得出,值1-prox(n,k)是欧几里得中的平方距离维数空间不大于案例数。资源 在他的实现中,他使用sqrt(1-prox)(其中prox是相似矩阵)将其转换为距离矩阵。我想这与上面引用的“欧氏空间中的平方距离”有关。 有人可以解释为什么为什么在欧几里得空间中1-prox是平方距离,以及为什么他使用平方根来获得距离矩阵吗? 27 random-forest distance similarities euclidean
5 如何将距离(欧几里得)转换为相似度分数 我正在使用表示聚类以聚类说话者的声音。当我将话语与聚集的扬声器数据进行比较时,我得到(基于欧几里得距离)平均失真。该距离可以在范围内。我想将此距离转换为相似度得分。请指导我如何实现这一目标。ķkk[ 0 ,1 ][ 0 ,∞ ][0,∞][0,\infty][ 0 ,1 ][0,1][0,1] 13 clustering k-means distance euclidean
1 Jeffries Matusita距离的优点 根据我正在阅读的一些论文,Jeffries和Matusita距离是常用的。但是除了下面的公式,我找不到更多的信息 JMD(x,y)=∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} 除平方根外,它与欧几里得距离相似 E(x,y)=∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} 在分类方面,据称JM距离比欧几里得距离更可靠。谁能解释为什么这种差异使JM距离更好? 11 classification k-nearest-neighbour euclidean
3 使用哪个距离?例如,曼哈顿,欧几里得,布雷-柯蒂斯等 我不是社区生态学家,但是这些天我正在研究社区生态数据。 除了这些距离的数学运算之外,我无法理解的是每种距离的使用标准以及在何种情况下可以使用该距离。例如,对计数数据使用什么?如何将两个位置之间的倾斜角度转换为距离?还是两个地点的温度或降雨?每个距离的假设是什么,什么时候有意义? 11 distance euclidean
1 为什么Anova()和drop1()为GLMM提供了不同的答案? 我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗? 10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion
1 我的神经网络甚至无法学习欧几里得距离 因此,我试图自学神经网络(用于回归应用,而不是对猫的图片进行分类)。 我的第一个实验是训练网络以实现FIR滤波器和离散傅立叶变换(在“之前”和“之后”信号上进行训练),因为这两个都是线性操作,可以由没有激活功能的单层实现。 两者都很好。 因此,我想看看是否可以添加abs()并使其学习幅度谱。首先,我考虑了在隐藏层中需要多少个节点,并意识到3个ReLU足以满足的粗略近似abs(x+jy) = sqrt(x² + y²),因此我自己对孤复数(2个输入→3个ReLU节点隐藏层→1个)进行了该操作的测试。输出)。有时它起作用: 但是在我尝试的大多数时候,它陷入了局部最小值,无法找到正确的形状: 我已经在Keras中尝试了所有优化器和ReLU变体,但是它们并没有太大的区别。我还能做些其他事情来使像这样的简单网络可靠地融合吗?还是我只是以错误的态度来解决这个问题,而您应该在问题上抛出不必要的更多节点,如果其中一半死亡,这没什么大不了的? 9 machine-learning neural-networks optimization keras euclidean