Questions tagged «similarities»

分布,聚类,数据集或其他对象之间的紧密程度。

2
如何找到权重来衡量差异性
我想学习(推论)可以用于聚类的差异度量的属性权重。 我有一些例子对对象的是“相似的”(应该是相同的簇中),以及一些实施例中(Ç 我,ð 我)对对象的是“不相似”(不应位于同一群集中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的d维向量,其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例,从中估算出相似度度量的最佳特征权重?(一个一世,b一世)(一个一世,b一世)(a_i,b_i)(c一世,d一世)(C一世,d一世)(c_i,d_i)ddd 如果有帮助,在我的应用程序中,集中精力学习作为加权L2范数的相异性度量可能是合理的: d(x ,y)= ∑ĴαĴ(x [ j ] − y[ j ] )2。d(X,ÿ)=∑ĴαĴ(X[Ĵ]-ÿ[Ĵ])2。d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. 其中权重不知道和应该汲取的。(或者,某种加权余弦相似度的可能是合理的了。)是否有好的算法来学习权重α Ĵ对于这样的措施,给出的例子?还是我应该考虑其他方法来学习相似性度量/相异性度量?αĴαĴ\alpha_jαĴαĴ\alpha_j 不幸的是,维数非常大(数千个或更高;它是从单词袋特征派生的)。但是,我确实有数以万计的示例。然后,我有成千上万个要聚类的对象,因此对示例进行归纳以学习良好的相异性度量很重要。 我认为这属于半监督聚类的范畴,这听起来像是“适应相似性”的范畴,但是我无法找到用于此目的的算法的清晰描述。

3
使用矩阵乘法计算二进制数据的Jaccard或其他关联系数
我想知道是否有任何可能的方法可以使用矩阵乘法来计算Jaccard系数。 我用了这段代码 jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } 在R中实现这一点是完全可以的。我完成了骰子的相似性,但是被Tanimoto / Jaccard所卡住。有人可以帮忙吗?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.