Questions tagged «distance»

分布或变量之间的距离的度量,例如n空间中点之间的欧几里得距离。

2
寻找已知数量的圆心,以最大化固定距离内的点数
我有一组二维数据,我想在其中找到指定数量的圆心()的中心,这些圆使指定距离()内的点总数达到最大。NNNRRR 例如,我有10,000个数据点,我想找到圆的中心,它们在的半径内捕获了尽可能多的点。预先给出了5个中心和10个半径,而不是从数据中得出的。(Xi,Yi)(Xi,Yi)(X_i, Y_i)N=5N=5N=5R=10R=10R=10 圆内数据点的存在是二进制“或”或“命题”。如果,则相距11个单位与100个单位之外的点的值没有差异,因为它们都>10。类似地,在圆内,靠近中心与靠近边缘也没有任何附加值。 。数据点在圆圈之一中或不在圆圈中。R=10R=10R=10 是否有一个好的算法可以用来解决这个问题?这些似乎与聚类技术有关,但不是最小化平均距离,如果该点在个点中的任意一个点的内,则“距离”函数为0 ,否则为1。RRRNNN 我更喜欢在R中找到一种方法来执行此操作,但是任何方法都是可以理解的。
10 r  clustering  distance 

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
如何找到两个均匀分布点之间的预期距离?
如果我要定义坐标 (X1,Y1)(X1,Y1)(X_{1},Y_{1}) 和 (X2,Y2)(X2,Y2)(X_{2},Y_{2}) 哪里 X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40).X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40)。X_{1},X_{2} \sim \text{Unif}(0,30)\text{ and }Y_{1},Y_{2} \sim \text{Unif}(0,40). 我如何找到它们之间距离的期望值? 我在想,因为距离是由(X1个-X2)2+ (ÿ1个-ÿ2)2-------------------√)(X1个-X2)2+(ÿ1个-ÿ2)2)\sqrt{(X_{1}-X_{2})^{2} + (Y_{1}-Y_{2})^{2}}) 期望值就是 (1/30+1/30)2+(1/40+1/40)2(1/30+1/30)2+(1/40+1/40)2(1/30 + 1/30)^2 + (1/40+1/40)^2?

4
非对称距离测度的聚类
如何将要素与非对称距离度量聚类? 例如,假设您要以星期几为特征对数据集进行聚类-从星期一到星期五的距离与从星期五到星期一的距离是不同的。 您如何将其纳入聚类算法的距离度量中?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.