Questions tagged «k-nearest-neighbour»

k最近邻分类器这些分类器是基于内存的,不需要模型就可以拟合。给定一个查询点x0,我们找到距离x0最近的k个训练点x(r),r = 1,...,k,然后使用k个邻居中的多数投票进行分类。



1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
为什么有人会使用KNN进行回归?
据我了解,我们只能建立一个位于训练数据间隔内的回归函数。 例如(仅一个面板是必要的): 如何使用KNN回归器预测未来?同样,它似乎仅近似位于训练数据间隔内的函数。 我的问题:使用KNN回归器有什么优势?我知道这是一个非常强大的分类工具,但在回归场景中似乎效果不佳。

3
结合机器学习模型
我是数据挖掘/机器学习/等方面的新手。并且一直在阅读有关将多个模型和同一模型的运行组合起来以改善预测的几种方法。 通过阅读几篇论文(在理论和希腊字母上通常很有趣并且很出色,但是在代码和实际示例上却很短),我的印象是它应该像这样: 我采用一个模型(knn,RF等),并获得0到1之间的分类器列表。我的问题是如何合并这些分类器列表中的每一个?我是否在训练集中运行相同的模型,以使进入最终模型的列数相同或还有其他技巧? 如果有任何建议/示例包含R代码,那就太好了。 注意:这是针对训练集中有100k行,测试集中有70k和10列的数据集。

2
今天,“最近的邻居”何时有意义?
在1999年,Beyer等人。问, “最近的邻居”何时有意义? 自1999年以来,是否有更好的方法来分析和可视化距离平坦度对NN搜索的影响? [给定的]数据集是否可以为1-NN问题提供有意义的答案?10-NN问题?100-NN问题? 您的专家今天将如何处理这个问题? 1月24日星期一编辑: “距离变白”作为“随着尺寸增加的距离平坦度”的简称呢? 观察“距离泛白”的一种简单方法是运行2-NN,并绘制到最近邻居和第二近邻的距离。下图显示 了蒙特卡洛(Monte Carlo)对于一系列ncluster和尺寸的dist 1和dist 2。此示例显示了缩放的绝对差| dist 2 -dist 1 |的相当好的距离对比度。(相对差| dist 2 / dist 1 |→1作为维数→∞,因此变得毫无用处。) 在给定的上下文中应该使用绝对误差还是相对误差,当然取决于存在的“真实”噪声:困难。 建议:总是运行2-NN;2个邻居在靠近时很有用,在不靠近时有用。

1
k-NN计算复杂度
采用朴素搜索方法(无kd树或类似树)的k -NN算法的时间复杂度是多少? 我也考虑到超参数k对其时间复杂度感兴趣。我发现矛盾的答案: O(nd + kn),其中n是训练集的基数,d是每个样本的维数。[1] O(ndk),这里n又是训练集的基数,d是每个样本的维数。[2] [1] http://www.csd.uwo.ca/courses/CS9840a/Lecture2_knn.pdf(第18/20页) [2] http://www.cs.haifa.ac.il/~rita/ml_course/lectures/KNN.pdf(第18/31页)


3
为KNN选择最佳K
我执行了5倍CV选择KNN的最佳K。似乎K越大,误差越小... 抱歉,我没有图例,但不同的颜色代表不同的尝试。总共有5个,似乎它们之间几乎没有差异。当K变大时,误差似乎总是会减小。那么如何选择最佳K?在这里K = 3会是一个很好的选择,因为在K = 3之后图形会趋于平稳吗?

2
为什么需要在KNN中缩放数据
有人可以向我解释为什么在使用K个最近邻居时为什么需要规范化数据。 我已经尝试过查找,但是似乎还是无法理解。 我找到以下链接: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 但是在这种解释中,我不明白为什么其中一项功能的较大范围会影响预测。

1
维数诅咒对某些模型的影响是否大于对其他模型的影响?
我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名,这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了,我觉得它们会受到尺寸诅咒的影响。但是事实并非如此,因为这些模型使它们成为了竞争中的佼佼者。因此,回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗? 具体来说,我对以下模型感兴趣(仅因为这些是我知道/使用的模型): 线性和逻辑回归 决策树/随机森林/加强树 神经网络 支持向量机 神经网络 k均值聚类

5
KNN归因R包
我正在寻找KNN归因软件包。我一直在查看插补包(http://cran.r-project.org/web/packages/imputation/imputation.pdf),但是由于某种原因,KNN 插补功能(即使遵循描述中的示例)也似乎归零(如下所示)。我一直在环顾四周,但仍找不到任何东西,因此想知道是否有人对好的KNN插补包有其他建议? w ^ 在下面的代码中-NA值替换为零-不替换为Knn平均值 require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

4
用kNN处理关系,权重和投票
我正在编写kNN算法,想了解以下内容: 抢七局: 如果在多数表决中没有明确的获胜者会怎样?例如,所有k个最近的邻居都来自不同的类别,或者对于k = 4,有2个来自A类的邻居和2个来自B类的邻居? 如果由于更多的邻居具有相同的距离而无法精确确定k个最近的邻居,会发生什么情况?例如,对于距离列表,(x1;2), (x2;3.5), (x3;4.8), (x4;4.8), (x5;4.8), (x6;9.2)将无法确定k = 3或k = 4最近的邻居,因为第3至第5个邻居都具有相同的距离。 重量: 我读到,在选择获胜级别之前,最好权衡k个最近的邻居。这是如何运作的?即,邻居如何加权,然后如何确定类别? 多数投票的替代方案: 除多数表决外,还有其他规则/策略来确定获胜者吗?

4
行规范化的目的是什么
我理解列归一化背后的原因,因为即使没有按相同的比例尺对特征进行加权,也可以使特征得到相等的加权-但是,在最近的相邻文献中,列和行均被归一化。什么是行归一化/为什么要对行进行归一化?具体来说,行归一化的结果如何影响行向量之间的相似度/距离?

3
自适应核密度估计器?
谁能用自适应核密度估计器报告其经验? (有很多同义词:自适应|变量|可变宽度,KDE |直方图|插值器...) 可变核密度估计 表示“我们在样本空间的不同区域中改变核的宽度。有两种方法……”实际上更多:更多是在一定半径范围内的邻居,KNN最近邻居(通常是K),Kd树,多重网格... 当然,没有任何一种方法可以做所有事情,但是自适应方法看起来很有吸引力。 例如,参见有限元方法中的自适应2d网格的精美图片 。 我想听听对实际数据有效的/无效的,特别是在2d或3d中> = 100k分散的数据点。 添加11月2日:这是一个“笨拙的”密度(逐段x ^ 2 * y ^ 2),最近邻估计以及高斯KDE与Scott因子的关系图。虽然一(1)个示例没有证明任何内容,但它确实表明NN可以很好地适应陡峭的山丘(并且使用KD树,在2d,3d中速度很快...)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.