Answers:
直接比较kNN和线性回归是非常困难的,因为它们是非常不同的东西,但是,我认为这里的关键是“建模 ”和“具有关于假设” 之间的区别。
在进行线性回归时,特别要对建模,通常是线中的某物,其中是高斯噪声项。您可以算出最大似然模型等于最小平方和误差模型。
另一方面,正如您第二点所建议的那样,KNN假设您可以通过局部常数函数(坐标之间的一些距离度量)来近似该函数,而无需专门为整个分布建模。
换句话说,线性回归往往会产生的价值是一个好主意对于一些看不见的从刚值,而k近邻将需要一些其他的信息(即k个邻居),作出关于预测,因为值,只是本身的价值,不会给任何信息,因为没有型号为。
编辑:在下面重申此以重新表达此更清晰的内容(请参阅评论)
显然,线性回归和最近邻方法都旨在预测新的值。现在有两种方法。线性回归是通过假设数据位于一条直线上(加上一些噪音)来进行的,因此y的值等于的值乘以该线的斜率。换句话说,线性表达式将数据建模为直线。
现在,最接近的邻居方法不在乎数据的外观(不对数据建模),也就是说,它们不在乎数据是直线,抛物线还是圆等。它只是假设如果和相似,则和相似。请注意,这个假设几乎适用于所有模型,包括我上面提到的所有模型。但是,NN方法无法确定值与(无论它是直线,抛物线等),因为它没有这种关系的模型,它只是假定可以通过以下方式近似寻找近点。
线性回归是基于模型的,因为它假设了数据的结构以生成模型。当您将数据集加载到统计程序中并用于运行线性回归时,输出实际上是一个模型:。您可以将新数据输入该模型并获得预测的输出,因为您已经假设了实际如何生成输出变量。
使用KNN时,实际上根本没有模型-只是假设观测点之间彼此接近 -space在输出变量方面的行为可能类似。您无需将新观察值输入“ KNN模型”,只需确定哪些现有观察值与新观察值最相似,并根据训练数据预测新观察值的输出变量即可。
在讨论聚类方法时,术语“基于模型”与“基于分布”同义。线性回归做出分布假设(误差为高斯分布)。KNN不做任何分布假设。那是区别。