Logistic回归是非参数检验吗?


15

我最近通过电子邮件收到了以下问题。我将在下面发布答案,但是我很想听听其他人的想法。

您是否将逻辑回归称为非参数检验?我的理解是仅仅标记测试非参数是不够的,因为它的数据不是正态分布的。这更多与缺乏假设有关。逻辑回归确实有假设。


7
(+1)为记录起见,并作为对问题断言的对立点,我知道没有可靠的参考文献将非参数方法定义(或表征)为“缺乏假设”。 所有统计程序均作假设。实际上,大多数非参数过程确实对潜在的概率分布做出了限制性的定量假设,但是这些假设并未将可能的事务状态缩小为具有有限维实数流形结构的集合。
whuber

如果我们正在谈论线性逻辑回归(根据您所写的答案,这似乎是隐式的),那么这当然是一个参数模型,但是值得注意的是,如果您使用非参数平滑函数来拟合协变量效果,例如则对作为x的函数的估计概率没有参数约束。这不仅适用于物流链接;相同的逻辑适用于任何可逆链接功能。
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
2013年

在这里问一个相关的问题。我开始感觉到,某些 GLM案例(例如逻辑模型)提供了非参数检验。我会看一下Wasserman的书,尽管(除非我记错了)关于他工作的一些原理和发现存在一些分歧。
AdamO '18 -4-9

Answers:


19

拉里·瓦瑟曼(Larry Wasserman)将参数模型定义为一组分布,“可以通过有限数量的参数对其进行参数化”。(第87页)相比之下,非参数模型是不能通过有限数量的参数进行参数化的一组分布。

因此,根据该定义,标准逻辑回归是参数模型。逻辑回归模型是参数化的,因为它具有一组有限的参数。具体地,参数是回归系数。这些通常对应于每个预测变量加一个常数。Logistic回归是广义线性模型的一种特殊形式。具体来说,它涉及使用logit链接功能对二项分布的数据进行建模。

有趣的是,可以执行非参数逻辑回归(例如,Hastie,1983)。这可能涉及使用样条曲线或某种形式的非参数平滑来对预测变量的效果进行建模。

参考文献

  • Wasserman,L.(2004年)。所有统计信息:统计推断的简要课程。施普林格出版社。
  • Hastie,T。(1983)。非参数逻辑回归。SLAC PUB-3160,六月。PDF格式

模型是一组分布吗?那里缺少一些必要的东西。
rolando2

通常问自己一个问题并回答吗?


好的,抱歉,我不知道

别担心。对我来说,该站点的主要目的是创建其他人在将来寻找答案时发现的资源。贡献自己的答案将为您提供所有帮助。
Jeromy Anglim

16

我想说逻辑回归根本不是一个检验;但是逻辑回归可能会导致不进行任何测试或进行多次测试。

您完全正确地认为,标记非参数内容是不正常的,这是不够的。我将指数族明确地称为参数,因此我通常将逻辑回归(以及泊松回归和Gamma回归和...)视为参数化,尽管在某些情况下我可能会接受这样的论点,即特定逻辑回归可以被认为是非参数的(或者至少在模糊的手波浪意义上,仅是准“参数”)。

当心将回归称为非参数的两种意义上的混淆。

如果我拟合Theil 线性回归,则在我未定义误差分布的意义上,它是非参数的(它对应于调整回归斜率,直到残差和xyx

另一方面,如果我拟合了核多项式回归(例如局部线性回归),但存在正态误差, yx

两种感觉都被使用了,但是当涉及到回归时,第二种感觉实际上更常被使用。

在两种意义上可能都是非参数的,但难度更大(有了足够的数据,例如,我可以拟合Theil局部加权线性回归)。

对于GLM,第二种形式的非参数多元回归包括GAM;第二种形式是Hastie通常进行操作的方式(以及该引用所用的方式)。


3

一个有用的区别可能会对上面的答案有所帮助:Andrew Ng给出了启发式的解释,认为在模型中成为非参数模型 从斯坦福大学的CS-229机器学习课程的课程材料中第1讲中

Ng说(第14-15页):

θiθih

我认为这是一种有用的对比方法,因为它直接融合了复杂性的概念。非参数模型并不是天生就不那么复杂,因为它们可能需要保留更多的训练数据。这只是意味着您不会通过将训练数据压缩为有限参数化的计算来减少对训练数据的使用。为了提高效率或公正性或其他许多属性,您可能需要参数化。但是,如果您有能力放弃参数设置并保留大量数据,则可能会提高性能。


0

我认为逻辑回归是一种参数技术。

这可能是有帮助的,来自Wolfowitz(1942)[《加法划分函数和一类统计假设》,《数学统计年鉴》,1942,13,247-279]:

进入问题的各种随机变量的分布函数[注:复数!!!!一个或多个数量有限的参数,其知识将完全确定所涉及的各种分布函数。为简便起见,我们将这种情况称为参数情况,而将分布的功能形式未知的相反情况称为非参数情况。

另外,在听了很多讨论之后,我发现Noether(1984)对此很有趣[非参数:早期的印象和回忆美国统计学家,1984,38,173-178]:

“非参数一词可能对理论统计学家具有一定的历史意义和意义,但只会使应用统计学家感到困惑。”


0

Hastie和Tibshirani定义线性回归是一种参数化方法,因为它假设f(X)的线性函数形式。非参数方法没有明确假定f(X)的形式。这意味着非参数方法将基于从模型计算出的f的估计值来拟合模型。Logistic回归确定p(x)= Pr(Y = 1 | X = x),其中概率是由logistic函数计算的,但未假定将此类分类分开的logistic边界,这确认LR也是非参数的

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.