我最近通过电子邮件收到了以下问题。我将在下面发布答案,但是我很想听听其他人的想法。
您是否将逻辑回归称为非参数检验?我的理解是仅仅标记测试非参数是不够的,因为它的数据不是正态分布的。这更多与缺乏假设有关。逻辑回归确实有假设。
我最近通过电子邮件收到了以下问题。我将在下面发布答案,但是我很想听听其他人的想法。
您是否将逻辑回归称为非参数检验?我的理解是仅仅标记测试非参数是不够的,因为它的数据不是正态分布的。这更多与缺乏假设有关。逻辑回归确实有假设。
Answers:
拉里·瓦瑟曼(Larry Wasserman)将参数模型定义为一组分布,“可以通过有限数量的参数对其进行参数化”。(第87页)相比之下,非参数模型是不能通过有限数量的参数进行参数化的一组分布。
因此,根据该定义,标准逻辑回归是参数模型。逻辑回归模型是参数化的,因为它具有一组有限的参数。具体地,参数是回归系数。这些通常对应于每个预测变量加一个常数。Logistic回归是广义线性模型的一种特殊形式。具体来说,它涉及使用logit链接功能对二项分布的数据进行建模。
有趣的是,可以执行非参数逻辑回归(例如,Hastie,1983)。这可能涉及使用样条曲线或某种形式的非参数平滑来对预测变量的效果进行建模。
我想说逻辑回归根本不是一个检验;但是逻辑回归可能会导致不进行任何测试或进行多次测试。
您完全正确地认为,标记非参数内容是不正常的,这是不够的。我将指数族明确地称为参数,因此我通常将逻辑回归(以及泊松回归和Gamma回归和...)视为参数化,尽管在某些情况下我可能会接受这样的论点,即特定逻辑回归可以被认为是非参数的(或者至少在模糊的手波浪意义上,仅是准“参数”)。
当心将回归称为非参数的两种意义上的混淆。
如果我拟合Theil 线性回归,则在我未定义误差分布的意义上,它是非参数的(它对应于调整回归斜率,直到残差和
另一方面,如果我拟合了核多项式回归(例如局部线性回归),但存在正态误差,
两种感觉都被使用了,但是当涉及到回归时,第二种感觉实际上更常被使用。
在两种意义上也可能都是非参数的,但难度更大(有了足够的数据,例如,我可以拟合Theil局部加权线性回归)。
对于GLM,第二种形式的非参数多元回归包括GAM;第二种形式是Hastie通常进行操作的方式(以及该引用所用的方式)。
我认为逻辑回归是一种参数技术。
这可能是有帮助的,来自Wolfowitz(1942)[《加法划分函数和一类统计假设》,《数学统计年鉴》,1942,13,247-279]:
进入问题的各种随机变量的分布函数[注:复数!!!!一个或多个数量有限的参数,其知识将完全确定所涉及的各种分布函数。为简便起见,我们将这种情况称为参数情况,而将分布的功能形式未知的相反情况称为非参数情况。
另外,在听了很多讨论之后,我发现Noether(1984)对此很有趣[非参数:早期的印象和回忆美国统计学家,1984,38,173-178]:
“非参数一词可能对理论统计学家具有一定的历史意义和意义,但只会使应用统计学家感到困惑。”
Hastie和Tibshirani定义线性回归是一种参数化方法,因为它假设f(X)的线性函数形式。非参数方法没有明确假定f(X)的形式。这意味着非参数方法将基于从模型计算出的f的估计值来拟合模型。Logistic回归确定p(x)= Pr(Y = 1 | X = x),其中概率是由logistic函数计算的,但未假定将此类分类分开的logistic边界,这确认LR也是非参数的