自由度可以是非整数吗?


27

当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
通常,是的,df可以是浮点数。
大卫·莱恩

6
您可能要问实数(或非整数的数);浮点数是一个与实现有关的计算机概念(一种近似实数的方法),但您实际上是在询问基本的数学概念(因此最好提出一个数学问题)。人们经常会遇到这样的情况:出于某种原因(出于某种原因,并不总是很好),但在实现上仍然以浮点数形式存储在概念上为整数的数量。我建议“模型可以具有非整数的自由度吗?” 为标题。
Glen_b-恢复莫妮卡

Answers:


40

ķķ+1个

我们通常将自由度视为自由参数的数量,但是在某些情况下,参数不是完全自由的,因此可能难以计数。例如,在平滑/正则化时可能会发生这种情况。

局部加权回归/核方法,平滑样条的情况就是这种情况的例子-自由参数的总数不是您可以通过将预测变量相加而轻易地计算出来的,因此需要更一般的自由度概念。

gamÿ^=一种ÿTR一种TR一种一种ŤTR2一种-一种一种ŤTR一种X一种

TR一种

一世ÿ^一世ÿ一世TR一种ÿ^ÿ^一世ÿ一世

对于诸如由拟合的模型gam,这些各种度量通常不是整数。

(我强烈建议您阅读这些参考文献关于此问题的讨论,尽管在某些情况下故事可能会变得更加复杂。例如,请参见[4])

[1] Hastie,T.和Tibshirani,R.(1990), 伦敦
通用加法模型
:查普曼和霍尔。

[2] Hastie,T.,Tibshirani,R.和Friedman,J.(2009),
《统计学习的要素:数据挖掘,推理和预测》,第二版
Springer-Verlag。
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye,J.(1998),
“关于测量和纠正数据挖掘和模型选择的影响”
,《美国统计协会杂志》,第1卷。93,441,pp 120-131

[4] Janson,L.,Fithian,W.和Hastie,T.(2013年),
“有效自由度:有缺陷的隐喻”
https://arxiv.org/abs/1312.7851


7
这与这种情况无关,但是当方差不相等时,Welch两个样本t检验可以具有非整数的自由度。
Michael R. Chernick's

5
在重复测量方差分析中,ε校正的df也可以。
大卫·莱恩

2
另一个参考资料是statweb.stanford.edu/~tibs/ElemStatLearn/printings/…第5.4.1节自由度和平滑矩阵
Adrian

1
@Adrian谢谢;我一直在想是否只添加该引用(特别是在您指向的部分中是否提及eqn 5.16)。我的结论是,这是一个好主意,添加进去。
Glen_b -Reinstate莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.