Questions tagged «degrees-of-freedom»

术语“自由度”用于描述统计的最终计算中可以自由变化的值的数量。也可用于“有效自由度”。

11
如何理解自由度?
在Wikipedia中,对统计自由度有三种解释: 在统计中,自由度数是统计的最终计算中可以自由变化的值的数目。 统计参数的估计可以基于不同数量的信息或数据。进入参数估计的独立信息的数量称为自由度(df)。通常,参数估计的自由度等于进入估计的独立分数的数量减去在参数本身的估计中用作中间步骤的参数的数量(在样本方差中为一,因为样本均值是唯一的中间步骤)。 在数学上,自由度是随机向量的域的维数,或本质上是“自由”分量的数量:在完全确定向量之前,需要知道多少个分量。 粗体字是我不太了解的内容。如果可能,一些数学公式将有助于阐明这一概念。 这三种解释是否也彼此一致?

2
Hosmer-Lemeshow测试中的自由度
逻辑回归模型的Hosmer-Lemeshow检验(HLT)的拟合优度(GOF)的检验统计量定义如下: 然后将样本分为十分位数,每十分位数计算以下数量:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i,即中观察到的阳性病例;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i),即在观察到的否定案例;DdDdD_d E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i,即,十分位数中阳性案例的估计数;DdDdD_d E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i),即,十分位数中否定情况的估计数量;DdDdD_d 其中是第个观测值的观测二进制结果,是该观测值的估计概率。我yiyiy_iiiiπ^iπ^i\hat{\pi}_i 然后将测试统计量定义为: X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g−−−−−−−−−−√)2,X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g)2,X^2 = \displaystyle \sum_{h=0}^{1} \sum_{g=1}^d \left( \frac{(O_{hg}-E_{hg})^2}{E_{hg}} \right)= \sum_{g=1}^d \left( \frac{ O_{1g} - n_g \hat{\pi}_g}{\sqrt{n_g (1-\hat{\pi}_g) \hat{\pi}_g}} \right)^2, 其中π^Gπ^G\hat{\pi}_g是在等分的平均估计的概率GGg和让ñGñGn_g是公司在等分的数量。 根据Hosmer-Lemeshow(请参阅此链接),此统计数据(在某些假设下)具有χ2χ2\chi^2分布,自由度为(d− 2 …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


2
如何比较和验证混合效应模型?
通常如何比较(线性)混合效果模型?我知道可以使用似然比检验,但是如果一个模型不是另一个正确模型的“子集”,这将不起作用? 模型df的估算是否总是简单明了?固定效应数量+估计的方差成分数量?我们是否忽略随机效应估计? 验证呢?我的第一个想法是交叉验证,但是考虑到数据的结构,随机折叠可能不起作用。“遗漏一个主题/集群”的方法是否合适?那把一个观察结果留在外面怎么办? 锦葵Cp可解释为模型预测误差的估计。通过AIC进行模型选择会尝试最大程度地减少预测误差(因此,如果误差是高斯型,我相信Cp和AIC应该选择相同的模型)。这是否意味着AIC或Cp可以用于根据预测误差从一些非嵌套模型的集合中选择“最佳”线性混合效应模型?(前提是它们适合相同的数据)BIC是否仍然更有可能在候选人中选择“真实”模型? 我还给人的印象是,在通过AIC或BIC比较混合效果模型时,我们仅将固定效果计算为“参数”,而不是实际模型df。 关于这些主题有没有好的文献?是否值得研究cAIC或mAIC?他们在AIC之外是否有特定的应用程序?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
两重分布之差的分布是什么
...为什么? 假设,是独立的随机变量,分别具有均值和方差。我的基本统计书告诉我的分布具有以下属性:X1个X1个X_1μ 1,μ 2 σ 2 1,σ 2 2 X 1 - X 2X2X2X_2μ1个,μ2μ1个,μ2\mu_1,\mu_2σ21个,σ22σ1个2,σ22\sigma^2_1,\sigma^2_2X1个- X2X1个-X2X_1-X_2 Ë(X1个- X2)= μ1个- μ2Ë(X1个-X2)=μ1个-μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 现在,假设, 是自由度为, t分布。的分布是什么?X 2 n 1 − 1 n 2 − 2 X 1 − X 2X1个X1个X_1X2X2X_2ñ1个− 1ñ1个-1个n_1-1ñ2− 2ñ2-2n_2-2X1个- X2X1个-X2X_1-X_2 这个问题已经过编辑:最初的问题是“两个t分布的差异的自由度是多少?” 。mpiktas已经指出,这是没有道理的,因为不是t分布的,无论近似值(即高df)如何。X1个- X2X1个-X2X_1-X_2X1个,X2X1个,X2X_1,X_2

4
神经网络中的“自由度”是什么意思?
在Bishop的书《模式分类和机器学习》中,它描述了一种在神经网络环境下进行正则化的技术。但是,我不理解一段描述训练过程中自由度的数量随模型复杂性而增加的段落。相关报价如下: 作为控制网络有效复杂性的一种方式,使用正规化的另一种方法是早期停止的过程。非线性网络模型的训练对应于针对一组训练数据定义的误差函数的迭代减少。对于用于网络训练的许多优化算法(例如共轭梯度),误差是迭代索引的非递增函数。但是,相对于独立数据测得的误差(通常称为验证集)通常首先显示出减小的趋势,然后随着网络开始过度拟合而增大。因此,可以相对于验证数据集在最小错误点停止训练,如图5.12所示,以便获得具有良好泛化性能的网络。在这种情况下,有时会根据网络中的有效自由度来对网络的行为进行定性解释,其中,该自由度从小开始,然后在训练过程中逐渐增加,这与有效自由度的稳定增长相对应。模型的复杂性。 它还说,参数的数量在训练过程中会增加。我假设通过“参数”来指代网络隐藏单元控制的权重数。也许我错了,因为通过正则化过程可以防止权重的大小增加,但是权重不会改变。难道是指找到大量隐藏单位的过程? 神经网络的自由度是多少?训练期间增加哪些参数?

2
回归的自然三次样条的定义
我正在从Hastie等人的《统计学习的数据挖掘,推理和预测的要素》一书中学习样条曲线。我在第145页上发现,自然三次样条曲线在边界结之外是线性的。有KKK结,ξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_K在栓和下面给出关于在书中这样一个样。 问题1:如何释放4个自由度?我没有这部分。 问题2:在定义时ķ = ķ然后ð ķ(X )= 0dk(X)dk(X)d_k(X)k=Kk=Kk=K。作者在这个公式中想做什么?这如何帮助确保样条曲线在边界结之外是线性的?dK(X)=00dK(X)=00d_K(X) = \frac 0 0

2
方差不等的t检验中非整数自由度的解释
SPSS t检验程序在比较2个独立均值时报告2次分析,其中1次假设均等方差,1次假设均等方差。假设方差相等时的自由度(df)始终是整数值(等于n-2)。如果未假定等方差,则df为非整数(例如11.467),并且不接近n-2。我正在寻求对用于计算这些非整数df的逻辑和方法的解释。

2
报告Welch t检验的自由度
不等方差的Welch t检验(也称为Welch-Satterthwaite或Welch-Aspin)通常具有非整数的自由度。报告测试结果时应如何引用这些自由度? 根据各种消息来源,“通常在查询标准t表之前先四舍五入为最接近的整数” *-这很有意义,因为这种舍入方向是保守的。**一些较旧的统计软件也可以这样做(例如,版本之前的Graphpad Prism 6),一些在线计算器仍然可以使用。如果已使用此程序,则报告四舍五入的自由度似乎是适当的。(尽管使用一些更好的软件可能更合适!) 但是绝大多数现代软件包都使用小数部分,因此在这种情况下,似乎应该引用小数部分。我看不出引用多于两个小数位是适当的,因为千分之一的自由度只会对p值产生微不足道的影响。 环顾Google学者,我可以看到一些论文用df整数,小数点后一位或小数点后两位。是否有关于使用多少精度的准则?此外,如果软件使用完整的小数部分,应在引用DF进行四舍五入向下到的数字的期望数目(例如7.5845...→7.57.5845...→7.57.5845... \rightarrow 7.5至1个DP或→7→7\rightarrow 7作为整体数目),为是适当的与保守计算,或者对我来说似乎更明智,按常规取整(至最接近的整数),以使7.5845...→7.67.5845...→7.67.5845... \rightarrow 7.6至1 dp或→8→8\rightarrow 8至最接近的整数? 编辑:除了了解报告非整数df的理论上最合理的方法外,了解人们在实践中的工作也将是一件好事。大概期刊和风格指南有其自己的要求。我很好奇,像APA这样需要有影响力的风格指南。据我所知(他们的手册不能在线免费获得),APA普遍认为几乎所有内容都应显示到小数点后两位,除了p值(可能是2或3 dp)和百分比(四舍五入为整数)。最接近的百分比) -覆盖回归斜率,吨统计,˚F统计,χ2χ2\chi^2统计资料等等。考虑到第二个小数位在有效位数上的差异非常大,这很不合逻辑,并且在2.47中表示的精度与982.47中的精度完全不同,但是这可能解释了我在不科学的样本中看到的带有两个小数位的Welch df的数量。 ∗∗*例如Ruxton,GD不等方差t检验是学生t检验和Mann–Whitney U检验的未充分使用的替代方法,行为生态学(2006年7月/八月)17(4):688-690 doi:10.1093 / beheco / ark016 ∗∗∗∗**虽然韦尔奇-萨特思韦特近似本身可能会或可能不会是保守的,在它不是保守的,舍去自由度的情况下是没有整体补偿的保证。

1
岭回归的AIC:自由度与参数数量
我想计算岭回归模型的AICc。问题是参数的数量。对于线性回归,大多数人建议参数的数量等于估计系数的数量加上sigma(误差的方差)。 当涉及到岭回归时,我读到帽子矩阵的迹线(自由度(df))仅用作AIC公式中的参数项数(例如,此处或此处)。 它是否正确?我还可以简单地使用df来计算AICc吗?我可以简单地将+1添加到df中以解决误差差异吗?


1
LASSO自由度的直觉
邹等。“关于套索的“自由度””(2007年)表明,非零系数的数量是对套索的自由度的无偏且一致的估计。 对我来说似乎有点违反直觉。 假设我们有一个回归模型(变量为零均值) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. 假设的无限制OLS估计值为\ hat \ beta_ {OLS} = 0.5。对于非常低的惩罚强度,它可能与LASSO估计值\ beta大致吻合。ββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta 进一步假设特定惩罚强度\ lambda ^ *的LASSO估计λ∗λ∗\lambda^*值为β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4。例如,对于使用交叉验证发现的现有数据集,λ∗λ∗\lambda^*可能是“最优” λλ\lambda。 如果我理解正确,则在两种情况下自由度均为1,因为两次均存在一个非零回归系数。 题: 即使β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4表示拟合的“自由度”比\ hat \ beta_ {OLS} = 0.5小,两种情况下的自由度又如何相同β^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5? 参考文献: 邹辉,特雷弗·哈斯蒂和罗伯特·蒂布希拉尼。“关于套索的“自由度”。” 统计年鉴 35.5(2007):2173-2192。

3
使用
简介:是否有任何统计理论支持使用(自由度基于残差)进行逻辑回归系数检验,而不是标准正态分布检验?Ťtt 不久前,我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时,在默认设置下,将使用分布而不是标准正态分布来测试逻辑回归系数。1即,GLIMMIX报告与所述比率的柱β 1 / √Ťtt1个1^1(我将称之为Ž在这一问题的其余部分),但也报道了“自由度”一栏,以及一个p基于假设-值吨分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部,我提供了一些R和SAS代码和输出以进行演示和比较。2β^1个/ var (β^1个)------√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}žzzpppŤttzzz22^2 这让我感到困惑,因为我认为对于逻辑回归等广义线性模型,在这种情况下没有统计理论支持的使用。相反,我以为我们对此案了解的是ttt 是“近似”正态分布的;zzz 对于小样本量,这种近似值可能会很差; 但是,不能像我们在正态回归的情况下那样假设具有t分布。zzzttt 现在,在直觉上,对我来说似乎合理的是,如果近似正态分布,则实际上它可能具有某种基本呈“ t状”的分布,即使它不完全是t。因此,在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点:zzzttttttttt 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布?zzzttt 如果没有这样的理论,那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。ttt 更笼统地说,除了直觉上基本上是明智的直觉之外,对GLIMMIX在这里所做的事情是否有任何实际的支持? R代码: summary(glm(y ~ x, data=dat, family=binomial)) R输出: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.