Questions tagged «assumptions»

指统计程序产生有效估计和/或推断的条件。例如,许多统计技术都要求假设数据是以某种方式随机抽样的。有关估计量的理论结果通常需要对数据生成机制进行假设。

1
为什么非正态分布的错误会影响我们的重要性陈述的有效性?
考虑OLS模型时,存在一个正态性假设,即误差是正态分布的。我一直在浏览交叉验证,这听起来像Y和X不一定是正常的,以便使错误正常。我的问题是,为什么当我们出现非正态分布的错误时,重要性声明的有效性受到了损害?为什么置信区间太宽或太窄?

1
研究逻辑回归的稳健性,以防止违反逻辑线性
我正在执行具有二进制结果(启动和不启动)的逻辑回归。我混合的预测变量都是连续变量或二分变量。 使用Box-Tidwell方法,我的连续预测变量之一可能违反了logit线性的假设。拟合优度统计没有迹象表明拟合是有问题的。 随后,我再次运行回归模型,将原始连续变量替换为:首先是平方根变换,其次是变量的二分形式。 在检查输出时,拟合优度似乎略有提高,但残差成为问题。参数估计值,标准误差和仍然相对相似。在我的假设中,在这三个模型中,数据的解释都没有改变。exp(β)exp⁡(β)\exp(\beta) 因此,就我的结果的实用性和数据解释的意义而言,似乎应该使用原始的连续变量来报告回归模型。 我想知道这一点: Logistic回归何时能抵抗logit假设线性度的潜在违反? 鉴于我上面的示例,在模型中包括原始连续变量似乎可以接受吗? 有什么参考或指南可以推荐何时可以令人满意地接受模型对潜在的logit线性违反的鲁棒性?

2
Wilcoxon符号秩检验需要序数或区间数据吗?
看过多个在线资源后,我似乎无法得到一个直接的答案。有人可以为我澄清一下序数数据是否足以用于WSRT,如果不是,符号测试是否是合适的选择?最后,这是针对我在大学的学位论文项目,因此,如果可以在答案中包含任何参考文献/文献,那将不胜感激,因为我需要以任何一种方式证明我选择测试的理由,并且到目前为止仅从网站上找到了答案(无法参考!)

3
在因子分析中仅加载两个(或更少)项目(变量)是否可以接受?
我在SPSS中通过因子分析设置了一组20个变量。为了研究的目的,我需要发展6个因素。SPSS已显示8个变量(共20个)已被低权重加载或由于多个因素而均等地加载,因此我将其删除。剩下的12个变量已经在6个因子中成对装入了2个,这是完美的结构-就像我想要的那样,但是现在,一位与我合作的教授希望我找到理由(在什么条件下)每个因子仅保留2个项目是适当的,因为众所周知,因子分析对于每个因子加载3个或更多项目的结果很有用。 谁能帮我解决这个问题,最好还提供公开的参考资料?


1
处理峰度产生的异常值
我想知道是否有人可以帮助我了解有关峰度的信息(即,是否有任何方法可以转换您的数据以减少它?) 我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示出相当高的峰度值(即瘦小体分布),这是由于许多参与者对该变量给出的分数完全相同。我确实有一个特别大的样本量,因此根据中心极限定理,违反正态性仍然可以。 但是,问题在于,峰度特别高的事实在我的数据集中产生了许多单变量离群值。这样,即使我转换数据或除去/调整异常值,峰度的高水平也意味着下一个最高分会自动变为异常值。我打算使用(判别函数分析)。如果违规是由偏斜而不是异常值引起的,则据说DFA可以很好地抵制偏离正常状态的情况。此外,据说DFA特别受数据中异常值的影响(Tabachnick&Fidel)。 关于如何解决这个问题的任何想法?(我最初的想法是某种控制峰度的方法,但是如果我的大多数样本都给出类似的评分,那不是一件好事吗?)

2
在参数模型中测试比例风险假设
我知道要在Cox PH模型的上下文中测试比例风险假设,但是我还没有遇到任何与参数模型有关的事情?有没有可行的方法来测试某些参数模型的PH假设? 似乎应该假设参数模型与半参数Cox模型仅略有不同? 例如,如果我想拟合Gompertz死亡率曲线(如下所示),应如何测试PH假设? μXHX(吨)小号X(吨)= a b e一个X + βž= ∫Ť0μX + 吨dt = b (e一个牛逼− 1 )e一个X + βž= exp ( - ħX(t ))μX=一个bË一个X+βžHX(Ť)=∫0ŤμX+ŤdŤ=b(Ë一个Ť-1个)Ë一个X+βž小号X(Ť)=经验值(-HX(Ť))\begin{align} \mu_{x}&=abe^{ax+\beta Z}\\ H_{x}(t)&=\int_{0}^{t}\mu_{x+t}\,dt=b(e^{at}-1)e^{ax+\beta Z}\\ S_{x}(t)&=\text{exp}(-H_{x}(t)) \end{align} 我总体上想问的是:对于参数生存模型,有哪些方法可以评估模型的拟合优度并测试模型的假设(如果有)? 我需要检查参数模型中的PH假设还是仅用于Cox模型?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
最小二乘假设
假定以下线性关系: Yi=β0+β1Xi+uiYi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i,其中YiYiY_i是因变量,XiXiX_i的单个自变量和uiuiu_i误差项。 根据Stock&Watson(《计量经济学概论》;第4章),第三个最小二乘假设是XiXiX_i和的第四矩是uiuiu_i非零且有限的(0&lt;E(X4i)&lt;∞ and 0&lt;E(u4i)&lt;∞)(0&lt;E(Xi4)&lt;∞ and 0&lt;E(ui4)&lt;∞)(0<E(X_i^4)<\infty \text{ and } 0<E(u_i^4)<\infty)。 我有三个问题: 我不完全理解此假设的作用。如果该假设不成立,或者我们需要此假设进行推断,OLS是否有偏见且不一致? Stock和Watson写道:“这种假设限制了使用XiXiX_i或极大值进行观察的可能性uiuiu_i。” 但是,我的直觉是这种假设是极端的。如果我们有较大的离群值(例如第四矩很大),但是如果这些值仍然有限,我们会遇到麻烦吗?顺便说一句:离群值的基础定义是什么? 我们可以重新定义为:“ XiXiX_i和的峰度uiuiu_i是非零且有限的吗?”


1
什么时候可以写出“我们假设经验分布为正态分布”?
在医学等应用学科的教学中,根深蒂固的是,人群中生物医学数量的测量遵循正常的“钟形曲线”。Google对字符串“我们假定为正态分布”的搜索返回结果!听起来,“在气候变化研究中,“鉴于极少的极端数据点,我们假设温度异常呈正态分布”。或在企鹅的争议较小的文件上“假设雏鸡的孵化日期呈正态分布”;或 “我们假设GDP增长冲击呈正态分布”,23,90023,900\small 23,900, ... 和其他东西)。 最近,我发现自己质疑计数数据由于其严格的正性而被视为正态分布。当然,计数数据是离散的,这使得它们的正常性更加人为。但是,即使撇开后面的观点,为什么应该将连续的经验性测量(例如,体重,身高或血糖浓度)(通常被认为是“连续的”)视为正常的呢?他们所拥有的负面已实现的观察结果绝不会超过计数! 我了解到,当标准偏差明显低于平均值时,表明负值很少(“ 95%范围检查”),这可能是一个实际的假设,并且频率直方图也可以支持该偏差。但是问题似乎并不简单,快速搜索便产生了有趣的东西。 在《自然》杂志上,我们可以在DF Heath的一封信中找到以下陈述:“我想指出的是,对于某些类型的数据的统计分析,假设数据是从正常人群中提取的,通常是错误的。对数正态分布的假设更好。这种选择已被统计学家,经济学家和物理学家广泛使用,但由于某些原因,其他学科的科学家常常忽略了这一点。” Limpert指出,“对数正态模型可能在许多科学家认为正态为有效近似的意义上可以作为近似值”,同时指出正态拟合优度检验的功效较低,并且选择困难处理小样本时,凭经验得出正确的分布。 因此,问题是,“在没有进一步支持证据的情况下,何时可以接受应用科学中经验度量的正态分布?” 而且,为什么其他选择(例如对数正态)没有,甚至可能不会被采用?

2
这两个布劳希-帕根检验之间有什么区别?
在某些数据上使用R并尝试查看我的数据是否为异方差,我发现了Breusch-Pagan测试的两个实现,即bptest(包lmtest)和ncvTest(包车)。但是,这些产生不同的结果。两者有什么区别?您何时应该选择使用其中一个? &gt; model &lt;- lm(y ~ x) &gt; bp &lt;- bptest(model) &gt; bp studentized Breusch-Pagan test data: model BP = 3.3596, df = 1, p-value = 0.06681 &gt; ncvTest(model) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 3.858704 Df = 1 p = 0.04948855 这些示例表明,根据测试,我的数据在一种情况下是异方差的,在另一种情况下是同方的。我确实在这里找到了这个问题,所以bptest可能是学生化的,而ncvTest可能不是,但是,那意味着什么呢?

1
关于t检验的正态假设的问题
对于t检验,根据大多数文献,假设人口数据呈正态分布。我不知道为什么。t检验不是只要求样本均值的抽样分布是正态分布,而不是总体吗? 如果情况是t检验最终只要求样本分布具有正态性,那么总体可以看起来像任何分布,对吗?只要样本数量合理即可。那不是中央极限定理所陈述的吗? (我在这里指的是一个样本或独立样本的t检验)

2
残差与潜在的干扰有何关系?
在最小二乘法中,我们要估计模型中的未知参数: Yj=α+βxj+εj(j=1...n)Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) 一旦完成(对于某些观测值),我们将获得拟合的回归线: Yj=α^+β^x+ej(j=1,...n)Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) 现在显然我们想检查一些图以确保满足假设。假设您要检查均方差,但是,实际上我们正在检查残差。假设您检查了残差与预测值的关系图,如果这表明我们看到了明显的异方差性,那么这与干扰项什么关系?残差中的异方差是否表示扰动方面的异方差? ejeje_jεjεj\varepsilon_j

2
使用波尔函数检查比例赔率假设是否在序数逻辑回归中成立
我已使用MASS软件包中的“ polr”函数对具有15个连续解释变量的序数分类响应变量运行序数逻辑回归。 按照UCLA指南中的建议,我已使用代码(如下所示)检查我的模型是否符合比例赔率假设。但是,我有点担心输出的含义,即不仅各个切点之间的系数都相似,而且也完全相同(请参见下图)。 FGV1b &lt;- data.frame(FG1_val_cat=factor(FGV1b[,"FG1_val_cat"]), scale(FGV1[,c("X","Y","Slope","Ele","Aspect","Prox_to_for_FG", "Prox_to_for_mL", "Prox_to_nat_border", "Prox_to_village", "Prox_to_roads", "Prox_to_rivers", "Prox_to_waterFG", "Prox_to_watermL", "Prox_to_core", "Prox_to_NR", "PCA1", "PCA2", "PCA3")])) b &lt;- polr(FG1_val_cat ~ X + Y + Slope + Ele + Aspect + Prox_to_for_FG + Prox_to_for_mL + Prox_to_nat_border + Prox_to_village + Prox_to_roads + Prox_to_rivers + Prox_to_waterFG + Prox_to_watermL + Prox_to_core …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.