Questions tagged «spss»

SPSS是统计软件包。对于(a)涉及SPSS作为问题的关键部分或预期答案的(b)不仅仅是关于如何使用SPSS的任何主题问题,都可以使用此标签。

4
比较各个模型之间的逻辑回归系数?
我已经开发了一个logit模型,该模型将应用于六组不同的横截面数据。我要揭示的是,给定自变量(IV)对因变量(DV)的实质性影响是否发生变化,从而控制了在不同时间和跨时间的其他解释。 我的问题是: 如何评估IV和DV之间关联的大小增加/减少? 我可以简单地查看模型中系数的不同大小(大小),还是需要执行其他过程? 如果我需要做其他事情,那是什么,它可以完成/如何在SPSS中完成? 而且,在单个模型中 如果所有变量都编码为0-1,是否可以基于非标准化分数比较自变量的相对大小?还是需要将它们转换为标准化分数? 标准化分数有问题吗?
11 logistic  spss 

4
如何处理缺失值,以便为使用LASSO进行特征选择准备数据?
我的情况: 小样本数量:116 二元结果变量 解释变量的长列表:44 解释变量并非来自我的头上;他们的选择基于文献。 样本中的大多数情况和大多数变量的值都缺失。 选择特征的方法:LASSO R的glmnet程序包不允许我运行glmnet例程,这显然是由于我的数据集中缺少值。似乎有多种方法可以处理丢失的数据,所以我想知道: LASSO是否对我可以使用的估算方法施加任何限制? 插补方法的最佳选择是什么?理想情况下,我需要一种可以在SPSS(最好)或R上运行的方法。 UPDATE1:从下面的一些答案中可以明显看出,在考虑插补方法之前,我确实处理了一些更基本的问题。我想在此添加新的问题。在回答中建议将其编码为常数值并创建一个新变量,以处理“不适用”值和组套索的用法: 您是否可以说,如果我使用组LASSO,我将能够对连续预测变量和分类预测变量使用建议的方法?如果是这样,我认为这相当于创建一个新类别-我很警惕这可能会带来偏差。 有人知道R的glmnet软件包是否支持组LASSO吗?如果没有,有人会建议将逻辑回归与之结合的另一种方法吗?在CRAN资料库中可以找到提及LASSO组的几个选项,最适合我的情况的建议是什么?也许是SGL? 这是我的上一个问题(如何从我的原始长列表中选择变量的子集以执行逻辑回归分析?)的后续文章。 OBS:我不是统计学家。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


3
在因子分析中仅加载两个(或更少)项目(变量)是否可以接受?
我在SPSS中通过因子分析设置了一组20个变量。为了研究的目的,我需要发展6个因素。SPSS已显示8个变量(共20个)已被低权重加载或由于多个因素而均等地加载,因此我将其删除。剩下的12个变量已经在6个因子中成对装入了2个,这是完美的结构-就像我想要的那样,但是现在,一位与我合作的教授希望我找到理由(在什么条件下)每个因子仅保留2个项目是适当的,因为众所周知,因子分析对于每个因子加载3个或更多项目的结果很有用。 谁能帮我解决这个问题,最好还提供公开的参考资料?


3
如何在逻辑回归(SPSS)中处理非二元分类变量
我必须使用许多自变量进行二进制逻辑回归。它们大多数是二进制的,但是一些分类变量具有两个以上的级别。 处理此类变量的最佳方法是什么? 例如,对于一个具有三个可能值的变量,我假设必须创建两个虚拟变量。然后,在逐步回归过程中,最好同时测试两个虚拟变量,或者分别测试它们? 我将使用SPSS,但我不太清楚,所以:SPSS如何处理这种情况? 此外,对于序数分类变量,使用伪变量重新创建序数标度是一件好事吗?(例如,使用三个虚拟变量为一个4状态定序变量,把0-0-0用于电平,为电平2,为电平3和用于电平4,而不是,,和为4个级别)。1个111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
如何正确对待每个主题的多个数据点
我目前正在与someoe争论如何正确处理每个对象的多次测量数据。在这种情况下,在短时间内针对每个受试者内的不同条件收集了每个受试者的数据。所有测量都完全收集相同的变量,只是多个变量。 现在的一种选择是仅按条件对数据进行分组,而不关心多个数据点来自一个主题。但是,每个主题的数据点可能并不完全独立。 另一种选择是,首先对每个受试者的每种状况进行所有测量的平均值,然后比较平均值。但是,这可能会影响重要性,因为在最终分析中未考虑到均值误差较小的问题。 您如何正确分析此类数据?SPSS是否以某种方式解决了这个问题?原则上,应该可以在计算平均值时计算误差容限,而不是在最终分析中考虑误差容限,但是我不认为SPSS会在背后进行某种计算。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
使用Pearson相关和线性回归的Bonferroni校正
我正在针对3个DV的5个IV(5个人格特质,性格外向,和agree,尽责,神经质,开放)运行统计数据,包括PCT态度,CBT态度,PCT与CBT态度。我还添加了年龄和性别,以查看还有其他影响。 我正在测试以查看人格特征是否可以预测DV的态度。 最初,我对所有变量都使用了Pearson相关性(45个测试)。 主要发现是外向性与PCT态度在p = 0.05相关。但是,当我进行45次测试时,我对Bonferroni进行了alpha = 0.05 / 45 = 0.001的校正,因此这一发现无关紧要。 然后,我对所有变量进行了简单的线性回归,对于PCT态度,外向性再次很重要。如果我进行Bonferroni校正,那么它再次显得微不足道。 问题: 我需要Bonferroni纠正Pearson的相关性吗? 如果我这样做了,因此对PCT的态度无忧无虑,那么进行线性回归还有意义吗? 如果我进行线性回归,是否还需要对此进行Bonferroni校正? 我只报告校正后的值还是未校正和校正后的值?

2
了解重复测量方差分析假设以正确解释SPSS输出
我正在调查不同的奖励条件是否会影响任务绩效。我有一个小型研究的数据,该研究分为两组,每组n = 20。我收集了一项涉及在3种不同“奖励”条件下的性能的任务的数据。这项任务涉及在3种情况下的两次表现,但以随机顺序进行。我想看看在每个不同的“奖励”条件下,每个小组的任务绩效是否存在平均差异。 IV =组类型 DV = 3种条件下任务绩效的平均值 我从重复测量方差分析中获得了输出,并可以访问SPSS中的原始数据集,但是不确定如何进行。由于Pallant的文字有些局限,因此我无法找到这种解释的分步指南。我的特殊问题包括以下几个方面: 我应该单独检查每个变量的正常性还是在IV的每个级别的组合中检查其正常性?如果组合使用,如何检查? 我要先检查莫赫利测验吗?如果违反,那是什么意思?如果没有违反,那意味着什么? 什么时候可以查看多元测试表或受试者内部效应的测试?我不确定何时使用这两个(或两者兼而有之)? 看看成对比较总是可以吗?如果多变量或受试者内效应未显示显着性(即P <0.05),则这样做似乎是违反直觉的,但我再次不确定。

4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.