Questions tagged «spss»

SPSS是统计软件包。对于(a)涉及SPSS作为问题的关键部分或预期答案的(b)不仅仅是关于如何使用SPSS的任何主题问题,都可以使用此标签。

2
计算因子得分的方法,PCA或因子分析中的“得分系数”矩阵是什么?
根据我的理解,在基于相关性的PCA中,我们得到的是因子(在这种情况下,主成分)加载,而变量和因子之间的相关性就是什么。现在,当我需要在SPSS中生成因子得分时,我可以直接获取每个因子的每个受访者的因子得分。我还观察到,如果将“ 组件得分系数矩阵 ”(由SPSS生成)乘以标准化原始变量,则得到的分数得分与从SPSS获得的因子得分相同。 有人可以帮我了解如何计算“成分得分系数矩阵”或“因子得分系数矩阵”(通过它们可以计算因子或成分得分)吗?不同的计算因子评分方法在此矩阵上有何不同?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
使用R或SPSS可视化Likert响应
我分为2组(A组为43个,B组为39个),有82位受访者完成了对65个李克特问题的调查,每个问题的范围为1-5(非常同意-非常不同意)。因此,我有一个具有66列(每个问题1个+ 1表示组分配)和82行(每个回答者1个)的数据框。 使用R或SPSS可以使任何人都知道可视化此数据的好方法。 我需要这样的东西:( 来自Jason Bryer) 但是我无法使代码的最初部分起作用。另外,我找到了一个很好的示例,展示了如何从以前的交叉验证帖子中可视化Likert数据:可视化Likert项目响应数据,但是没有有关如何使用R或SPSS创建这些居中计数图或堆积条形图的指南或说明。


3
预测异方差数据的方差
我正在尝试对异方差数据进行回归分析,以预测线性模型中的误差方差和均值。像这样: ÿ(x ,t )ξ(x ,t )ÿ¯(x ,t )σ(x ,t )= y¯(x ,t ) + ξ(x ,t ),〜ñ(0 ,σ(x ,t )),= y0+ a x + b t ,= σ0+ c x + dŤ 。y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 换句话说,数据包括在和各种值下重复测量。我假设这些测量值是“真实”平均值,它是和的线性函数,加性高斯噪声的标准偏差(或方差,我还没有决定)也线性地取决于。(我可以允许对和进行更复杂的依赖-线性形式没有很强的理论动机-但我不希望在现阶段使事情复杂化。)X 吨ˉ Ý(X ,吨)X …

5
用探索性因子分析解释R和SPSS之间的差异
我是计算机科学的研究生。我一直在为一个研究项目做一些探索性因素分析。我的同事(领导项目的人)使用SPSS,而我更喜欢使用R。这没关系,直到我们发现两个统计数据包之间存在重大差异。 我们使用主轴因子分解作为提取方法(请注意,我很清楚PCA和因子分析之间的区别,并且至少没有故意地没有使用PCA)。根据我的阅读,根据R文档,这应该对应于R中的“主轴”方法,以及SPSS中的“主轴分解”或“未加权最小二乘” 。我们使用一种倾斜旋转方法(特别是promax),因为我们期望相关因子,并且正在解释模式矩阵。 在R和SPSS中运行两个过程,存在主要差异。模式矩阵给出不同的负载。尽管这给变量关系带来了几乎相同的因素,但是在相应的载荷之间存在多达0.15的差异,这似乎比仅采用不同的提取方法和promax旋转实现的预期要大。但是,这并不是最惊人的差异。 由这些因素解释的累积方差在SPSS结果中约为40%,在R结果中约为31%。这是一个巨大的差异,这导致我的同事希望使用SPSS而不是R。我对此没有问题,但是相差很大,使我认为我们可能错误地解释了某些内容,这是一个问题。 当我们进行非加权最小二乘分解时,SPSS更加令人困惑,报告了不同类型的解释方差。初始特征值解释的方差的比例为40%,而平方负荷提取和(SSL)的解释方差的比例为33%。这使我认为初始特征值不是要查看的适当数字(我怀疑这是旋转之前解释的方差,尽管它太大了,超出了我的范围)。更令人困惑的是,SPSS还显示了旋转SSL,但没有计算出解释方差的百分比(SPSS告诉我,具有相关因子意味着我无法添加SSL来找到总方差,这与我所见的数学很有意义)。来自R的报告的SSL与这些都不匹配,R告诉我它描述了总方差的31%。R的SSL与轮换SSL最接近。来自原始相关矩阵的R的特征值确实与来自SPSS的初始特征值匹配。 另外,请注意,我一直在使用不同的方法,并且SPSS的ULS和PAF似乎最接近R的PA方法。 我的具体问题: 在使用因子分析实现的R和SPSS之间,我期望有多少差异? 我应该解释SPSS的哪些平方荷载总和,初始特征值,提取或旋转? 还有其他我可能会忽略的问题吗? 我对SPSS和R的呼叫如下: SPSS: FACTOR /VARIABLES <variables> /MISSING PAIRWISE /ANALYSIS <variables> /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results <- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)

5
逐步逻辑回归和抽样
我正在对SPSS中的一组数据进行逐步逻辑回归。在此过程中,我将模型拟合到一个随机子集,该子集约为。样本总数的60%,约330例。 我发现有趣的是,每次重新采样数据时,最终模型中都会弹出不同的变量。最终模型中总是存在一些预测变量,但其他预测变量会根据样本而突然出现。 我的问题是这个。处理此问题的最佳方法是什么?我希望看到预测变量的收敛,但事实并非如此。从操作的角度来看,某些模型更具直觉意义(并且更容易向决策者解释),而其他模型则更适合数据。 简而言之,既然变数乱七八糟,那么您将如何建议我呢? 提前谢谢了。

5
缺失值的多重插补
我想在某些约束下使用插补替换数据集中的缺失值。 例如,我希望估算的变量x1大于或等于我的另外两个变量,例如x2和x3。我也想x3通过或者被估算0或者>= 14,我想x2无论以任何打杀0或>= 16。 我尝试在SPSS中为多个插值定义这些约束,但是在SPSS中,我只能定义最大值和最小值。有什么方法可以在SPSS中定义进一步的约束,或者您知道任何R包可以让我为缺失值的插值定义此类约束吗? 我的数据如下: x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, 18,0, 19, 0, NA, 0, 0, 0, 0, 0, 0,NA,NA, NA, 22, NA, 0, 0) x3 = c(0, 0, 0, 0, …

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?


5
逻辑回归中更好的默认分类
全面披露:这是家庭作业。我提供了指向数据集的链接(http://www.bertelsen.ca/R/logistic-regression.sav) 我的目标是在此数据集中最大程度地预测违约贷款。 到目前为止,我提出的每个模型都预测> 90%的非默认者,但是<40%的默认者使分类效率总体达到80%。那么,我想知道变量之间是否存在交互作用?在逻辑回归中,除了测试每种可能的组合之外,还有没有办法确定潜在的交互作用?或者,一种提高违约者分类效率的方法。 我被困住了,任何建议都会对您选择单词,R代码或SPSS语法有所帮助。 下面的直方图和散点图概述了我的主要变量(二分变量除外) 主要变量的说明: age: Age in years employ: Years with current employer address: Years at current address income: Household income in thousands debtinc: Debt to income ratio (x100) creddebt: Credit card debt in thousands othdebt: Other debt in thousands default: Previously defaulted (dichotomous, yes/no, 0/1) ed: …
12 r  logistic  spss  self-study 

2
我应该报告不重要的结果吗?
我已经进行了Kruskal Wallis测试,对于某些问题,p值并不重要。我是否会以有意义的方式报告此问题,并说明df,检验统计量和p值?因此,将进行这样的Kruskal Wallis检验,但发现结果并不显着H(3)= 2.119,p> 0.05(或者我在此处声明确切的p值(.548))

1
显示有序数据-均值,中位数和均值等级
我有一些顺序数据不是正态分布的,所以我决定使用Mann-Whitney U检验进行非参数检验。我正在寻找七个分数的组间差异-每个主题的分数分别为0、1、2或3。我很难弄清楚如何显示我的数据! 如果我使用中位数(和中位数的IQR)显示数据,那么根本就不清楚差异在哪里,因为在大多数情况下,中位数落在0或1上。因此,尽管Mann-Whitney U检验显示出显着差异,桌子看起来没意思。 我也可以使用手段呈现数据。那里有一些科学论文说,您可以使用具有序数数据的均值,但是不能对分数之间的差异做出相同类型的假设(例如0和1之间的差异与1和1之间的差异不相同) 2)。尽管表中的数字很好地说明了我使用它们时的故事,但使用方法会引起一些争议。 第三种选择是使用SPSS在曼恩·惠特尼(Mann-Whitney)输出中给我的平均排名。平均等级是各组之间正在比较的,所以也许我应该使用那些?我唯一遇到的问题是,平均排名对实际数据没有任何意义(例如,使用平均等级,我看不到对象更接近3,而控件更接近1。) 最后的选择是在将得分分为两组(低分为0和1,高分为2和3)后,比较受试者和对照者进行卡方分析。但是,当我这样做时,差异并不明显(可能是由于多种原因)。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.