Questions tagged «spss»

SPSS是统计软件包。对于(a)涉及SPSS作为问题的关键部分或预期答案的(b)不仅仅是关于如何使用SPSS的任何主题问题,都可以使用此标签。

25
Python作为统计工作台
许多人使用主要工具(例如Excel或其他电子表格,SPSS,Stata或R)来满足其统计需求。他们可能会针对非常特殊的需求转向某些特定的程序包,但是可以使用简单的电子表格或常规统计信息包或统计信息编程环境来完成很多事情。 我一直很喜欢Python作为一种编程语言,对于简单的需求,编写一个简短的程序来计算我的需求很容易。Matplotlib让我可以绘制它。 有没有人完全从R切换到Python?R(或任何其他统计信息包)具有许多特定于统计信息的功能,并且它具有的数据结构使您可以考虑要执行的统计信息,而不必考虑数据的内部表示形式。Python(或其他一些动态语言)的好处是允许我使用熟悉的高级语言进行编程,并且它使我能够与驻留数据或可以进行测量的真实系统进行编程交互。但是我还没有找到任何可以让我用“统计术语”表达事物的Python软件包-从简单的描述统计到更复杂的多元方法。 如果我想将Python用作“统计工作台”来代替R,SPSS等,您能推荐什么? 根据您的经验,我会有什么得失?
355 r  spss  stata  python 

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R何时平方负数?
我的理解是不能为负,因为它是R的平方。但是,我在SPSS中运行了具有单个自变量和因变量的简单线性回归。我的SPSS输出给我R 2的负值。如果我要根据R手动计算,则R 2将为正。SPSS做了什么将其计算为负值?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 我使用的代码: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 我得到负值。谁能解释这意味着什么?

8
PCA后跟旋转(例如varimax)是否仍然是PCA?
我试图重现从SPSS一些研究(使用PCA)在R.根据我的经验,principal() 功能从包psych是差一点的唯一功能(或者,如果我没记错的话,死的)来匹配输出。为了匹配与SPSS中相同的结果,我必须使用parameter principal(..., rotate = "varimax")。我见过一些论文谈论它们如何进行PCA,但是基于SPSS的输出和旋转的使用,听起来更像是因子分析。 问题:即使旋转(使用varimax),PCA还是PCA吗?我的印象是,这实际上可能是因子分析……如果不是这样,我遗漏了哪些细节?


3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
因子分析中的最佳因子提取方法
SPSS提供了几种因子提取方法: 主成分(根本不是因子分析) 未加权最小二乘 广义最小二乘法 最大似然 主轴 阿尔法分解 图像分解 忽略第一种方法,不是因素分析(而是主成分分析,PCA),哪种方法是“最佳方法”?不同方法的相对优势是什么?基本上,我将如何选择使用哪一个? 另一个问题:是否应该从这6种方法中获得相似的结果?


4
大于2x2的列联表中的Fisher精确检验
我被教导只在2x2的列联表中应用Fisher精确测试。 问题: 费舍尔本人是否曾设想过将这种测试用于大于2x2的表中(我知道他在尝试猜测一个老妇是否可以分辨是否向茶中添加了牛奶还是向茶中添加了茶的同时设计了该测试的传说) Stata允许我对任何列联表使用Fisher的精确测试。这有效吗? 当列联表中的预期单元数小于5时,是否最好使用FET?

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
二项式,负二项式和Poisson回归之间的差异
我正在寻找有关二项式,负二项式和泊松回归之间差异的信息,以及这些回归最适合哪种情况。 我是否可以在SPSS中执行任何测试,以告诉我这些回归中哪一个最适合我的情况? 另外,由于没有在回归部分可以看到的选项,因此如何在SPSS中运行泊松或负二项式? 如果您有任何有用的链接,我将非常感谢。

2
CHAID与CRT(或CART)
我正在使用SPSS在大约20个预测变量(类别很少的类别)的数据集上运行决策树分类。CHAID(卡方自动交互检测)和CRT / CART(分类和回归树)给了我不同的树。谁能解释CHAID与CRT的相对优点?使用一种方法比另一种方法有什么含义?
23 spss  cart 

2
如何对时间序列进行聚类?
我有关于聚类分析的问题。有3000家公司,必须根据5年内的用电量进行分组。每个公司在5年中每小时都有价值。我想找出在一段时间内某些公司的使用功率模式是否相同。结果应用于每日用电量预测。如果您对如何在SPSS中对时间序列进行聚类有什么想法,请与我分享。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.