Questions tagged «survey»

指用于从总体中收集样本的工具。调查通常是指对人口进行抽样,并且主要是通过管理调查表或采访个人来完成的。在分层人群中进行抽样调查可能需要比简单随机抽样更为复杂的抽样,才能获得更精确的种群参数估计值。抽样设计和调查数据分析属于“调查方法”。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
在svyglm和glm中使用权重
我想知道权重的处理之间的区别svyglm和glm 我正在twangR中使用软件包创建倾向得分,然后将其用作权重,如下所示(此代码来自twang文档): library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate Std. Error t …
18 r  survey 

2
当我们只有关于当前素食者的调查数据时,如何计算对素食主义者的平均坚持时间?
调查了随机样本。他们被问是否吃素食。如果他们回答“是”,他们还被要求说明他们吃素饮食已经连续多长时间了。我想使用此数据来计算对素食主义的平均坚持时间。换句话说,当某人成为素食主义者时,我想知道他们平均会长期保持素食。假设: 所有受访者都给出了正确准确的答复 世界是稳定的:素食主义的流行没有改变,平均遵守时间也没有改变。 到目前为止我的推理 我发现分析世界的玩具模型很有帮助,每年年初两个人成为素食主义者。每次,他们其中一名保持素食一年,另一年保持三年。显然,这个世界的平均遵守时间为(1 + 3)/ 2 = 2年。这是说明该示例的图形。每个矩形代表一个素食主义时期: 假设我们在第4年中期(红线)进行了调查。我们得到以下数据: 如果从第3年开始的任何一年进行调查,我们将获得相同的数据。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 我们低估了我们的假设,因为我们假设所有人在调查后都不再是素食主义者,这显然是错误的。为了获得接近于这些参与者保持素食的真实平均时间的估计,我们可以假设他们平均报告了素食主义时期的一半时间,并且将报告的持续时间乘以2。从人群中(就像我正在分析的人群),我认为这是一个现实的假设。至少它会给出正确的期望值。但是,如果只做一倍,我们的平均值为2.5,这被高估了。这是因为人保持素食的时间越长,他在当前素食者样本中的可能性就越大。 然后,我认为当前素食者样本中某人的概率与他们的素食主义时长成正比。为了解决这种偏见,我尝试将当前素食者的人数除以他们预计的坚持时间: 但是,这也会给出错误的平均值: (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 如果将素食者的人数除以他们的正确坚持时间,就会得出正确的估计: (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 但是,如果我使用预测的坚持时间是行不通的,那是我实际拥有的全部。我不知道还能尝试什么。我读了一些有关生存分析的信息,但是我不确定在这种情况下如何应用它。理想情况下,我还希望能够计算90%的置信区间。任何提示将非常感谢。 编辑:可能上面的问题没有答案。但是还有另一项研究随机询问了人们是否是素食主义者,以及过去有多少次素食主义者。我也知道学习和其他方面每个人的年龄。也许可以将此信息与当前素食者的调查结合使用,以某种方式获得平均值。实际上,我所说的研究只是其中的一个难题,但它是非常重要的一个难题,我想从中得到更多。

8
如何对待不合逻辑的调查答复
我已经向艺术家样本进行了调查。问题之一是要说明以下各项所产生的收入百分比:艺术活动,政府支持,私人养老金,与艺术无关的活动。大约有65%的人回答说百分数之和是100。其他人则没有:例如,有人回答说,他们收入的70%来自他/她的艺术活动,而60%来自收入政府。 , 等等。我的问题是:我应该如何对待这些观察?我应该删除,修改或保留它们吗?谢谢!
13 survey  bias 

8
调查:大型用户群中有25%是代表吗?
我的雇主目前正在对公司对办公室的态度(即情绪)进行全公司范围的调查。过去,他们对业务的各个领域(假设有10个非常不同的部门)和其中的所有员工(假设整个公司共有1000名员工)开放调查,每个部门的员工人数不相等,只有一个特定部门大概是组织总人口的50%。 今年,该调查仅对员工总数的25%开放,选择是“随机”的 因此,我有两个查询: 如果这是对整个员工基础的真正随机选择,那么假设所有这些员工都做出了回应,那么该统计上如何有效的样本呢? 如果在每个部门级别上是随机的,例如每个部门的25%,那么考虑一个部门的有效样本如何超过总人口的50%。 我本来以为要确定公司中的多数情绪,则每个部门至少需要50%的员工基础才能提供真实的阅读情绪。 更新:调查未执行。从所选择的25%中不能保证100%的响应率。如果没有填写调查表,则没有激励或惩罚手段。


2
从问卷中找出无用的问题
我正在开发问卷。为了提高其可靠性和有效性,我想使用统计方法。 我想消除答案始终相同的问题。这意味着几乎所有参与者都对这些问题给出了相同的答案。 现在我的问题是: 这类无用的问题的答案总是相同的,与使用环境无关的技术术语是什么? 有什么方法可以识别此类问题?

3
验证问卷
我正在为我的论文设计问卷。我正在验证问卷的过程中,已将Cronbach's alpha检验应用于初始样本组。对问卷的回答是李克特量表;任何人都可以建议任何进一步的测试来帮助测试其有效性。我不是统计学专家,所以我们将不胜感激。 我一直在做一些研究,似乎可以进行Rasch分析了,有没有人有免费的软件站点可以应用此测试和建议?

2
复杂调查数据中LASSO之后的交叉验证
我正在尝试使用具有连续结果的LASSO对一些候选预测变量进行模型选择。目标是选择具有最佳预测性能的最佳模型,通常可以从LASSO获得调整参数的求解路径后,通过K倍交叉验证来完成。这里的问题是数据来自复杂的多阶段调查设计(NHANES),并进行了聚类采样和分层。估计部分并不难,因为glmnetR中可以获取采样权重。但是交叉验证部分对我而言不太清楚,因为现在不再观察到观测值了,该程序如何解释代表有限总体的权重采样? 所以我的问题是: 1)如何对复杂的调查数据进行K折交叉验证以选择最佳调整参数?更具体地说,如何将样本数据适当地划分为训练集和验证集?以及如何定义预测误差的估计? 2)是否有选择最佳调整参数的替代方法?

2
在逻辑回归中可视化类别的影响及其普遍性的最佳方法是什么?
我需要使用民意调查数据来介绍有关候选人投票的主要预测因子的信息。我已经使用我关心的所有变量进行了逻辑回归,但是我找不到一种很好的方式来显示此信息。 我的客户不仅在乎效果的大小,而且在乎效果的大小与具有此类属性的总体大小之间的相互作用。 如何在图形中处理呢?有什么建议么? 这是一个例子: 当候选变量中因变量为Vote / Not时,变量SEX(Male = 1)的为2.3,这是取幂并被视为比值比或概率后的大数。但是,进行此调查的社会只有30%的男性。因此,尽管人非常支持该候选人,但对于试图赢得多数选举的候选人而言,他们的人数并不重要。ββ\beta


6
是否有一个站点可以将我的调查发布到该站点,以便我可以得到该人群的样本代表?
这仅适用于我的高中高级项目,因此它不一定是完美的。我正在做一个有关全球变暖的项目,我想调查人们的意见。我知道,如果我使用方便的同学样本,就会有很多偏见。我想知道互联网上是否有一个网站可以发布我的调查问卷,让随机人回答,这样我就可以尽可能地接近SRS。如果没有,我会对进行调查的其他建议感兴趣。
11 survey  internet 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.