Questions tagged «survey»

指用于从总体中收集样本的工具。调查通常是指对人口进行抽样,并且主要是通过管理调查表或采访个人来完成的。在分层人群中进行抽样调查可能需要比简单随机抽样更为复杂的抽样,才能获得更精确的种群参数估计值。抽样设计和调查数据分析属于“调查方法”。

1
SurveyMonkey是否会忽略您获得非随机样本的事实?
SurveyMonkey提供了一些步骤和图表,可根据您的总体数量来确定在给定的误差范围或置信区间内需要的样本量。 SurveyMonkey样本大小 该图表是否只是忽略了这样一个事实,即您只会得到那些愿意回答调查问卷的人,因此不会获得随机样本? 当我输入此内容时,我会收到警告,问题似乎是主观的,所以也许我没有正确询问。它不是真的与SurveyMonkey有关,而是一个更笼统的问题-您是否可以使用一些我不知道的高级技术从自愿响应数据中实际计算出置信区间? 在出口民意测验或国家调查中,显然他们必须处理这个问题。我的教育并未深入探讨调查抽样技术,但我认为它涉及收集人口统计数据,并以此来了解您所代表的样本的代表性。 除此之外,对于一个简单的在线调查,他们是否只是假设那些愿意回答的人是整个人口的随机样本?

1
如何从人们感兴趣的领域的调查中解释这个PCA双线图?
背景:我询问了数百名受访者对所选区域的兴趣(按李克特五分制,其中1分表示“不感兴趣”,5分表示“感兴趣”)。 然后我尝试了PCA。下图是前两个主要组成部分的投影。颜色用于性别,PCA箭头是原始变量(即兴趣)。 我注意到: 点(受访者)被第二部分很好地分开了。 没有左箭头。 有些箭比其他箭短得多。 变量趋向于形成集群,而不是观察值。 看来,指向男性的向下箭头主要是男性的利益,指向上方的箭头主要是女性的利益。 一些箭头既不指向下方也不指向上方。 问题:如何正确解释点(受访者),颜色(性别)和箭头(变量)之间的关系?从这个情节中可以得出关于受访者及其兴趣的其他结论吗? 数据可以在这里找到。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
倾向得分加权对平均治疗效果的置信区间?
我试图使用倾向评分权重(特别是IPTW)从观察数据中估计平均治疗效果。我想我正在正确计算ATE,但是我不知道如何在考虑逆倾向得分权重的同时计算ATE的置信区间。 这是我用来计算平均治疗效果的方程式(参考Stat Med。2010年9月10日; 29(20):2137–2148。): 其中受试者总数,治疗状态,结果状态,倾向得分。ATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=\frac1N\sum_1^N\frac{Z_iY_i}{p_i}-\frac1N\sum_1^N\frac{(1-Z_i)Y_i}{1-p_i}N=N=N=Zi=Zi=Z_i=Yi=Yi=Y_i=pi=pi=p_i= 有人知道R包会考虑权重来计算平均治疗效果的置信区间吗?可以在survey这里包帮助吗?我想知道这是否行得通: library(survey) sampsvy=svydesign(id=~1,weights=~iptw,data=df) svyby(~surgery=='lump',~treatment,design=sampsvy,svyciprop,vartype='ci',method='beta') #which produces this result: treatment surgery == "lump" ci_l ci_u No 0.1644043 0.1480568 0.1817876 Yes 0.2433215 0.2262039 0.2610724 我不知道从哪里可以找到比例之间的差异的置信区间(即平均治疗效果)。

1
个人问题调查方法
我的一位统计学家朋友告诉我,一种有趣的技术可用于在处理敏感问题的调查中获得诚实的答复。我记得该方法的基本要点,但想知道是否有人知道细节,是否有人引用它。 故事是,佛罗里达州AMA希望评估医生之间的药物使用情况。他们发出了一个死者的问卷。IIRC上的指示大致是“滚死。如果您曾经吸毒或得到6,则写下6;否则写下任何数字”。这样的想法是,如果有人拿出医生的问卷调查表并看到一个六,他可以说他没有服药,他只是碰巧一个六。

1
EFA显然支持单一因素,措施在内部是一致的,但是CFA是否适合?
我正在探索一项10项自我报告测评的心理测量特性。我有两个独立样本中的大约400个案例。这些项目以4点李克特量表完成。全民教育显然支持单因素解决方案(例如,第一特征值超过6,所有其他本征值低于1),而克朗巴赫的alpha值很好(例如.90)。没有项目具有较低的项目-总相关性。 我最初想做一个CFA(EFA只是我发现CFA不好之后的后续工作),测试一个单因素模型。令我惊讶的是,该模型的适用性相对较差: CFI=.91 TLI=.88 RMSEA=.13 此外,每个项目的负载都非常好(.65+)。 奇怪的是SRMR=.05,这是可以接受的/很好。 修改索引建议我将各地的错误相关联。如果有明确的理由这样做(例如,某些项目的措词非常相似),我会这样做;但是,所有度量的措词都类似,并且将所有错误术语关联起来将是奇怪而痛苦的。 我从未见过这样的情况。这项措施在内部是一致的,显然是全民教育中的一个因素,但在CFA中显示不佳。在两个独立的样本(来自不同大陆)中,结果是一致的。我尝试了两因素CFA(将5个随机项目分组),拟合度相同,甚至略胜一筹。 这是我的问题: 考虑到EFA / Cronbach alpha /因子负荷,为什么CFI / TLI / RMSEA的拟合度如此差? 为什么SRMR好,而其他指数却不好?我知道他们会衡量不同的事物,但以我的经验,他们几乎总是会聚在一起。 我应该关联一些错误吗? 示例项目: 你有缺点的想法 您的想法很难忘记 你一直在想情况

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.