统计和大数据 survey

3

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

从lmer模型计算效果的可重复性

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

在svyglm和glm中使用权重

我想知道权重的处理之间的区别svyglm和glm 我正在twangR中使用软件包创建倾向得分，然后将其用作权重，如下所示（此代码来自twang文档）： library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate Std. Error t …

18 r survey

2

当我们只有关于当前素食者的调查数据时，如何计算对素食主义者的平均坚持时间？

调查了随机样本。他们被问是否吃素食。如果他们回答“是”，他们还被要求说明他们吃素饮食已经连续多长时间了。我想使用此数据来计算对素食主义的平均坚持时间。换句话说，当某人成为素食主义者时，我想知道他们平均会长期保持素食。假设：所有受访者都给出了正确准确的答复世界是稳定的：素食主义的流行没有改变，平均遵守时间也没有改变。到目前为止我的推理我发现分析世界的玩具模型很有帮助，每年年初两个人成为素食主义者。每次，他们其中一名保持素食一年，另一年保持三年。显然，这个世界的平均遵守时间为（1 + 3）/ 2 = 2年。这是说明该示例的图形。每个矩形代表一个素食主义时期：假设我们在第4年中期（红线）进行了调查。我们得到以下数据：如果从第3年开始的任何一年进行调查，我们将获得相同的数据。（2 * 0.5 + 1.5 + 2.5）/ 4 = 1.25 我们低估了我们的假设，因为我们假设所有人在调查后都不再是素食主义者，这显然是错误的。为了获得接近于这些参与者保持素食的真实平均时间的估计，我们可以假设他们平均报告了素食主义时期的一半时间，并且将报告的持续时间乘以2。从人群中（就像我正在分析的人群），我认为这是一个现实的假设。至少它会给出正确的期望值。但是，如果只做一倍，我们的平均值为2.5，这被高估了。这是因为人保持素食的时间越长，他在当前素食者样本中的可能性就越大。然后，我认为当前素食者样本中某人的概率与他们的素食主义时长成正比。为了解决这种偏见，我尝试将当前素食者的人数除以他们预计的坚持时间：但是，这也会给出错误的平均值：（2 * 1 +⅓* 3 +⅕* 5）/（2 +⅓+⅕）= 4 / 2.533333 = 1.579年如果将素食者的人数除以他们的正确坚持时间，就会得出正确的估计：（1 +⅓*（1 + 3 + 5））/（1 +⅓* 3）= 2年但是，如果我使用预测的坚持时间是行不通的，那是我实际拥有的全部。我不知道还能尝试什么。我读了一些有关生存分析的信息，但是我不确定在这种情况下如何应用它。理想情况下，我还希望能够计算90％的置信区间。任何提示将非常感谢。编辑：可能上面的问题没有答案。但是还有另一项研究随机询问了人们是否是素食主义者，以及过去有多少次素食主义者。我也知道学习和其他方面每个人的年龄。也许可以将此信息与当前素食者的调查结合使用，以某种方式获得平均值。实际上，我所说的研究只是其中的一个难题，但它是非常重要的一个难题，我想从中得到更多。

16 survival mean missing-data survey weighted-mean

8

如何对待不合逻辑的调查答复

我已经向艺术家样本进行了调查。问题之一是要说明以下各项所产生的收入百分比：艺术活动，政府支持，私人养老金，与艺术无关的活动。大约有65％的人回答说百分数之和是100。其他人则没有：例如，有人回答说，他们收入的70％来自他/她的艺术活动，而60％来自收入政府。，等等。我的问题是：我应该如何对待这些观察？我应该删除，修改或保留它们吗？谢谢！

13 survey bias

8

调查：大型用户群中有25％是代表吗？

我的雇主目前正在对公司对办公室的态度（即情绪）进行全公司范围的调查。过去，他们对业务的各个领域（假设有10个非常不同的部门）和其中的所有员工（假设整个公司共有1000名员工）开放调查，每个部门的员工人数不相等，只有一个特定部门大概是组织总人口的50％。今年，该调查仅对员工总数的25％开放，选择是“随机”的因此，我有两个查询：如果这是对整个员工基础的真正随机选择，那么假设所有这些员工都做出了回应，那么该统计上如何有效的样本呢？如果在每个部门级别上是随机的，例如每个部门的25％，那么考虑一个部门的有效样本如何超过总人口的50％。我本来以为要确定公司中的多数情绪，则每个部门至少需要50％的员工基础才能提供真实的阅读情绪。更新：调查未执行。从所选择的25％中不能保证100％的响应率。如果没有填写调查表，则没有激励或惩罚手段。

13 survey survey-sampling

5

为什么声称样品通常比人口普查更准确？

在学习采样过程时，我遇到以下两个陈述： 1）采样误差主要导致可变性，非采样误差导致偏差。 2）由于存在非抽样误差，因此抽样通常比人口普查更准确。我不知道如何理解这两个陈述。获取这两个语句的基本逻辑是什么？

13 estimation sampling survey bias

2

从问卷中找出无用的问题

我正在开发问卷。为了提高其可靠性和有效性，我想使用统计方法。我想消除答案始终相同的问题。这意味着几乎所有参与者都对这些问题给出了相同的答案。现在我的问题是：这类无用的问题的答案总是相同的，与使用环境无关的技术术语是什么？有什么方法可以识别此类问题？

12 survey reliability psychometrics validity

3

验证问卷

我正在为我的论文设计问卷。我正在验证问卷的过程中，已将Cronbach's alpha检验应用于初始样本组。对问卷的回答是李克特量表；任何人都可以建议任何进一步的测试来帮助测试其有效性。我不是统计学专家，所以我们将不胜感激。我一直在做一些研究，似乎可以进行Rasch分析了，有没有人有免费的软件站点可以应用此测试和建议？

12 survey scales psychometrics scale-construction

2

复杂调查数据中LASSO之后的交叉验证

我正在尝试使用具有连续结果的LASSO对一些候选预测变量进行模型选择。目标是选择具有最佳预测性能的最佳模型，通常可以从LASSO获得调整参数的求解路径后，通过K倍交叉验证来完成。这里的问题是数据来自复杂的多阶段调查设计（NHANES），并进行了聚类采样和分层。估计部分并不难，因为glmnetR中可以获取采样权重。但是交叉验证部分对我而言不太清楚，因为现在不再观察到观测值了，该程序如何解释代表有限总体的权重采样？所以我的问题是： 1）如何对复杂的调查数据进行K折交叉验证以选择最佳调整参数？更具体地说，如何将样本数据适当地划分为训练集和验证集？以及如何定义预测误差的估计？ 2）是否有选择最佳调整参数的替代方法？

11 cross-validation survey lasso glmnet

2

在逻辑回归中可视化类别的影响及其普遍性的最佳方法是什么？

我需要使用民意调查数据来介绍有关候选人投票的主要预测因子的信息。我已经使用我关心的所有变量进行了逻辑回归，但是我找不到一种很好的方式来显示此信息。我的客户不仅在乎效果的大小，而且在乎效果的大小与具有此类属性的总体大小之间的相互作用。如何在图形中处理呢？有什么建议么？这是一个例子：当候选变量中因变量为Vote / Not时，变量SEX（Male = 1）的为2.3，这是取幂并被视为比值比或概率后的大数。但是，进行此调查的社会只有30％的男性。因此，尽管人非常支持该候选人，但对于试图赢得多数选举的候选人而言，他们的人数并不重要。ββ\beta

11 logistic data-visualization survey

2

误差幅度与置信区间如何相关？

有人可以告诉我误差范围和置信区间之间的区别吗？在互联网上，我看到这两种含义可以互换使用。说的对， “置信区间显示为1.96，并在图表上显示为误差范围”？

11 confidence-interval survey polling

6

是否有一个站点可以将我的调查发布到该站点，以便我可以得到该人群的样本代表？

这仅适用于我的高中高级项目，因此它不一定是完美的。我正在做一个有关全球变暖的项目，我想调查人们的意见。我知道，如果我使用方便的同学样本，就会有很多偏见。我想知道互联网上是否有一个网站可以发布我的调查问卷，让随机人回答，这样我就可以尽可能地接近SRS。如果没有，我会对进行调查的其他建议感兴趣。

11 survey internet

Questions tagged «survey»