统计和大数据

2

我对美国各县进行了回归分析，并正在检查“独立”变量中的共线性。Belsley，Kuh和Welsch的回归诊断建议考虑条件指数和方差分解比例： library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 0.000 0.000 0.002 0.053 0.011 0.148 0.231 0.000 …

26 r multicollinearity vif variance-decomposition

2

转换变量以在R中进行多元回归

我正在尝试在中执行多元回归R。但是，我的因变量具有以下曲线：这是一个散点图矩阵，其中包含我所有的变量（WAR是因变量）：我知道我需要对此变量（可能还有自变量？）执行转换，但是我不确定所需的确切转换。有人可以指出我正确的方向吗？我很高兴提供有关自变量和因变量之间关系的任何其他信息。通过回归分析得出的诊断图形如下：编辑使用Yeo-Johnson转换对因变量和自变量进行转换后，诊断图如下所示：如果我将GLM与日志链接一起使用，则诊断图形为：

26 r regression multiple-regression data-transformation

6

将正弦项拟合到数据

尽管我读了这篇文章，但我仍然不知道如何将其应用于我自己的数据，并希望有人能帮助我。我有以下数据： y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …

26 r regression fitting

2

估计向量中值的分位数

我有一组实数。我需要估计一个新数字的分位数。在R中有什么干净的方法可以做到这一点吗？一般来说？我希望这不是微不足道的;-) 非常感谢您的回复。 PK

26 r

3

寻找质心与寻找均值有何不同？

在执行分层聚类时，可以使用许多指标来度量聚类之间的距离。两个这样的度量标准意味着计算聚类中的质心和数据点的平均值。均值和质心有什么区别？这些不是集群中的同一点吗？

26 clustering mean

3

为什么高斯过程模型称为非参数模型？

我有点困惑。为什么高斯过程称为非参数模型？他们确实假设函数值或其子集具有高斯先验，均值0，协方差函数作为内核函数给出。这些内核函数本身具有一些参数（即，超参数）。那么为什么将它们称为非参数模型呢？

26 nonparametric gaussian-process

2

如何计算巨大的稀疏矩阵的SVD？

计算数据非常稀疏的非常大的正矩阵（65M x 3.4M）的奇异值分解（SVD）的最佳方法是什么？少于0.1％的矩阵为非零。我需要一种方法：将适合内存（我知道在线方法存在）将在合理的时间内计算：3,4天会足够准确，但是准确性不是我的主要关注点，我希望能够控制投入的资源。拥有一个实现它的Haskell，Python，C＃等库，将是很棒的。我没有使用mathlab或R，但如有必要，我可以使用R。

26 svd numerics

2

做“双套索”或两次做套索的优势？

我曾经听过两次使用套索的方法（如双套索），在这种方法中，对原始变量集（例如S1）执行套索，获得稀疏集S2，然后再次对集合S2执行套索以获得集合S3 。为此有方法论上的术语吗？另外，做套索两次有什么好处？

26 regression lasso regularization shrinkage lars

5

向各种受众介绍高级统计信息的策略

我主要与医学，社会科学和教育等领域的非统计学家合作。无论是咨询研究生，帮助研究人员撰写文章还是评论期刊文章，我都经常遇到这样的问题：某人（客户，作者，论文委员会，期刊编辑）想使用某种相对知名的技术，或者完全不当或存在更好但鲜为人知的方法。通常，我会解释替代技术，但随后会被告知“每个人都以其他方式这样做”。我会对其他人如何处理这种困难感兴趣。加法 @MichaelChernick建议我可以分享一些故事，所以我会目前，我正在与一个正在复制上一篇论文并添加一个独立变量以查看是否有帮助的人一起工作。坦白说，前一篇论文很糟糕。它将依赖数据视为独立数据。这太过拟合了，还有其他问题。然而，他（我的客户）提交了较早的论文作为学位论文，不仅获得了学位，而且因这项研究而受到广泛赞誉。很多次，我试图不说服人们二分法变量。这在医学上经常出现。我耐心地指出，将出生体重分为低体重和正常体重（通常为2500克），这意味着将一个2499克婴儿当作一个1400克婴儿对待。但是对待这只2,501克婴儿的方法却大不相同。临床医生同意我的观点，这很愚蠢。然后说要那样做。我很早以前有一个研究生客户，其委员会坚持进行聚类分析。学生不理解该方法，该方法未回答有用的问题，但这就是委员会想要的，这就是他们所要的。统计图形的整个领域对许多人来说，“这就是祖父的工作方式”就足够了。然后有些人似乎只是按一下按钮。我记得一次演讲（不是由我帮助的人！）做了一份完整的调查问卷，并进行了因素分析。她包括的变量之一是ID号！哦

26 consulting

1

可以将Mantel检验扩展到非对称矩阵吗？

的Mantel检验通常适用于对称距离/差矩阵。据我了解，该测试的一个假设是，用于定义差异的度量必须至少是一个半度量（满足度量的标准要求，但不能满足三角不等式）。对称性的假设可以放宽（给定度量）吗？在这种情况下，是否可以使用完整矩阵应用置换测试？

26 statistical-significance assumptions distance

7

随机影响因子的最小建议组数是多少？

我在R（lme4）中使用了混合模型来分析一些重复的度量数据。我有一个反应变量（粪便中的纤维含量）和3种固定作用（体重等）。我的研究只有6位参与者，每位参与者都有16次重复测量（尽管两个只有12次重复）。受试者是蜥蜴，它们在不同的“治疗”中被给予不同的食物组合。我的问题是：我可以将主体ID用作随机效果吗？我知道这是纵向混合效应模型中的通常做法，要考虑到受试者的随机采样性质以及以下事实：受试者内部的观察比受试者之间的观察更紧密相关。但是，将受试者ID视为随机效应涉及估计此变量的均值和方差。由于我只有6个科目（该因子的6个水平），这是否足以准确表征均值和方差？我对每个主题都进行了多次重复测量的事实在这方面是否有所帮助（我不认为这很重要）？最后，如果我不能将主体ID用作随机效果，是否可以将其作为固定效果来控制我重复测量的事实？编辑：我想澄清一下，当我说“我可以”使用主体ID作为随机效果时，我的意思是“这样做是个好主意”。我知道我可以只用2个级别的因子来拟合模型，但是肯定可以辩护吗？我问在什么时候考虑将对象视为随机效应变得明智？似乎文献建议5-6级是一个下限。在我看来，直到有15个以上的因子水平，对随机效应的均值和方差的估计才非常精确。

26 mixed-model sample-size

3

主题模型和单词共现方法

流行的主题模型（如LDA）通常将倾向于共同出现在同一主题（集群）中的单词聚类。这种主题模型与其他基于共现的简单聚类方法（例如PMI）之间的主要区别是什么？（PMI代表逐点相互信息，用于识别与给定单词共存的单词。）

26 machine-learning text-mining natural-language topic-models

2

罚线性回归的几何解释

我知道线性回归可以认为是“垂直上最接近所有点的线”：但是，通过可视化列空间，还有另一种查看方式，即“在系数矩阵的列所跨越的空间上的投影”：我的问题是：在这两种解释中，当我们使用惩罚线性回归（如岭回归和 LASSO）时会发生什么？在第一个解释中该行会发生什么？在第二种解释中，投影会发生什么？更新： @JohnSmith在评论中提到了惩罚发生在系数空间中的事实。在这个领域也有解释吗？

26 regression intuition geometry

6

逻辑回归的样本量？

我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查，仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现，在154位受访者中，有73位表示他们已经令人满意地过渡到工作，而其余的则没有。因此，因变量本质上是二进制的，因此我决定使用逻辑回归。我有七个独立变量（三个连续变量和四个名义变量）。一项指南建议，每个预测变量/自变量应有10个案例（Agresti，2007年）。根据该指南，我认为可以进行逻辑回归。我对吗？如果没有，请让我知道如何确定自变量的数量？

26 logistic sample-size assumptions power unbalanced-classes

2

何时使用Wilcoxon秩和检验代替未配对的t检验？

这是弗兰克·哈雷尔（Frank Harrell）在这里写的后续问题：以我的经验，准确的t分布所需的样本大小通常大于手头的样本大小。正如您所说，Wilcoxon符号秩检验非常高效，而且功能强大，因此我几乎总是喜欢它而不是t检验如果我理解正确，则在比较两个不匹配样本的位置时，如果样本量较小，我们宁愿使用Wilcoxon秩和检验而不是不配对t检验。从理论上讲，即使我们两组的样本量相对较大，我们还是更愿意使用Wilcoxon秩和检验而不是不成对的t检验吗？我对这个问题的动机来自观察到的是，对于单个样本t检验，将其用于偏小分布的不太小的样本会产生错误的I型错误： n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error

26 t-test wilcoxon-mann-whitney