统计和大数据

3

如何检查我的数据（例如薪水）是否来自R中的连续指数分布？这是我的样本的直方图：。任何帮助将不胜感激！

22 r distributions goodness-of-fit exponential

3

当我们这样做多元回归，说我们正在寻找在平均变化在一个变化的变量变量，保存了在其他变量不变，什么值，我们持有的其他变量不变？他们的意思是？零？有什么价值吗？ÿyyXxx 我倾向于认为它具有任何价值。只是在寻求澄清。如果有人有证明，那也将是一件好事。

22 multiple-regression interpretation least-squares regression-coefficients controlling-for-a-variable

2

为什么通过数据SVD进行数据PCA？

这个问题是关于一种计算主成分的有效方法。关于线性PCA的许多文章都主张对个案数据使用奇异值分解。也就是说，如果我们有数据并想用主成分替换变量（其列），则可以执行SVD：，奇异值（特征值的平方根）占据了主对角线，右特征向量是轴变量到轴分量的正交旋转矩阵，左特征向量像，仅在这种情况下。然后，我们可以将分量值计算为。X = û 小号V '小号V Ù V C ^ = X V = û 小号XX\bf XX = U S V′X=USV′\bf X=USV'小号S\bf SVV\bf VüU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 进行变量PCA的另一种方法是通过分解方阵（即可以是变量之间的相关或协方差等）。分解可以是特征分解或奇异值分解：对于正方形对称正半定矩阵，它们将给出特征值与和的对角线相同的结果。组件值将为。- [R [R = V 大号V '大号V C ^ = X VR=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV 现在，我的问题是：如果数据是一个大矩阵，并且案例数（通常是一个案例）比变量数大得多，那么方法（1）会比方法（2）慢得多），因为方法（1）将相当昂贵的算法（例如SVD）应用于大矩阵；它计算并存储巨大的矩阵，这在我们的情况下是我们真正不需要的（变量的PCA）。如果是这样，那么为什么这么多texbook似乎主张或仅提及方式（1）？也许这很有效，但我缺少了什么？üXX\bf XUU\bf U

22 pca algorithms svd matrix-decomposition

3

在直方图中使用QQ绘图的好处

在此评论中，尼克·考克斯写道：归类是一种古老的方法。尽管直方图可能有用，但现代统计软件可以轻松且明智地使分布适合原始数据。分档只是丢弃了细节，这对于确定合理的分布至关重要。此评论的内容建议使用QQ绘图作为评估拟合度的替代方法。该声明听起来很合理，但我想知道一个支持该声明的可靠参考。除了简单的“嗯，这听起来很明显”之外，是否有论文对这一事实进行了更彻底的研究？对结果或类似内容进行任何实际的系统比较吗？我还想了解QQ曲线相对于直方图的优势可以扩展到模型拟合以外的其他应用程序。关于这个问题的答案同意“ QQ图[…]只是告诉您“某事是错误的””。我正在考虑使用它们作为一种工具来识别与零模型相比观察到的数据中的结构，并想知道是否存在任何建立的过程可以使用QQ图（或其基础数据）不仅检测而且描述非随机观测数据中的结构。因此，包括该方向的参考文献将特别有用。

22 references histogram binning qq-plot

2

R中的引导实际上如何工作？

我一直在研究R中的引导程序包，尽管我找到了很多有关如何使用它的入门知识，但我还没有找到任何能够准确描述“幕后”情况的信息。例如，在此示例中，指南显示了如何使用标准回归系数作为引导程序回归的起点，但没有说明引导程序实际上在做什么以得出引导程序回归系数。似乎正在发生某种迭代过程，但我似乎无法弄清楚到底发生了什么。

22 r regression bootstrap regression-coefficients

4

Stouffer的Z评分方法：如果我们将

我正在使用相同的原假设进行独立的统计检验，并希望将结果合并为一个NNN值。似乎有两种“可接受的”方法：Fisher方法和Stouffer方法。ppp 我的问题是关于斯托弗的方法。对于每个单独的测试，我都获得z得分。在零假设下，它们中的每一个都具有标准正态分布，因此和∑ z i遵循方差N的正态分布。因此斯托夫的方法表明计算Σ ž 我/ √ziziz_iΣziΣzi\Sigma z_iNNN，应该以单位方差正态分布，然后将其用作联合z得分。Σzi/N−−√Σzi/N\Sigma z_i / \sqrt{N} 这是合理的，但是这是我想出的另一种方法，对我来说也很合理。由于每个的来自一个标准正态分布，平方和小号= Σ ž 2 我应来自与卡方分布Ñ自由度。因此，可以使用具有N个自由度的累积卡方分布函数来计算S并将其转换为p值（p = 1 - X N（S ），其中X N是CDF）。ziziz_iS=Σz2iS=Σzi2S=\Sigma z^2_iNNNSSSpppNNNp=1−XN(S)p=1−XN(S)p=1−X_N(S)XNXNX_N 但是，我什至找不到这种方法。有没有用过？它有名字吗？与斯托弗的方法相比，优点/缺点是什么？还是我的推理有缺陷？

22 hypothesis-testing chi-squared p-value multiple-comparisons combining-p-values

2

“贝叶斯推理和机器学习”之后的下一步

我目前正在经历David Barber撰写的“贝叶斯推理和机器学习”，这是一本写得很好并且引人入胜的书，用于学习基础知识。对已经这样做的人来说是一个问题。当我对Barber的大多数概念有一定的熟练程度后，我应该阅读哪些下一本书？

22 machine-learning bayesian references graphical-model

3

为什么要使用期望最大化算法？

据我所知，当将似然性参数的偏导数设为零时，可以使用EM算法找到最大似然性，从而给出了一组无法解析求解的方程。但是需要EM算法来代替使用某种数值技术来尝试针对所提及的方程组的约束找到最大可能性。

22 expectation-maximization

3

统计学家学习机器学习重要吗？

机器学习是否是任何统计学家熟悉的重要主题？机器学习似乎是统计数据。为什么统计程序（本科生和研究生）不需要机器学习？

22 machine-learning careers

1

是否有理由倾向于使用特定的多重共线性度量？

在处理许多输入变量时，我们经常担心多重共线性。有多种多重共线性度量用于检测，考虑和/或传达多重共线性。一些常见的建议是：特定变量的倍数[R2Ĵ[RĴ2R^2_j 特定变量的公差1 − R2Ĵ1个-[RĴ21-R^2_j 特定变量的方差膨胀因子VIF = 1公差VIF=1个公差\text{VIF}=\frac{1}{\text{tolerance}} 整个设计矩阵的条件号：最大（特征值（X'X））最小值（特征值（X'X））------------------√最大（特征值（X'X））最小值（特征值（X'X））\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}} （在Wikipedia文章中讨论了其他一些选项，在R的上下文中也有关于SO的讨论。）前三个相互之间是完美的功能，这表明它们之间唯一可能的净利益是心理上的。另一方面，前三个允许您单独检查变量，这可能是一个优点，但是我听说条件编号方法被认为是最好的。这是真的？最适合什么？条件数是的理想函数吗？（我想会的。） [R2Ĵ[RĴ2R^2_j 人们是否发现其中之一最容易解释？（我从来没有尝试过在课外解释这些数字，我只是对多重共线性给出了一个宽松的，定性的描述。）

22 multicollinearity

5

非参数测试究竟能完成什么工作？您将如何处理结果？

我觉得这可能是在其他地方提出来的，但并不是我需要的基本描述类型。我知道非参数依赖于中位数而不是平均值进行比较。我也相信它依赖于“自由度”（？）而不是标准偏差。如果我错了，请纠正我。我已经做了相当不错的研究，或者我想尝试去理解这个概念，背后的工作原理，测试结果的真正含义，以及/或者甚至对测试结果做些什么。但是，似乎没人敢涉足这一领域。为了简单起见，让我们继续进行曼恩·惠特尼（Mann-Whitney）U检验，我注意到它很受欢迎（并且似乎也被滥用和过度使用，以迫使一个人的“方形模型陷入一个圆孔”）。如果您也想随意描述其他测试，尽管我一旦理解了其中的一个，就可以以类似的方式了解其他t检验，从而了解其他测试。假设我对我的数据进行了非参数测试，然后得到了以下结果： 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 我熟悉其他方法，但是这里有什么不同？我们是否应该希望p值小于0.05？“曼恩·惠特尼统计”是什么意思？有什么用吗？这里的信息是否只是验证或不验证是否应该使用我拥有的特定数据源？我在回归和基础知识方面有相当丰富的经验，但对这种“特殊”非参数化的东西很好奇-我知道这会有它自己的缺点。试想一下，我是五年级生，看看你能不能对我解释一下。

22 hypothesis-testing nonparametric wilcoxon-mann-whitney

2

形式为

我有一个来自网络讨论论坛的统计数据集。我正在查看一个主题期望得到的答复数量的分布。特别是，我创建了一个数据集，该数据集包含主题答复计数列表，然后包含具有该答复数目的主题计数。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 如果我将数据集绘制在对数-对数图上，那么我得到的基本上是一条直线：（这是一个Zipfian分布）。Wikipedia告诉我，对数对数图上的直线表示可以用形式的单项式建模的函数。实际上，我已经关注了这样的功能：ÿ= 一个Xķÿ=一种Xķy = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 我的眼球显然不如R准确。那么如何使R更精确地适合我的模型参数呢？我尝试了多项式回归，但是我不认为R试图将指数作为参数拟合-我想要的模型的专有名称是什么？编辑：谢谢大家的回答。如建议的那样，我现在使用以下配方针对输入数据的日志拟合线性模型： data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first 100 …

22 r regression nonlinear-regression

2

受限玻尔兹曼机器与多层神经网络

我一直想尝试使用神经网络来解决我面临的分类问题。我碰到了有关注重成果的管理的论文。但是据我了解，它们与拥有多层神经网络没有什么不同。这个准确吗？此外，我与R合作，没有看到RBM的任何罐头包装。我确实碰到过有关深度学习网络的文献，这些深度学习网络基本上是堆叠的RBM，但不确定在R中实现它们是否值得努力。有人会提出任何建议吗？谢谢

22 r machine-learning classification neural-networks

5

R的randomForest不能处理超过32个级别。解决方法是什么？

R的randomForest包不能处理超过32个级别的因子。当给它超过32个级别时，它将发出错误消息：无法处理超过32个类别的类别预测变量。但是我拥有的数据有几个因素。其中一些具有1000+的级别，而某些具有100+。它甚至具有52个美国的“州”。所以，这是我的问题。为什么会有这样的限制？即使对于简单的情况，randomForest也拒绝运行。 > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories. 如果仅仅是由于内存限制，scikit如何学习使用32个以上级别运行的randomForeestRegressor？解决此问题的最佳方法是什么？假设我有X1，X2，...，X50自变量，Y是因变量。并假设X1，X2和X3具有32个以上的级别。我该怎么办？我正在考虑为X1，X2和X3中的每一个运行聚类算法，其中距离定义为Y的差值。我将运行三个聚类，因为存在三个有问题的变量。并且希望在每个群集中都可以找到相似的级别。我将合并它们。听起来如何？

22 r random-forest many-categories

5

什么时候分位数回归比OLS更糟糕？

除了某些绝对必须了解条件均值关系的独特情况外，研究人员还应该在哪些情况下选择OLS而不是分位数回归？我不希望答案是“如果没有必要理解尾巴关系”，因为我们可以使用中位数回归作为OLS的替代物。

22 least-squares econometrics regression-strategies quantile-regression semiparametric