统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
如何使用预先指定的相关矩阵生成数据?
我正在尝试生成均值=,方差=,相关系数=相关随机序列。在下面的代码中,我将&用作标准偏差,并将&用作均值。1 0.80001个110.80.80.8s1s2m1m2 p = 0.8 u = randn(1, n) v = randn(1, n) x = s1 * u + m1 y = s2 * (p * u + sqrt(1 - p^2) * v) + m2 这使我corrcoef()在x和之间的0.8 正确y。我的问题是,如果我希望z该系列也与y(具有相同的相关性)相关但又与不相关,我该如何生成它。我需要知道一个特定的公式吗?我找到了一个,但听不懂。r = 0.8r=0.8r=0.8x


4
如何开始基于成对竞争数据的评级和排名?
在学习如何对仅以成对方式交互/竞争的组中的个人进行评分和排名(即像国际象棋的ELO评分系统之类的系统)时,我很有趣。 是否有任何可行的方法或更准确,更高级的方法? 是否有任何R包可以简化实施? 有没有可以使用辅助信息以及比赛/比赛结果的方法? 有什么方法可以更好地利用赢利信息而不是二分赢/输呢? 我应该在文献中寻找什么?

3
ARIMA模型解释
我对ARIMA模型有疑问。假设我有一个要预测的时间序列ÿŤÿŤY_t,模型似乎是进行预测的好方法。 现在,滞后的表示我今天的系列受到先前事件的影响。这很有道理。但是错误的解释是什么?我以前的残差(我的计算还算可以接受)影响了我今天的系列的价值?该回归中的滞后残差是回归的乘积/余数,如何计算?ARIMA (2 ,2 )有马(2,2)\text{ARIMA}(2,2)Δ ÿŤ= α1个Δ ÿt − 1+ α2Δ ÿt − 2+ νŤ+ θ1个νt − 1+ θ2νt − 2ΔÿŤ=α1个ΔÿŤ-1个+α2ΔÿŤ-2+νŤ+θ1个νŤ-1个+θ2νŤ-2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} ÿÿY

3
函数在统计中的重要性是什么?
在我的微积分课上,我们遇到了函数或“钟形曲线”,并被告知该函数在统计中有广泛的应用。e−x2e−x2e^{-x^2} 出于好奇,我想问:函数在统计中真的很重要吗?如果是这样,那么使有用的原因是什么,它的一些应用是什么?e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2} 我在互联网上找不到有关此功能的太多信息,但是经过一些研究,我发现钟形曲线通常与正态分布之间存在联系。一个维基百科页面链接这些类型的功能,统计应用,由我强调,各国: “正态分布被认为是统计中最突出的概率分布。其原因如下:1首先,正态分布由中心极限定理产生,该极限定理指出,在温和条件下,抽取了大量随机变量的总和不论原始分布的形式如何,来自同一分布的近似正态分布。” 因此,如果我从某种调查等中收集了大量数据,它们可以在类的函数之间平均分配。函数是对称的,对称性也就是对称的,即它对正态分布的有用性,是什么使它在统计中如此有用?我只是在推测。e−x2e−x2e^{-x^2} 通常,什么使在统计中有用?如果正态分布是唯一的区域,那么是什么使在正态分布的其他高斯类型函数中唯一或特别有用?e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2}


3
如何计算对数正态数据集平均值的置信区间?
我在很多地方都听说过/可以通过获取每个样本的对数来将数据集转换为正态分布的东西,计算转换后的数据的置信区间,并使用逆运算将其转换回(例如,将分别提高10到下限和上限的幂)。log10log10\log_{10} 但是,我对此方法有点怀疑,仅仅是因为它不适用于平均值:10mean(log10(X))≠mean(X)10mean⁡(log10⁡(X))≠mean⁡(X)10^{\operatorname{mean}(\log_{10}(X))} \ne \operatorname{mean}(X) 正确的方法是什么?如果它对均值本身不起作用,那么如何在均值的置信区间内起作用?

2
贝叶斯模型中交叉验证的稳定性
我正在使用k倍交叉验证(k = 5)在JAGS中拟合贝叶斯HLM。我想知道参数估计值在所有折叠中是否稳定。最好的方法是什么?ββ\beta 一种想法是找到后代的差异,并查看差异的95%CI是否为0。换句话说,在的95%间隔中为0 (然后对所有对折重复)。ββ\betaβk=1−βk=2βk=1−βk=2\beta_{k=1}-\beta_{k=2} 另一个想法是将来自每个褶皱的后代视为不同的MCMC链,并计算这些伪链上的Gelman的(势能缩减因子)。R^R^\hat{R} 其中之一是可取的,还有替代品吗?


3
证明矩生成函数唯一确定概率分布
Wackerly等人的文字指出该定理“让和分别表示随机变量X和Y的矩产生函数。如果两个矩产生函数都存在并且对于所有t值,则X和Y具有相同的概率分布。” 没有证据表明其超出了本文的范围。Scheaffer Young 在没有证明的情况下也具有相同的定理。我没有Casella,但是Google图书搜索似乎没有在其中找到定理。mx(t)mx(t)m_x(t)my(t)my(t)m_y(t)mx(t)=my(t)mx(t)=my(t)m_x(t) = m_y(t) Gut的文本似乎具有证明的轮廓,但是没有提及“众所周知的结果”,还需要知道另一个未提供证明的结果。 有谁知道谁最初证明了这一点,并且该证明是否可以在任何地方在线获得?否则,将如何填写这一证明的细节? 如果我不被问到这不是一个家庭作业问题,但我可以想象这可能是某人的家庭作业。我根据Wackerly的文字选了一个课程序列,一段时间以来,我一直在想知道这个证明。所以我认为是时候问了。


8
用R聚类混合数据
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想知道是否可以在R中执行具有混合数据变量的数据聚类。换句话说,我有一个同时包含数值和分类变量的数据集,我正在寻找对其进行聚类的最佳方法。在SPSS中,我将使用两步式群集。我想知道是否可以在R中找到类似的技术。有人告诉我有关poLCA软件包的信息,但我不确定...

1
随着比较次数的增加,Benjamini-Hochberg修正更保守吗?
Benjamini-Hochberg多重测试校正相对于比较总数的保守程度如何?例如,如果我有两个组的18,000个特征的列表,然后执行Wilcoxon测试以获取p值。我使用Benjamini-Hochberg调整了该p值,几乎没有结果显示出来。 我知道随着比较次数的增加,Bonferroni校正可以相当保守,Benjamini-Hochberg是否具有相同的性质?

1
引导程序分布的标准误差的使用
(如果需要,请忽略R代码,因为我的主要问题是与语言无关) 如果我想看一个简单统计量的可变性(例如:均值),我知道我可以通过以下理论来做到这一点: x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) 或使用类似的引导程序: library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... sd(x.bs$t) 但是,我想知道的是,在某些情况下查看引导程序分布的标准错误是否有用/有效?我正在处理的情况是一个相对嘈杂的非线性函数,例如: # Simulate dataset set.seed(12345) …

1
预测建模-我们是否应该关注混合建模?
对于预测建模,我们是否需要关注统计概念,例如随机效应和观测值的非独立性(重复测量)?例如.... 我有5个直接邮件广告系列(一年中发生)的数据,这些数据具有各种属性和购买标记。理想情况下,我会结合使用所有这些数据来为广告系列制定时给定的客户属性建立购买模型。原因是购买事件很少见,我想使用尽可能多的信息。给定的客户有可能出现在1至5个广告系列中的任何位置-这意味着记录之间没有独立性。 使用时是否重要? 1)机器学习方法(例如,树,MLP,SVM) 2)统计方法(逻辑回归)? **ADD:** 我对预测建模的想法是,如果模型有效,请使用它。因此,我从未真正考虑过假设的重要性。考虑到我上面描述的情况,我很纳闷。 采取机器学习算法,例如MLP and SVM。这些已成功用于对二进制事件进行建模,例如上面的示例,而且还对时间序列数据进行了清晰的关联。然而,许多使用损失函数是似然的,并假设误差为id。例如,R中的梯度增强树gbm使用从二项式(第10页)得出的偏差损失函数。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.