统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



3
如何在ggplot2中的散点图区域周围绘制整洁的多边形
如何在散点图上的一组点周围添加整洁的多边形?我正在使用ggplot2,但对的结果感到失望geom_polygon。 数据集在该处,作为制表符分隔的文本文件。下图显示了一些国家/地区对健康和失业态度的两种衡量标准: 我想从geom_density2d花哨的少,但从经验上更正确geom_polygon。未排序数据的结果无济于事: 如何在最小-最大yx值周围绘制充当轮廓路径的“整洁”多边形?我尝试对数据进行排序无济于事。 码: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) 该d目的是通过获得该CSV文件。 解: 感谢Wayne,Andy W和其他人的指导!数据,代码和图形已发布到GitHub上。结果看起来像这样:

2
如何找到评级的置信区间?
埃文·米勒(Evan Miller)的“ 如何不按平均评分进行排序 ”建议使用置信区间的下限来获得被评分项目的合计“分数”。但是,它使用的是伯努利模型:评级是竖起大拇指或竖起大拇指。 什么是使用其指定的离散分数的评级模型合理的置信区间至恒星,假设一个项目的评分数量可能会少吗?111kkk 我想我可以看到如何调整Wilson和Agresti-Coull区间的中心 p~=∑ni=1xi+z2α/2p0n+z2α/2p~=∑i=1nxi+zα/22p0n+zα/22\tilde{p} = \frac{\sum_{i=1}^n{x_i} + z_{\alpha/2}^2\; p_0}{n + z_{\alpha/2}^2} 其中或(可能更好)是所有项目的平均评分。但是,我不确定如何调整间隔的宽度。我(经修订)的最佳猜测是p0=k+12p0=k+12p_0 = \frac{k+1}{2} p~±zα/2n~∑ni=1(xi−p~)2+zα/2(p0−p~)2n~−−−−−−−−−−−−−−−−−−−−−−−−−√p~±zα/2n~∑i=1n(xi−p~)2+zα/2(p0−p~)2n~\tilde{p} \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\frac{\sum_{i=1}^n{(x_i - \tilde{p})^2} + z_{\alpha/2}(p_0-\tilde{p})^2}{\tilde{n}}} 与,但我不能仅仅挥舞它作为Agresti-Coull的类比来证明其合理性,n~=n+z2α/2n~=n+zα/22\tilde{n} = n + z_{\alpha/2}^2 Estimate(X¯)±zα/2n~Estimate(Var(X))−−−−−−−−−−−−−−−√Estimate(X¯)±zα/2n~Estimate(Var(X))\text{Estimate}(\bar{X}) \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\text{Estimate}(\text{Var}(X))} 是否有适用的标准置信区间?(请注意,我没有订阅任何期刊,也不能轻松访问大学图书馆;请务必提供适当的参考文献,但请补充实际结果!)

3
给定已知的组方差,均值和样本量,如何计算两个或多个组的合并方差?
假设有元素分为两组(和)。第一组的方差为,第二组的方差为。元素本身被假定为未知,但我知道均值和。m + n米+ñm+n米米mññnσ2米σ米2\sigma_m^2σ2ñσñ2\sigma^2_nμ米μ米\mu_mμñμñ\mu_n 有一种方法来计算组合的方差σ2(m + n )σ(米+ñ)2\sigma^2_{(m+n)}? 方差不必是无偏的,因此分母是(m + n )(米+ñ)(m+n)而不是(m + n − 1 )(米+ñ-1个)(m+n-1)。
32 variance  pooling 

1
时间序列上混合效应模型的预测值总和的方差
我有一个混合效果模型(实际上是广义加性混合模型),可以为我提供时间序列的预测。考虑到我缺少数据,我使用corCAR1模型来抵消自相关。数据应该给我带来了总的负担,所以我需要对整个预测间隔求和。但我也应该估算出该总负载下的标准误差。 如果所有预测都是独立的,则可以通过以下方式轻松解决: V a r (E [ X i ] )= S E (E [ X i ] )2V一个[R (Σñ我= 1Ë[ X一世] )= ∑ñ我= 1V一个[R (ê[ X一世] )V一种[R(∑一世=1个ñË[X一世])=∑一世=1个ñV一种[R(Ë[X一世])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i]) withV一个[R (ê[ X一世] )= SË(E[ X一世] )2V一种[R(Ë[X一世])=小号Ë(Ë[X一世])2Var(E[X_i]) = SE(E[X_i])^2 问题是,预测值来自模型,原始数据具有自相关。整个问题导致以下问题: 我是否可以假设将计算得出的预测的SE解释为该预测的期望值的方差根部,这是正确的吗?我倾向于将预测解释为“平均预测”,因此总结了一系列的均值。 如何在这个问题中包含自相关,或者我可以安全地假设它不会对结果产生太大影响? 这是R中的一个例子。我的真实数据集约有34.000个测量值,因此可伸缩性是一个问题。这就是为什么我在每个月内对自相关建模的原因,否则就无法进行计算了。这不是最正确的解决方案,但是最正确的解决方案却不可行。 set.seed(12) require(mgcv) Data <- data.frame( dates = …




4
二项式数据的方差分析
我正在分析实验数据集。数据由治疗类型和二项式结果的配对向量组成: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... 在结果列中,1表示成功,0表示失败。我想弄清楚治疗方法是否会显着改变结果。有4种不同的处理方式,每个实验重复多次(每种处理方式2000次)。 我的问题是,我可以使用ANOVA分析二进制结果吗?还是应该使用卡方检验来检查二项式数据?似乎卡方假设比例将被平均分配,事实并非如此。另一个想法是使用每种治疗成功与失败的比例来汇总数据,然后使用比例检验。 我很想听到您对这些二项式成功/失败实验有意义的测试建议。



12
最难掌握的统计概念是什么?
这是与这里的问题类似的问题,但与我认为值得提出的问题足够不同。 我以为我是一个入门者,我认为最难掌握的东西之一。 我的是概率和频率之差。一个处于“对现实的了解”(概率)的水平,而另一个处于“现实本身”(频率)的水平。如果我考虑太多,这几乎总是让我感到困惑。 埃德温·贾恩斯(Edwin Jaynes)创造了一个称为“思维投射谬论”的术语,用以描述将这些东西混为一谈。 对其他难以把握的概念有什么想法吗?
32 teaching 

5
建模纵向数据,其中时间的影响在个人之间以功能形式变化
内容: 想象一下,您进行了一项纵向研究,该研究每周对200名参与者进行一次为期20周的因变量(DV)测量。尽管我对一般情况感兴趣,但我考虑的典型DV包括录用后的工作表现或临床心理干预后的各种福祉测量。 我知道可以使用多层建模来建模时间与DV之间的关系。您还可以允许系数(例如截距,斜率等)在个体之间变化,并估计参与者的特定值。但是,如果在目视检查数据时发现时间与DV之间的关系为以下任意一种情况,该怎么办: 功能形式不同(也许有些是线性的,有些是指数的,或者有些不连续) 误差方差不同(某些人从一个时间点到下一个时间点更不稳定) 问题: 什么是处理这样的数据建模的好方法? 具体来说,哪种方法擅长识别不同类型的关系,并根据其类型对个人进行分类? R中有哪些实现可用于此类分析? 是否有关于如何执行此操作的参考:教科书或实际应用程序?

6
文字的统计分类
我是一个没有统计背景的程序员,并且我目前正在针对要分类为预定义类别的大量不同文档寻找不同的分类方法。我一直在阅读有关kNN,SVM和NN的文章。但是,我在入门时遇到了一些麻烦。您推荐什么资源?我确实很了解单变量和多变量演算,所以我的数学应该足够强大。我还拥有Bishop关于神经网络的书,但是作为入门,它已经被证明有些密集。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.