统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
使用R制作通过处理分离数据的散点图的好方法是什么?
一般而言,我对R和统计资料非常陌生,但我需要做一个散点图,我认为这可能超出了它的本机能力。 我有几个观测向量,我想用它们作一个散点图,每对都属于三类之一。我想创建一个散点图,以颜色或符号将每个类别分开。我认为这比生成三个不同的散点图更好。 我的另一个问题是,在每个类别中,一个点上都有大的群集,但是一组中的群集比其他两组中的群集大。 有人知道这样做的好方法吗?我应该安装软件包并学习如何使用?有人做过类似的事情吗? 谢谢


5
教学抽样分布的策略
tl; dr版本 您采用了哪些成功的策略在入门级本科水平上教授(例如,样本均值的)样本分布? 背景 9月,我将使用David Moore 撰写的《统计基础知识》为二年级社会科学(主要是政治科学和社会学)课程的学生开设统计学入门课程。这是我第五次教这门课,我一直遇到的一个问题是,学生们确实在抽样分配的概念上挣扎。它作为推理的背景进行了介绍,并基本介绍了几经打initial后他们似乎没有遇到麻烦的概率(而从根本上讲,我的意思是基本-毕竟,这些学生中的许多人已经被自动选入了特定的课程流,因为他们试图避免甚至带有“数学”含糊暗示的任何事物。我猜想可能有60%的人对课程没有一点点的了解,大约25%的人了解原理,但不了解与其他概念的联系,其余15%的人完全理解。 主要问题 学生似乎遇到的麻烦是应用程序。除了说他们只是不明白之外,很难解释确切的问题是什么。从上学期进行的一项民意测验和考试答复中,我认为部分困难是两个相关且相似的发音短语(采样分布和样本分布)之间的混淆,因此我没有使用“样本分布”一词虽然如此,但可以肯定的是,虽然一开始令人困惑,但只需一点点努力就可以轻松解决它,并且无论如何也无法解释抽样分布概念的普遍困惑。 (我意识到这可能是我本人和我的教!在这里!但是,我认为忽略不合理的可能性是合理的做法,因为有些学生确实做到了,而且总体上每个人似乎都做得不错...) 我尝试过的 我不得不与我们系的本科生管理者争论,在计算机实验室中引入强制性课程,以为反复演示可能会有所帮助(在我开始教这门课程之前,不涉及计算)。虽然我认为这有助于总体上理解课程材料,但我认为这对特定主题没有帮助。 我曾经有过一个想法,就是根本不教它或不给它太多分量,这是某些人(例如安德鲁·盖尔曼)所主张的。我觉得这不是特别令人满意,因为它有教给最低公分母的感觉,更重要的是,拒绝坚强而又有上进心的学生,他们想通过真正了解重要概念的工作原理(不仅是抽样分布!)来学习更多有关统计应用的知识。 )。另一方面,中位学生似乎确实掌握了例如p值,因此也许他们根本不需要了解采样分布。 问题 您采用什么策略教授抽样分布?我知道有可用的材料和讨论(例如,这里和这里以及打开PDF文件的本文),但我只是想知道我是否可以得到一些对人有用的具体示例(或者我猜什至什么都不有用)因此我不会尝试!)。现在,正如我计划9月份的课程那样,我现在的计划是遵循Gelman的建议并“强调”采样分布。我会教书,但我会向学生保证,这只是一种仅供参考的主题,不会出现在考试中(除非作为奖励问题?!)。但是,我真的很想听听人们使用的其他方法。

3
如何知道时间序列是固定的还是非固定的?
我使用R,我搜索在谷歌和了解到kpss.test(),PP.test()和adf.test()用来了解时间序列的平稳性。 但是我不是统计学家,他可以解释他们的结果 > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning message: In kpss.test(b$V1) : p-value greater than …

4
类不平衡下的精确召回曲线的优化
我有一个分类任务,其中有许多预测变量(其中一个是最有参考价值的),并且我正在使用MARS模型来构造我的分类器(我对任何简单的模型都感兴趣,并且使用glms进行说明是没关系)。现在,我在训练数据中存在巨大的班级失衡(每个正样本大约有2700个负样本)。与信息检索任务类似,我更关心预测排名最高的阳性测试样本。因此,Precision Recall曲线上的性能对我很重要。 首先,我只是在训练数据上训练了模型,从而保持了班级的不平衡。我将训练有素的模型显示为红色,最重要的输入显示为蓝色。 培训不平衡数据,评估不平衡数据: 认为班级失衡会导致模型失败,因为学习排名最高的正样本是整个数据集的很小一部分,所以我对正训练点进行了升采样以获得平衡的训练数据集。当我在平衡训练集上绘制性能时,我会获得良好的性能。在PR和ROC曲线中,我训练有素的模型都比输入要好。 训练(上采样的)平衡数据,还评估(上采样的)平衡数据: 但是,如果我使用在平衡数据上训练的模型来预测原始的不平衡训练集,则PR曲线上的性能仍然很差。 培训(上采样的)平衡数据,评估原始不平衡数据: 所以我的问题是: 是由于PR曲线的可视化显示我训练的模型(红色)的性能较差,而ROC曲线却由于类的不平衡而导致性能改善的原因吗? 重采样/上采样/下采样方法能否解决此问题,从而迫使训练集中于高精度/低召回率区域? 还有其他方法可以将培训集中在高精度/低召回率区域吗?

4
检查两个泊松样本的均值是否相同
这是一个基本问题,但我找不到答案。我有两个测量值:时间t1中的n1个事件和时间t2中的n2个事件,它们都是由泊松过程(可能具有不同的lambda值)产生的。 这实际上是来自新闻文章,该文章本质上声称自以来,两者是不同的,但是我不确定该声明是否有效。假设未恶意选择时间段(以最大化一个或另一个事件)。n1/t1≠n2/t2n1/t1≠n2/t2n_1/t_1\neq n_2/t_2 我可以做一个t检验,还是不合适?对于我来说,事件的数量太少了,无法轻松地将分布称为正常分布。

6
折线图有太多线,是否有更好的解决方案?
我试图绘制一段时间内用户的操作数(在这种情况下为“点赞”)。 因此,我将“操作次数”作为我的y轴,我的x轴是时间(周),每行代表一个用户。 我的问题是,我想查看一组约100个用户的数据。折线图很快就变成了100条折线。我可以使用一种更好的图形来显示此信息吗?还是我应该考虑能够打开/关闭单独的行? 我想一次查看所有数据,但是能够高精度地识别动作的数量并不是很重要。 为什么我要这样做 对于我的一部分用户(主要用户),我想找出哪些用户可能不喜欢某个日期推出的应用程序的新版本。我正在寻找单个用户的操作数量大幅下降。

2
主成分分析中双峰的解释
我遇到了一个很好的教程:《使用R进行统计分析的手册》。第13章。主成分分析:奥林匹克七项全能,其中涉及如何用R语言进行PCA。我不理解图13.3的解释: 因此,我正在绘制第一个特征向量与第二个特征向量。这意味着什么?假设对应于第一特征向量的特征值解释了数据集中60%的变化,第二特征值-特征向量解释了20%的变化。将它们相互绘制意味着什么?

9
估计量和统计量有什么区别?
我了解到统计量是您可以从样本中获得的属性。以许多相同大小的样本为例,为所有样本计算该属性并绘制pdf,得出对应属性的分布或对应统计数据的分布。 我还听说统计数据是用来估算的,这两个概念有何不同?

3
R对文本分类任务的缩放程度如何?[关闭]
我试图与R同步。最终我想使用R库进行文本分类。我只是想知道人们在进行文本分类时对R的可伸缩性有何经验。 我可能会遇到高维数据(约30万维)。我正在研究使用SVM和随机森林作为分类算法。 R库会扩展到我的问题规模吗? 谢谢。 编辑1:只是为了澄清,我的数据集可能有1000-3000行(也许更多)和10个类。 编辑2:由于我是R的新手,因此我将要求海报在可能的情况下更加具体。例如,如果您建议一个工作流程/管道,请确保尽可能提及每个步骤中涉及的R库。一些额外的指针(例如示例,示例代码等)将锦上添花。 编辑3:首先,谢谢大家的评论。其次,我很抱歉,也许我应该为这个问题提供更多的背景信息。我是R的新手,但对文本分类却不太了解。我已经使用tm包对我的数据的某些部分进行了预处理(删除,删除停用词,tf-idf转换等),以使您对事物有所了解。即使只有大约200个文档,tm也是如此缓慢,以至于我担心可伸缩性。然后我开始玩FSelector,即使那真的很慢。这就是我进行操作的关键所在。 编辑4:我刚想到我有10个班级,每个班级大约有300份培训文档,实际上我是在整个培训集中构建termXdoc矩阵,从而产生了很高的维度。但是,如何将每个千分之一分类问题简化为一系列二进制分类问题呢?这将大大减少k-1步骤每一步的培训文档的数量(并因此减少维度),不是吗?那么这是一种好方法吗?与普通的多类实现相比,它的准确性如何?

3
可视化多个集合的交集
是否有一个可视化模型可以很好地显示许多集合的交集重叠? 我在思考类似维恩图的方法,但是它可能以某种方式更好地适用于更多的集合,例如10个或更多集合。Wikipedia确实显示了一些较高的维恩图,但即使是4组图也需要很多。 我对数据的最终结果的猜测是,许多数据集不会重叠,因此维恩图可能会很好-但我想找到一种能够生成该数据的计算机工具。在我看来,它看起来像Google图表不允许那么多集合。

6
置信区间何时有用?
如果我正确理解,则参数的置信区间是通过一种方法构造的区间,该方法可得出包含指定比例样本的真实值的区间。因此,“置信度”是关于方法的,而不是我从特定样本计算的间隔。 作为统计的用户,由于所有样本的空间都是假设的,因此我一直对此感到受骗。我只有一个样本,我想知道该样本告诉我有关参数的信息。 这个判断错了吗?至少在某些情况下,是否存在查看置信区间的方法,这对统计用户有意义? [这个问题源于第二个想法在math.se答案瞧不起置信区间后https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 #7572 ]


6
二项式置信区间估计-为什么不对称?
我已经使用以下r代码来估计二项式比例的置信区间,因为我知道在设计着眼于人群疾病检测的接收器工作特性曲线设计时,它可以替代“功效计算”。 n为150,我们相信这种疾病在人群中的流行率为25%。我已经计算出75%的敏感性和90%的特异性的值(因为这似乎是人们所做的)。 binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95) binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95) 我还访问了该站点: http://statpages.org/confint.html 这是一个计算二项式置信区间的Java页面,并且给出相同的答案。 无论如何,经过漫长的设置之后,我想问一下为什么置信区间不是对称的,例如灵敏度是 95 percent confidence interval: 0.5975876 0.8855583 sample estimate probability: 0.7631579 抱歉,如果这是一个愚蠢的问题,但我看起来似乎到处都暗示它们将是对称的,而我的一位同事似乎也认为它们也会如此。

1
居中如何使PCA有所不同(对于SVD和本征分解)?
将数据居中(或取消定义)对PCA有什么区别?我听说它可以简化数学运算,也可以防止第一台PC被变量的均值控制,但是我觉得我还不能完全掌握这个概念。 例如,此处的最佳答案是如何使数据居中摆脱回归和PCA中的截距?描述了不居中如何将第一个PCA拉过原点,而不是点云的主轴。基于我对如何从协方差矩阵的特征向量中获得PC的理解,我不明白为什么会发生这种情况。 而且,我自己进行的有无居中的计算似乎毫无意义。 考虑irisR 中的数据集中的setosa花。我按如下方式计算了样本协方差矩阵的特征向量和特征值。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 如果我首先对数据集进行居中,则会得到完全相同的结果。这似乎很明显,因为居中根本不会改变协方差矩阵。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.