统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
饼图问题
关于饼图的讨论似乎越来越多。 反对它的主要论据似乎是: 感知区域的力量小于长度。 饼图的数据点对像素比率非常低 但是,我认为在描绘比例时它们可能会有所帮助。我同意在大多数情况下使用表格,但是当您编写业务报告并且刚刚包含数百个表格时,为什么不使用饼图呢? 我对社区对此主题的想法感到好奇。欢迎进一步参考。 我包括几个链接: http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html 为了总结这个问题,我决定建立一个饼图与华夫饼图的示例。



6
初学者的统计数据/概率视频
已经有要求提供“数学统计视频”的请求,但明确要求人们提供。 提供严格的统计数据数学演示的视频。也就是说,课程中可能附带使用本讨论中提到的教科书的视频... 因此,我同时想知道,您对统计/问题-101-视频课程有什么建议?
28 references 

3
使用带有R的引导程序计算p值
我使用“ boot”包来计算近似的两面自举p值,但是结果与使用t.test的p值相差太远。我无法弄清楚我在R代码中做错了什么。有人可以给我一个提示吗 time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) > abs(b3$t0)) pvalue 两面自举的p值(pvalue)= 0.4804,但t.test的两面p值为0.04342。两个p值的差约为11倍。怎么会这样

4
Kullback-Leibler距离的改编?
看这张图片: 如果我们从红色密度中抽取一个样本,那么某些值预计将小于0.25,而不可能从蓝色分布中生成这样的样本。结果,从红色密度到蓝色密度的Kullback-Leibler距离是无穷大。但是,在某种“自然意义上”,两条曲线并没有那么明显。 这是我的问题:是否存在对Kullback-Leibler距离的适应,从而允许这两条曲线之间有有限的距离?

8
如何将无界变量表示为0到1之间的数字
我想将变量表示为0到1之间的数字。该变量是一个非负整数,没有固有界限。我将0映射到0,但是我可以映射到1或0到1之间的数字呢? 我可以使用该变量的历史记录来提供限制。这意味着如果最大值增加,我必须重述旧的统计信息。我需要这样做还是应该知道其他技巧?

26
您觉得哪些R包在日常工作中最有用?
重复线程: 我刚安装了R的最新版本。我应该获得哪些软件包? 您无法想象日常使用数据的R包是什么?请同时列出常规工具和特定工具。 更新:至于24.10.10 ggplot2似乎以7票成为赢家。 提到的不止一个的其他软件包是: plyr -4 RODBC,RMySQL-4 sqldf -3 lattice -2 zoo -2 Hmisc/rms -2 Rcurl -2 XML -2 谢谢大家的回答!
28 r 

6
断轴有哪些替代方法?
通常,用户很想打破轴值以在同一张图上呈现不同数量级的数据(请参阅此处)。尽管这可能很方便,但它并不总是显示数据的首选方式(充其量可能会引起误解)。有几种显示数个数量级不同的数据的替代方法? 我可以想到两种方式,对数转换数据或使用晶格图。还有哪些其他选择?

2
为什么均方误差是经验分布和高斯模型之间的交叉熵?
在5.5版《深度学习》中(由伊恩·古德费洛(Ian Goodfellow),约书亚·本吉欧(Yoshua Bengio)和亚伦·库维尔(Aaron Courville)指出) 由负对数可能性组成的任何损失都是训练集定义的经验分布与模型定义的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。 我不明白为什么它们是等同的,作者对此也没有扩展。

4
为什么在喷气机上使用彩色贴图绿色?
正如https://www.youtube.com/watch?v=xAoljeRJ3lU中宣布的那样,Matplotlib将默认颜色图从jet更改为viridis。 但是,我不太了解。也许是因为我色盲? 原始的颜色图喷射看起来很强烈,我可以感觉到对比度: 尽管新的色彩映射viridis缺乏这种对比: 任何人都可以为我解释一下吗?我需要我的论文作图。而且我需要一个很好的理由说服我的主管(和我自己),绿虹膜是更好的。

6
为什么我们需要多元回归(而不是一堆单变量回归)?
我刚刚浏览了这本精彩的书:Johnson和Wichern的应用多元统计分析。具有讽刺意味的是,我仍然无法理解使用多变量(回归)模型而不是单独的单变量(回归)模型的动机。我经历了stats.statexchange帖子1和2,它们解释了(a)多元回归和多元回归之间的差异和(b)多元回归结果的解释,但是我无法根据所有信息调整使用多元统计模型上网了解他们。 我的问题是: 为什么我们需要多元回归?为了得出推论,同时考虑结果而不是单独考虑结果的好处是什么。 何时使用多元模型以及何时使用多个单变量模型(针对多个结果)。 举一个在UCLA网站上给出的例子,它具有三个结果:控制源,自我概念和动机。关于1.和2.,当我们进行三个单变量多元回归与一个多元多元回归时,我们可以比较分析吗?如何证明彼此的正当性? 我还没有碰到很多利用多元统计模型的学术论文。这是因为存在多元正态性假设,模型拟合/解释的复杂性还是任何其他特定原因?

1
写得精美的论文
摘自David Salsburg的《品尝茶的女士》: 尽管读者可能不会相信,但文学风格在数学研究中起着重要作用。一些数学作家似乎无法撰写易于理解的文章。其他人似乎因产生许多符号表示法而感到不快,这些符号表示法是如此的详细,以至于总的想法在皮卡尤尼语中迷失了。 但是,有些作者有能力以如此简单而有力的方式展示复杂的思想,以至于他们的论述似乎显而易见。只有回顾所学到的知识,读者才能意识到结果的强大力量。这样的作者是杰里·内曼(Jerzy Neyman)。很高兴阅读他的论文。这些想法自然而然地发展了,表述似乎很简单,结论似乎很自然,以至于您很难理解为什么没有人早就得出这些结果。 这些统计或机器学习方面写得很好的论文还有哪些其他具体示例? 想法是列出“这是应该怎么写”的论文清单。 请尝试提供: 完整的书目引用,例如: 卡尔·拉斯穆森(Carl E. Rasmussen),“ 无限高斯混合模型 ”,《神经信息处理系统》,第12卷,第1期。12(2000) 如果有链接,请尽可能将其链接到可公开访问的存储库(例如,http : //arxiv.org/)。 简短,非正式,易于理解的评论,涉及该论文的内容以及为什么它是写得最好的论文的一个示例。

6
用外行的话来说,模型和分布之间有什么区别?
维基百科上定义的答案(定义)对于那些不熟悉高等数学/统计学的人来说可能有点神秘。 用数学术语来说,统计模型通常被认为是一对(),其中是可能的观测值的集合,即样本空间,而是概率分布的集合在。小号P小号小号,PS,PS, \mathcal{P}小号SSPP\mathcal{P}小号SS 在概率和统计中,概率分布将概率分配给随机实验,调查或统计推断程序的可能结果的每个可测量子集。发现样本空间非数字的示例,其中的分布为分类分布。 我是一名高中生,在业余爱好这一领域非常感兴趣,目前正在努力解决a statistical model和a 之间的差异probability distribution 我目前的并且非常基本的理解是: 统计模型是对测得分布进行近似的数学尝试 概率分布是对实验的测量描述,将概率分配给随机事件的每个可能结果 文献中倾向于互换使用“分布”和“模型”一词,或者至少在非常相似的情况下(例如,二项式分布与二项式模型),这种混淆进一步加剧了混乱。 有人可以验证/纠正我的定义,也许可以为这些概念提供更正式的方法(尽管仍然用简单的英语表达)?

3
交叉验证,包括培训,验证和测试。为什么我们需要三个子集?
我有一个关于交叉验证过程的问题。我正在学习Cursera上的机器学习课程。主题之一是关于交叉验证。我发现很难遵循。我确实知道为什么需要CV,因为我们希望我们的模型能够很好地处理未来(未知)数据,并且CV可以防止过拟合。但是,该过程本身令人困惑。 我所了解的是,我将数据分为3个子集:训练,验证和测试。训练和验证是为了找到模型的最佳复杂性。我不明白的是第三个子集。我了解我为模型采用了许多功能,对其进行训练并在Validation子集上对其进行验证,并在更改结构时寻找最小的Cost Function。找到它后,我会在“测试”子集上测试模型。如果我已经在验证子集中找到了最小成本函数,为什么还要在测试子集中再次对其进行测试? 有人可以帮我澄清一下吗? 谢谢

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.