统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

27
睡美人悖论
情况 一些研究人员想让您入睡。根据公平硬币的秘密抛掷,它们会短暂地唤醒您一次(正面)或两次(尾巴)。每次醒来后,它们都会使您重新入睡,服用一种使您忘记这种唤醒的药物。当您被唤醒时,您应该相信抛硬币的结果在多大程度上是正面? (好吧,也许您不想成为该实验的对象!假设“睡美人”(SB)同意这一点(当然,在“魔幻王国”机构审查委员会的完全批准下。)她将去睡一百年,那又是一两天呢? [ Maxfield Parrish插图的细节。] 您是进军还是第三者? Halfer位置。 简单!硬币是公平的-SB知道-因此她应该相信有一半的正面机会。 第三位置。如果多次重复此实验,则硬币将仅在SB唤醒时间的三分之一时处于正面。她出现正面的概率将是三分之一。 第三者有问题 大多数但不是全部写过这篇文章的人都是第三方。但: 在SB入睡之前的周日晚上,她必须相信正面的机会是一半:这就是成为一枚公平硬币的意义。 每当SB醒来时,她在周日晚上都完全不知道自己不知道的任何事情。 那么,她可以说出什么理性的说法来表明她对头的信仰现在是三分之一而不是二分之一? 一些尝试的解释 如果SB以1/3以外的赔率下注,那么SB肯定会赔钱。(Vineberg,inter alios) 一半确实是正确的:只需使用Everettian的“许多世界”量子力学解释!(刘易斯) SB基于对世界“时间位置”的自我认知来更新自己的信念。(ELGA,IA) SB感到困惑:“ [似乎更合理的说法是,她醒来时的认知状态不应包括对头部的确定程度的信任。……真正的问题是如何应对已知的,不可避免的认知障碍。” [Arntzenius] 问题 考虑到已经在该主题上写过什么(请参阅参考资料和上一篇文章),如何以统计学上严格的方式解决这个悖论?这有可能吗? 参考文献 Arntzenius,Frank(2002)。 关于睡美人分析的思考 62.1页53-62。 布拉德利(DJ)(2010)。 在分支世界中的确认:埃弗雷特的解读和睡美人。英国 J.菲尔 科学 0(2010),1-21。 埃尔加·亚当(Elga,Adam)(2000)。自我定位的信念和“睡美人问题”。分析60页143-7。 弗朗西斯·保罗(Franceschi,Paul)(2005)。 睡美人与世界减少问题。预印本。 Groisman,Berry(2007)。 睡美人噩梦的终结。预印本。 刘易斯,D(2001)。 睡美人:回复Elga。分析61.3 pp 171-6。 Papineau,David和Victor Dura-Vila(2008)。 第三者和永恒者:对刘易斯的“量子睡美人”的回应。 Pust,Joel(2008)。 霍根论睡美人。合成160 pp 97-101。 …

4
用简单的英语表达科恩的河童
我正在阅读一本数据挖掘书,其中提到了Kappa统计信息,作为评估分类器预测性能的一种手段。但是,我只是不明白这一点。我还检查了Wikipedia,但它也没有帮助:https : //en.wikipedia.org/wiki/Cohen's_kappa。 科恩的kappa如何帮助评估分类器的预测性能?这说明了什么? 我了解100%的kappa表示​​分类器与随机分类器完全一致,但是我不知道这对评估分类器的性能有何帮助? 40%的kappa是什么意思?这是否意味着40%的时间分类器与随机分类器一致?如果是这样,这对我有什么帮助或帮助我评估分类器?

8
为什么牛顿方法没有在机器学习中广泛使用?
这是困扰我一段时间的事情,而且我在网上找不到任何令人满意的答案,所以这里是: 在复习了一组关于凸优化的讲座之后,牛顿的方法似乎比梯度下降算法更优越,可以找到全局最优解,因为牛顿的方法可以为其求解提供保证,它的仿射不变性,并且大多数收敛于步骤少得多。为什么在机器学习问题中二阶优化算法(例如牛顿法)不如随机梯度下降法那么广泛使用?

14
大数据集不适合假设检验吗?
在《Amstat新闻》最近的一篇文章中,作者(Mark van der Laan和Sherri Rose)说:“我们知道,对于足够大的样本量,每项研究(包括无效假设为零的研究)都将声明具有统计学意义的效果。”。 好吧,我一个人都不知道。这是真的?这是否意味着假设检验对大数据集毫无价值?


9
从底部到顶部解释马氏距离?
我正在研究模式识别和统计,几乎每本书我都涉及马哈拉诺比斯距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正真正了解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,它可以测量某种距离” :) 这些定义通常还包含特征向量和特征值,与马氏距离之间的连接有点麻烦。我了解特征向量和特征值的定义,但是它们与马氏距离有何关系?它与更改线性代数等的基数有关吗? 我还阅读了有关该主题的以下先前问题: 什么是马氏距离,如何将其用于模式识别? 高斯分布函数和马哈拉诺比斯距离(Math.SE)的直观解释 我也读过这个解释。 答案是好的,画面不错,但我仍然没有真正得到它。我有一个想法,但它仍然在黑暗中。有人可以给出“您将如何向您的祖母解释”的解释,以便我最终将其总结起来,而再也不会怀疑马哈拉诺比斯距离是多少?:)它来自哪里,为什么? 更新: 以下是有助于理解Mahalanobis公式的内容: https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-椭球

9
从随机森林中获取知识
随机森林被认为是黑匣子,但是最近我在想可以从随机森林中获得什么知识? 最明显的是变量的重要性,在最简单的变体中,只需计算变量的出现次数即可完成。 我正在考虑的第二件事是交互。我认为,如果树的数量足够大,则可以测试变量对的出现次数(类似于卡方独立性)。第三件事是变量的非线性。我的第一个想法只是看可变Vs得分的图表,但我不确定这是否有意义。 添加23.01.2012 动机 我想利用这些知识来改进logit模型。我认为(或至少希望如此)可以找到被忽略的相互作用和非线性。

3
一致估计和无偏估计之间有什么区别?
我真的很惊讶,似乎没有人问过这个问题... 在讨论估计量时,经常使用的两个术语是“一致”和“无偏”。我的问题很简单:有什么区别? 这些术语的精确技术定义相当复杂,很难直观理解它们的含义。我可以想象一个好的估计量,一个坏的估计量,但是我很难看到任何一个估计量如何满足一个条件而不能满足另一个条件。

3
帮助我了解贝叶斯先验和后验分布
在一组学生中,有18个学生中有2个是惯用左手的。假设先验信息不足,则找到惯用左手的学生在人群中的后验分布。总结结果。根据文献,5-20%的人是左撇子。事先考虑这些信息并计算新的后验。 我知道应该在这里使用beta发行版。首先,αα\alpha和ββ\beta值为1?我在后验材料中找到的等式是 π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)\pi(r \vert Y ) \propto r^{(Y +−1)} \times (1 − r)^{(N−Y +−1)} \\ Y=2Y=2Y=2,N=18N=18N=18 为什么方程式中的?(rrrrrr表示惯用左手的人的比例)。这是未知的,那么怎么在等式中呢?对我来说,似乎是可笑的计算rrr给出并使用方程给出的。好吧,对于样本 2/18,结果为0,0019。该˚F我应该从演绎?YYYrrrrrrr=2/18r=2/18r=2/180,00190,00190,0019fff 在已知和,给出的期望值的方程更好地工作,给了我,这听起来很正确。方程为其中值分配给和。考虑到先验信息,我应该给和提供什么值?RRRYYYNNN0,150,150,15E(r|X,N,α,β)=(α+X)/(α+β+N)E(r|X,N,α,β)=(α+X)/(α+β+N)E(r | X, N, α, β) = (α + X)/(α + β + N)111αααβββαααβββ 一些提示将不胜感激。关于先验和后验分布的一般性演讲也不会受到伤害(我含糊其词,但含糊其词)也要记住,我不是一个非常高级的统计学家(实际上,我是主要行业的政治学家),所以高等数学可能会飞过我的脑海。

6
与无序分类变量的相关性
我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。 我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是: 我不知道如何测量无序分类变量之间的相关性。 我不知道如何测量无序分类变量和数值变量之间的相关性。 有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?



3
为什么我们需要西格玛代数来定义概率空间?
我们进行了一个随机实验,以不同的结果形成样本空间 Ω,Ω,\Omega,我们感兴趣地观察了某些模式(称为事件 F.F.\mathscr{F}. 西格玛代数(或西格玛场)由可以分配概率度量PP\mathbb{P}的事件组成。满足某些属性,包括包含空集∅∅\varnothing和整个样本空间,以及描述与维恩图的并集和相交的代数。 概率被定义为之间的函数σσ\sigma代数和区间[0,1][0,1][0,1]。总的来说,三元组(Ω,F,P)(Ω,F,P)(\Omega, \mathscr{F}, \mathbb{P})形成了一个概率空间。 有人可以用简单的英语解释如果我们没有σσ\sigma代数的情况,为什么概率大厦会崩溃?它们只是被那个不可能的书法“ F”楔入中间。我相信它们是必要的;我看到一个事件与结果不同,但是如果没有σσ\sigma代数,会发生什么错误呢? 问题是:在哪种类型的概率问题中,包括σσ\sigma代数的概率空间的定义成为必要吗? 达特茅斯大学网站上的此在线文档提供了简单易懂的英语说明。这个想法是旋转指针在单位周长的圆周上逆时针旋转: 我们首先构造一个微调器,它由一个单位圆周的圆和一个指针组成,如图所示。我们在圆上选择一个点并将其标记为000,然后在圆上的每个其他点标记xXx,从000到该点的距离为逆时针方向。实验包括旋转指针并记录指针尖端处的点的标签。我们让随机变量XXX表示该结果的值。样品空间显然是间隔[0,1)[0,1个)[0,1)。我们想构建一个概率模型,其中每个结果均可能发生。daccess-ods.un.org daccess-ods.un.org如果我们像进行有限数量的可能结果那样进行实验,则必须将概率000分配给每个结果,因为否则,所有可能结果的概率之和将不会等于1。(实际上,对无数个实数求和是一件棘手的事情;特别是,为了使这种和具有任何意义,最多最多可以有许多个求和数可以不同于000)但是,如果所有分配的概率都是000,那么总和应该是 000,而不是11个1。 因此,如果我们为每个点分配任何概率,并且给定一个(无数个)无穷个点,那么它们的总和将>1>1个> 1。

21
在限制无限过程的每个步骤中,将10个球放入骨灰盒中,然后随机取出一个。还剩下几个球?
问题(稍作修改)如下,如果您从未遇到过此问题,则可以在Sheldon Ross的“ 概率论第一课 ” 的第 2章示例6a中进行检查: 假设我们拥有一个无限大的骨灰盒和一个标记为1号,2号,3号等的无数球。考虑执行以下实验:在1分钟至下午12点,将编号为1到10的球放入骨灰盒中,并随机取出一个球。(假设撤回没有时间。)在1/2分钟至下午12点,将编号为11到20的球放入骨灰盒,并随机取出另一个球。在1/4分钟到下午12点,将编号为21到30的球放入骨灰盒中,并随机取出另一个球……依此类推。感兴趣的问题是,下午12点骨灰盒里有几个球? 提出的这个问题基本上迫使每个人都弄错了-通常直觉是说在12 PM会有无数个球。Ross提供的答案是,一个one可能是空的在12 PM 在教授概率论时,这个问题就是其中的一个,很难对其进行直观的解释。 一方面,您可以尝试这样解释:“想想我在12 PM时任何球在骨灰盒上的可能性,在无限次随机抽签期间,最终将其删除。因为这对于所有球都成立,所以没有他们中的最后一个可以存在。” 但是,学生会正确地与您争论:“但是我每次要放10个球,然后移去1个球。最后不可能有零个球”。 我们能给他们解决这些矛盾直觉的最好解释是什么? 我也对这个论点持开放态度,这个问题是不恰当的,如果我们更好地表述它,“悖论”就消失了,或者对这个悖论是“纯粹是数学的”论点也持开放态度(但请尝试对此加以精确化)。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.