Questions tagged «probability»

概率提供了特定事件可能发生的定量描述。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

2
用于学习统计数据,练习(带有解决方案)的在线资源?
我目前在我的大学担任统计学入门课程(面向医学生)的助教。 在离线状态下,有很多书籍可以帮助老师。但是,我有兴趣知道的是,您是否可以引导我进入提供统计活动(包括解决方案)的任何(良好)资源,这些资源可以在线获取?(例如:教师注释)。 主题材料的范围可以在描述性统计,概率和参数/非参数统计推断之间。

1
在二进制分类设置中,准确性是否是不正确的评分规则?
我最近一直在学习针对概率分类器的正确评分规则。该网站上的多个主题强调了准确性是不正确的评分规则,不应将其用于评估概率模型(如逻辑回归)生成的预测的质量。 但是,我阅读的许多学术论文都给出了误分类的损失,以此作为二进制分类设置中(非严格)正确评分规则的一个示例。我能找到的最清晰的解释是在本文的第7页底部。据我所知,使分类错误的损失最小化等于使准确性最大化,并且本文中的方程式很直观。 例如:使用本文的表示法,如果感兴趣类别的真实条件概率(给定某些特征向量x)为η= 0.7,则任何预测q > 0.5的预期损失R(η| q)= 0.7(0)+ 0.3(1)= 0.3,则任何q 0.5都将具有0.7的预期损失。因此,损失函数在q =η= 0.7时将最小化,因此是适当的;从那里到真正条件概率和预测整个范围的泛化似乎很简单。≤≤\leq 假设以上计算和陈述正确无误,那么最小值的缺点就很明显,所有高于0.5的预测均具有相同的最小预期损失。我仍然没有理由在诸如log得分,Brier得分等传统方法上使用准确性。但是,在二进制环境中评估概率模型时,说准确性是一个正确的评分规则是正确的吗?错误-是我对分类错误的理解,还是将其等同于准确性?

1
对Halmos-Savage定理的直觉理解
所述Halmos-野蛮定理说,对一个主导统计模型(Ω ,A,P)(Ω,A,P)(\Omega, \mathscr A, \mathscr P)的统计T:(Ω,A,P)→(Ω′,A′)T:(Ω,A,P)→(Ω′,A′)T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A')是足够的,如果(且仅当)的所有{P∈P}{P∈P}\{P \in \mathscr{P} \} 有一个TTT氡Nikodym导衍生物的-measurable版本dPdP∗dPdP∗\frac{dP}{dP*},其中dP∗dP∗dP*是特权的措施,使得P∗=∑∞i=1PiciP∗=∑i=1∞PiciP*=\sum_{i=1}^\infty P_i c_i 为ci>0,∑∞i=1ci=1ci>0,∑i=1∞ci=1c_i >0, \sum _{i=1}^\infty c_i =1个Pi∈PPi∈PP_i \in \mathscr P。 我试图直观地理解为什么该定理成立,但我没有成功,所以我的问题是是否存在一种直观的方法来理解该定理。

11
标准偏差完全错误吗?如何计算高度,计数等(正数)的std?
假设我正在计算高度(以厘米为单位),并且数字必须大于零。 这是示例列表: 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 在此示例中,根据正态分布,值的99.7%必须在平均值的标准偏差的±3倍之间。但是,即使两次标准偏差也变为负值: -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 但是,我的数字必须为正。因此它们必须大于0。我可以忽略负数,但是我怀疑这是使用标准差计算概率的正确方法。 有人可以帮助我了解我是否以正确的方式使用它吗?还是我需要选择其他方法? 老实说,数学就是数学。是否为正态分布都没有关系。如果它适用于无符号数字,那么它也应适用于正数!我错了吗? 编辑1:添加直方图 更清楚地说,我添加了我的真实数据的直方图 EDIT2:一些值 Mean: 0.007041500928135767 Percentile 50: 0.0052000000000000934 Percentile 90: 0.015500000000000047 Std: 0.0063790857035425025 Var: 4.06873389299246e-05


2
关节正态性是正常随机变量总和是否正常的必要条件吗?
在我对相关问题的回答之后的评论中,用户ssdecontrol和Glen_b询问和联合正态性对于断言的正态性是否必要?当然,关节正常就足够了。在那里没有解决这个补充问题,也许值得单独考虑。Y X + YXXXYYYX+YX+YX+Y 由于联合常态意味着边际常态,我问 难道存在正常的随机变量和,使得 是一个正常的随机变量,但和是不是 共同正常的随机变量?Y X + Y X YXXXYYYX+YX+YX+YXXXYYY 如果不要求和具有正态分布,则很容易找到这样的正态随机变量。可以在我以前的答案中找到一个示例(上面提供了链接)。我认为,上面突出显示的问题的答案是“是”,并已发布(我认为是)示例作为对此问题的答案。ÿXXXYYY

1
了解卡方检验和卡方分布
我试图理解卡方检验背后的逻辑。 卡方测试是。χ2然后比较卡方分布,找出一个p.value以拒绝或不零假设。H0:观测值来自我们用来创建期望值的分布。例如,我们可以测试获得概率是否如我们预期的那样由p给出。所以我们翻转100次,发现ñ^ h和1-ñ^ h。我们希望我们的发现比较预期是什么(100⋅p)。我们也可以使用二项式分布,但这不是问题的重点……问题是:χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p 您能否解释一下为什么在零假设下遵循卡方分布吗?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} 关于卡方分布,我所知道的是,度的卡方分布是k平方标准正态分布的总和。kkkkkk

2
您观察到n次投掷k个头。硬币公平吗?
在一次采访中我被问到。有没有“正确”的答案?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) 假设抛掷是同性的,正面的概率为。那么,在400次抛掷中头部的分布应该接近于法线(200,10 ^ 2),这样220头部的平均值就会偏离平均值2个标准差。观察到这种结果的可能性(即,在任一方向上均距平均值多2个SD)略小于5%。p=0.5p=0.5p=0.5 面试官告诉我,基本上,“如果我观察到均值> = 2 SD,就会得出结论,其他事情还在继续。我敢打赌这枚硬币是公平的。” 这是合理的-毕竟,这就是大多数假设检验所做的。但这就是故事的结局吗?对于面试官来说,这似乎是“正确”的答案。我要问的是,有些细微差别是否合理。 我忍不住指出,在这种抛硬币的情况下,判定硬币不公平是一个奇怪的结论。我说对吗?我会在下面解释。 首先,我-我也会假设大多数人-对硬币有很深的了解:它们很可能是公平的。当然,这取决于我们所说的公平-一种可能性是将“公平”定义为“具有接近0.5(例如介于0.49和0.51之间)的可能性”。 (你也可以定义“公平”为指的正面的概率正好是0.50,在这种情况下,有一个完全公平的硬币现在似乎相当取消可能。) 您的先验可能不仅取决于您对硬币的一般看法,还取决于上下文。如果您从自己的口袋里掏出硬币,那么您几乎可以肯定这是公平的。如果您的魔术师朋友从他的钱包中拿出硬币,那么您以前的朋友可能会加大双头硬币的重量。 无论如何,要想出一个合理的先验就很容易了:(i)使硬币很可能是公平的;(ii)即使观察了220个头,也使后验非常相似。然后,您会得出结论,尽管观察到结果均值2 SD,但该代币很可能是公平的。 实际上,您还可以构建一些示例,其中在400次抛掷中观察220个头,这会使您的后方对硬币保持更大的重量,例如,如果所有不公平的硬币的正面概率都为。{0,1}{0,1}\{0, 1\} 谁能为我阐明一下? 在写完这个问题之后,我想起了我以前听说过这种大局的情况,这不是林德利的“悖论”吗? Whuber在评论中加入了一个非常有趣的链接:您可以装模,但不能偏向硬币。从第3页: 不能说硬币的正面概率为p,因为硬币可以完全由抛掷的方式确定,除非将硬币抛向空中并快速旋转并抛向空中。无弹跳,在这种情况下,p = 1/2。 太酷了!这以一种有趣的方式与我的问题联系在一起:假设我们知道硬币被“迅速旋转抛向空中,并被弹跳而没有跳动”。那么我们绝对不应该拒绝硬币是公平的假设(这里的“公平”现在意味着“以上述方式抛硬币时,p = 1/2”),因为我们有效地拥有了将所有概率置于硬币是公平的。也许在某种程度上可以证明为什么在观察到220个头之后我不愿意拒绝null。


3
图书初学者关于概率分布的建议
我正在学习机器学习,打开的每一本书都碰到卡方分布,伽马函数,t分布,高斯分布等。 到目前为止,我读过的每一本书都只定义了分布:它们并不能解释或给出函数的特定公式从何而来的直觉。 例如,为什么卡方分布是这样?什么是t分布?发行背后的直觉是什么?证明?等等 我想对最常用的分布有一个清晰而基本的了解,以便以后每次看到它们时,我都能真正理解什么是t分布,什么是高斯分布,最重要的是为什么它们如此他们是。 如果书籍/教程可以向外行解释这些概念,这样您就不必了解它们就可以了。x)许多书籍都是这样的,它们不适合初学者:(

1
“绝对连续随机变量”与“连续随机变量”?
在Valentin V. Petrov的《概率论的有限定理》一书中,我看到了分布的定义是“连续的”和“绝对连续的”之间的区别,其定义如下: X P (X ∈ 乙) = 0 乙P (X ∈ 乙) = 0 乙(* )(∗)(*) “ ... 如果实线的任何有限点或可数点的,则随机变量的分布被认为是连续的。如果Lebesgue的所有Borel集的,则绝对是连续的...”XXXP(X∈ 乙) = 0P(X∈乙)=0P\left(X \in B\right)=0乙乙BP(X∈ 乙) = 0P(X∈乙)=0P\left(X \in B\right)=0乙乙B 我熟悉的概念是: (#)(#)(\#) “如果随机变量具有连续的累积分布函数,则它绝对是连续的。” (∗ )(#)我的问题是:我的问题是:\textbf{My questions are:}和关于“绝对连续性”的两个描述是在谈论同一件事吗?如果是,我如何将一种解释翻译成另一种解释?(* )(∗)(*)(#)(#)(\#) 谢谢!

3
如何编写Bertrand盒悖论的蒙特卡罗模拟?
在Mensa International Facebook页面上发布了以下问题: \quad\quad\quad\quad\quad\quad\quad\quad 该帖子本身收到了1000多个评论,但由于我知道这是Bertrand的“盒子悖论”,而答案是,因此我不会在此处详细讨论辩论。让我感兴趣的是,如何使用蒙特卡洛方法回答这一问题?该算法如何解决这个问题?2323\frac23 这是我的尝试: 生成到之间的均匀分布的随机数。0 1NNN000111 让事件框包含选择的2个金球(方框1)小于一半。 计数数字,小于,并调用结果作为。秒0.50.50.5SSS 由于确定如果选择了框1,就肯定会得到金球,如果选择了框2,则只有50%的机会会得到金球,因此,得到序列GG的概率为 P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} 在R中实现上述算法: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 上面程序的输出大约是,几乎与正确答案匹配,但是我不确定这是正确的方法。是否有适当的方法以编程方式解决此问题?0.670.670.67

2
构造示例显示
如何构造一个E(1X)=1E(X)E(1X)=1E(X)\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}假设P(X≠0)=1P(X≠0)=1\mathbb{P}(X\ne0)=1? E(X )成立。 从Jensen不等式得出的正值RV XXX的不等式类似于E(1X)≥1E(X)E(1X)≥1E(X)\mathbb{E}\left(\frac{1}{X}\right)\ge\frac{1}{\mathbb{E}(X)}(如果X&lt;0X&lt;0X<0则为反向不等式)。这是因为该映射x↦1xx↦1xx\mapsto\frac{1}{x}对于x&gt;0x&gt;0x>0是凸的,对于x&lt;0x&lt;0x<0凹的。遵循詹森不等式中的等式条件,我猜想分布必须退化才能保持所需的等式。如果X=1X=1X=1ae,则等式成立的一个简单情况当然是在问题书中找到的一个示例:考虑一个离散随机变量XXX,使得P(X=−1)=19,P(X=12)=P(X=2)=49P(X=−1)=19,P(X=12)=P(X=2)=49\mathbb{P}(X=-1)=\frac{1}{9}, \mathbb{P}(X=\frac{1}{2})=\mathbb{P}(X=2)=\frac{4}{9}。然后可以很容易地验证E(1X)=1E(X)=1E(1X)=1E(X)=1\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}=1。 此示例表明,XXX不必为正(或负)ae即可保持标题中的相等。这里的分布也不退化。 我如何构造一个示例,可能就像我在书中找到的那样?有动力吗?

2
Kaggle比赛是不是偶然赢了?
Kaggle竞赛根据坚持下来的测试集确定最终排名。 保留的测试集是一个样本;它可能不代表正在建模的总体。由于每个提交都像一个假设,因此赢得竞争的算法可能完全有可能比其他方法更好地匹配测试集。换句话说,如果选择了不同的测试集并重复了比赛,排名会保持不变吗? 对于赞助公司而言,这并不重要(可能前20名提交者会改善他们的基准)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更糟糕的第一名的模型。但是,对于竞争参与者来说,Kaggle似乎最终是一种机会游戏-不需要偶然找到正确的解决方案,而是需要偶然找到与测试集匹配的解决方案! 是否可以改变比赛方式,以便所有无法在统计上区分的顶级球队获胜?或者,在这一组中,最简约或计算便宜的模型能否获胜?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.