Questions tagged «probability»

概率提供了特定事件可能发生的定量描述。

4
布莱克威尔的赌注
我已经读过布莱克韦尔关于“ 徒劳壁橱”的赌注悖论。这是摘要:您将两个信封和。信封中有随机的钱,但是您对钱的分配一无所知。您打开一个,检查其中有多少钱(),然后必须选择:拿信封或?ExExE_xEyEyE_yxxxExExE_xEyEyE_y 徒劳的壁橱指的是一个叫伦纳德·瓦普纳(Leonard Wapner)的数学家:“出乎意料的是,除了打开另一个信封,您可以做一些事情,以使自己获得比正确解决方案更好的机会。” 这个想法对我来说似乎是错误的,它如下:选择一个随机数。如果,则取。如果,请选择。dddd&lt;xd&lt;xd < xExExE_xd&gt;xd&gt;xd > xEyEyE_y Wapner:“如果d介于x和y之间,那么您的预测(如d所示)将保证是正确的。假设这以概率p发生。如果d小于x和y,那么只有在您选择的数字x大于两个时,您的预测才是正确的。有50%的机会。同样,如果d大于两个数字,则仅当您选择的数字小于两个数字时,您的预测才是正确的。发生这种情况的可能性也为50%。” 如果在的概率大于零,则此方法的平均成功率为。这意味着通过观察不相关的随机变量可以提供更多信息。ddd[x,y][x,y][x,y]12+p212+p2\frac{1}{2} + \frac{p}{2} 我认为这都是错误的,问题出在选择随机整数。这是什么意思?像是整数?在这种情况下,概率即谎言之间和为零,因为这两个和是有限的。d X ÿ X ÿpppdddxxxyyyxxxyyy 如果说有关于钱的最大量的限制,说,或者至少我们选择从D,然后配方归结为选择的琐碎建议如果和如果则选择。1 ... 中号Ë ý X &lt; 中号/ 2 ë X X &gt; 中号/ 2MMM1...M1...M1...MEyEyE_yx&lt;M/2x&lt;M/2x < M/2ExExE_xx&gt;M/2x&gt;M/2x > M/2 我在这里想念什么吗? 编辑 好的,现在我开始看看明显的矛盾来自何处。在我看来,不相关的随机变量无法提供附加信息。 但是,请注意,我们需要有意识地选择d的分布。例如,选择均匀分布的边界或Poissionian分布的等。显然,如果我们在玩花生游戏,我们选择d的分布在美元,。最后一个概率将首先取决于我们对信封中可能存在的内容的判断。[ 10 9,2 ⋅ 10 9 ] P (d ∈ (X …

1
奥兹(Oz)会不会有不幸的Tribble?
这是一个学生给我带来的有趣的问题。尽管它最初的用语是用枪消灭定期发射的子弹,但我认为您可能会感到更和平。 在奥兹无限平坦的世界中,黄砖路始于翡翠城的中心,蜿蜒穿过乡村,一直持续到没有穿越自己的时候。每天中午,一个精力充沛的年轻雌雄同体的Tribble沿着这条路从其起点滚动,以统一的随机选择速度进行,最高可达每天一公里。在整个旅程中,它将保持相同的速度滚动,永不停止。但是,如果某个Tribble在道路上超越另一个Tribble,则每个人都会立即认出自己的灵魂伴侣,而两个人就会掉到一边(大概是为了繁殖并最终向家中提供更多Tribbles)。 如您所知,这种交配经常发生,因为任何两个Tribble以完全相同的速度滚动的机会为零。哦,Tribbles开心!但是,生活是否一定对所有人都有好处? 至少一个Tribble永远持续存在,从未超车或被超车的机会是什么?

2
当两个序列都收敛到一个非退化随机变量时,Slutsky定理仍然有效吗?
我对Slutsky定理的一些细节感到困惑: 令{Xn}{Xn}\{X_n\},{Yn}{Yn}\{Y_n\}是两个标量/向量/矩阵随机元素序列。 如果XnXnX_n的分布收敛到一个随机元素XXX而YnYnY_n 的概率收敛到一个常数ccc,则Xn+Yn XnYn Xn/Yn →d X+c→d cX→d X/c,Xn+Yn →d X+cXnYn →d cXXn/Yn →d X/c,\eqalign{ X_{n}+Y_{n}\ &{\xrightarrow {d}}\ X+c\\ X_{n}Y_{n}\ &{\xrightarrow {d}}\ cX\\ X_{n}/Y_{n}\ &{\xrightarrow {d}}\ X/c, } 前提是ccc是可逆的,其中→d→d{\xrightarrow {d}}表示分布收敛。 如果Slutsky定理中的两个序列都收敛到一个非退化的随机变量,那么该定理仍然有效,如果无效(有人可以提供一个例子吗?),使它有效的额外条件是什么?

1
特殊概率分布
如果是在上具有非零值的概率分布,则对于哪种类型,存在常数,使得 对于所有吗?p(x)p(x)p(x)[0,+∞)[0,+∞)[0,+\infty)p(x)p(x)p(x)c&gt;0c&gt;0c\gt 0∫∞0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2∫0∞p(x)log⁡p(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^20&lt;ϵ&lt;10&lt;ϵ&lt;10\lt\epsilon\lt 1 上面的不等式实际上是分布及其压缩版本之间的Kullback-Leibler散度。我发现这种不等式适用于指数分布,伽玛分布和威布尔分布,并且我想知道这是否适用于更大的概率分布类别。(1 + ϵ ) p (x (1 + ϵ ))p(x)p(x)p(x)(1+ϵ)p(x(1+ϵ))(1+ϵ)p(x(1+ϵ)){(1+\epsilon)}p({x}{(1+\epsilon)}) 知道不平等意味着什么吗?

2
在校准概率模型时如何选择最佳箱宽?
背景:这里有一些很棒的问题/答案,如何校准可预测结果发生概率的模型。例如 Brier分数,并将其分解为分辨率,不确定性和可靠性。 标定图和等渗回归。 这些方法通常需要对预测的概率使用分箱方法,以便通过取平均结果在分箱上使结果(0,1)的行为平滑。 问题: 但是,我找不到任何有关如何选择纸槽宽度的信息。 问题:如何选择最佳纸槽宽度? 尝试:正在使用的两种常见的料箱宽度似乎是: 等宽合并,例如10个合并,每个合并覆盖间隔[0,1]的10%。 Tukey的分箱方法在这里讨论。 但是,如果有兴趣在预测概率最不正确的区间中找到间隔,那么这些垃圾箱的选择是否是最佳选择?


2
当是概率密度函数时如何找到?
我该如何解决?我需要中间方程式。也许答案是。−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)是概率密度函数。 也就是说,和\ lim \ limits_ {x \ to \ infty} F(x)= 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 来源:http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf第40页 尝试下面的中间方程式: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx …

4
多大比例的独立分布给出正态分布?
两个独立正态分布的比率给出柯西分布。t分布是正态分布除以独立的卡方分布。两个独立的卡方分布的比率给出F分布。 我正在寻找独立连续分布的比率,该比率给出均值和方差正态分布随机变量?σ 2μμ\muσ2σ2\sigma^2 可能有无限可能的答案。您能给我一些可能的答案吗?如果要计算比率的两个独立分布相同或至少具有相似的方差,我将特别感激。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds &lt;- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
概率比率与PDF比率
我正在使用贝叶斯解决聚类问题。经过一些计算,我最终需要获得两个概率的比率: P(A)/P(B)P(A)/P(B)P(A)/P(B) 以获得。这些概率是通过将两个不同的2D多元KDE集成而获得的,如以下答案所示:P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy 其中f^(x,y)f^(x,y)\hat{f}(x, y)和g^(x,y)g^(x,y)\hat{g}(x, y)是KDE,并且对低于阈值f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)和g^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。两个KDE都使用高斯内核。可以在这里看到与我正在使用的KDE类似的KDE代表性图像:在2D中集成内核密度估计器。 我通过stats.gaussian_kde python函数来计算KDE,因此我假设它具有以下一般形式: KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} n我的点阵列的长度在哪里,h使用的带宽是多少。 上面的积分是使用蒙特卡洛过程计算的,该过程在计算上非常昂贵。我已经读过某处(忘了在哪里,对不起),在这种情况下,可以用在阈值点评估的PDF(KDE)比率替换概率比率,以获得同样有效的结果。我对此感兴趣,因为计算KDEs的比率要比计算MC积分的比率要快几个数量级。 因此问题被简化为该表达式的有效性: P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} 在什么情况下(如果有的话)我可以说这种关系是正确的? [固定错字(编辑)] …

2
t分布密度函数的直觉
我正在研究学生的t分布,我开始怀疑,如何得出t分布密度函数(来自Wikipedia,http://en.wikipedia.org/wiki/Student%27s_t-distribution): F(t )= Γ (v + 12)v π--√Γ (v2)( 1 + 吨2v)− v + 12f(t)=Γ(v+12)vπΓ(v2)(1+t2v)−v+12f(t) = \frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\:\Gamma(\frac{v}{2})}\left(1+\frac{t^2}{v} \right)^{-\frac{v+1}{2}} 其中是自由度,Γ是伽马函数。这个功能的直觉是什么?我的意思是,如果我查看二项式分布的概率质量函数,这对我来说很有意义。但是t分布密度函数对我完全没有意义...乍一看根本不直观。还是直觉认为它具有钟形曲线并满足我们的需求?vvvΓΓ\Gamma Thnx寻求任何帮助:)

5
John Kerrich投币数据
任何人都可以建议从哪里获得约翰·科里希(John Kerrich)在第二次世界大战期间进行的10,000次硬币翻转的结果(即,所有10,000次正面和反面)?

1
了解测量浓度不均
本着这个问题的精神,我理解在霍夫丁不等式中使用的引理的证明,我试图理解导致霍夫丁不等式的步骤。 在证明中,对我而言最神秘的是为iid变量之和计算指数矩的那部分,然后应用Markov不等式。 我的目标是了解:为什么这种技术会带来严重的不平等,这是我们可以实现的最严格的吗?一个典型的解释是关于指数的矩产生特性。但是,我觉得这太含糊了。 Tao的博客中的帖子http://terrytao.wordpress.com/2010/01/03/254a-notes-1-concentration-of-measure/#hoeff可能会提供一些答案。 考虑到这一目标,我的问题是我停留在涛的帖子中的三点,希望我能在解释后给我以启发。 Tao使用第k个矩 如果对于任何k都成立,则他得出指数界。这是我迷路的地方。 P(|小号Ñ|≥λ√P(|Sn|≥λn−−√)≤2(ek/2−−−−√λ)k. (7)P(|Sn|≥λn)≤2(ek/2λ)k. (7)\displaystyle {\bf P}( |S_n| \geq \lambda \sqrt{n} ) \leq 2 (\frac{\sqrt{ek/2}}{\lambda})^k. \ \ \ \ \ (7)P( | Sñ| ≥λ Ñ--√)≤ Ç经验值(- Ç λ2)(8 ) P(|Sn|≥λn)≤Cexp⁡(−cλ2) (8)\displaystyle {\bf P}( |S_n| \geq \lambda \sqrt{n} ) \leq C \exp( - c \lambda^2 ) …

2
在2D中集成内核密度估计器
我来自这个问题,以防有人要跟踪。 基本上,我有一个由对象组成的数据集,其中每个对象都具有给定数量的测量值(在这种情况下为两个):ΩΩ\OmegaNNN Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] 我需要一种确定新对象属于的概率的方法,因此建议我通过内核密度估计器获得概率密度,我相信我已经有。p[xp,yp]p[xp,yp]p[x_p, y_p]˚FΩΩ\Omegaf^f^\hat{f} 由于我的目标是获得这个新对象的概率(属于这个二维数据集),有人告诉我到PDF集成在“ 为其支持的值密度小于您观察到的密度 ”。在新对象评估“观察”密度,即:。所以我需要求解方程:Ω ˚F ˚F p ˚F(X p,ÿ p)p[xp,yp]p[xp,yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^(xp,yp)f^(xp,yp)\hat{f}(x_p, y_p) ∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy 我的2D数据集的PDF(通过python的stats.gaussian_kde模块获得)如下所示: 红点代表新对象绘制在我的数据集的PDF上。p[xp,yp]p[xp,yp]p[x_p, y_p] 所以问题是:当pdf看起来像这样时,如何计算极限的上述积分?x,y:f^(x,y)&lt;f^(xp,yp)x,y:f^(x,y)&lt;f^(xp,yp)x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p) 加 我进行了一些测试,以查看我在评论之一中提到的蒙特卡洛方法的效果。这是我得到的: 对于较低密度的区域,该值似乎会有更多变化,两个带宽或多或少都显示出相同的变化。比较Silverman的2500和1000样本值时,表中最大的变化发生在点(x,y)=(2.4,1.5)处,其差值为0.0126或~1.3%。就我而言,这在很大程度上是可以接受的。 编辑:我只是注意到,根据此处给出的定义,在二维中Scott的规则等效于Silverman的规则。

1
如果网球比赛是一个大型比赛,那么多少场比赛才能达到相同的准确性?
网球有一个独特的三层得分系统,我想知道从比赛的角度来看,这是否有任何统计学上的好处,以确定更好的球员。 对于那些不熟悉的人,通常情况下,只要您有2分的领先优势(通常是4-2,则获胜,但4-3则需要再增加1分,然后保持直到一名玩家领先2)。 一组是一组游戏,一组首先赢得6局,再次必须获得2局,除非这次是特殊的决胜局游戏,而不是继续进行(温网的最后一组等)。 ..) 根据比赛的不同,比赛将首先获得2到3套冠军。 现在,网球也很奇怪,因为比赛不公平。对于任何给定的点,服务器都具有巨大的优势,因此服务器交替进行每个游戏。 在决胜局游戏中,发球在每分之后交替进行,这是第一至7分,再次领先2分。 假设玩家A有可能在其发球和接收到时赢得积分。p [Rpspsp_sprprp_r 问题是这样的,假设我们 A)刚打网球是一项大型的“ N场最佳比赛”,多少场比赛的准确度与正常的5套网球相同 B)只是将网球作为一项重要的决胜局游戏,有多少分能像平常的5盘网球那样获得最佳准确性? 显然,这些答案将取决于和值本身,因此也很高兴知道p [Rpspsp_sprprp_r C)假设常数,是正常网球的预期比赛次数和得分是多少p [Rpspsp_sprprp_r 定义“准确性” 如果我们假设两个玩家的技能保持不变,那么如果他们玩了无限长的时间,那么无论玩法如何,一个或其他玩家几乎肯定会获胜。该球员是“正确”的赢家。我很确定正确的赢家是的玩家。pr+ps&gt;1pr+ps&gt;1p_r+p_s > 1 一种更好的比赛方式是,在相同的得分点上更频繁地产生正确的获胜者,或者相反,在很少的得分中以相同的概率产生正确的胜者。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.