Questions tagged «probability»

概率提供了特定事件可能发生的定量描述。

1
期望K数之和而不需替换
给定数字,每个数字的值不同,分别表示为,选择每个数字的概率分别为。nnnv1,v2,...,vnv1,v2,...,vnv_1, v_2, ..., v_np1,p2,...,pnp1,p2,...,pnp_1, p_2, ..., p_n 现在,如果我根据给定的概率选择数字,其中,那么这数字之和的期望是什么?请注意,选择是没有替换的,因此号不能包含重复的数字。我知道如果选择替换,则数字之和的期望等于,其中KKKK≤nK≤nK \leq nKKKKKKKKKK×E(V)K×E(V)K \times E(V)E(V)=v1×p1+v2×p2+...+vn×pn.E(V)=v1×p1+v2×p2+...+vn×pn.E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n. 此外,对那些数的方差的期望又如何呢?KKK 我是CS博士学生,正在研究大数据问题,而且我没有任何统计背景。我希望有人可以给我一个公式作为答案。但是,如果答案过于复杂而无法用公式描述或需要进行大量计算,则近似答案是完全可以接受的。 您可以假设此处的很大,并且概率可能相差很大。实际上,这些概率的值来自查询日志,该日志记录了一系列聚合查询。关键是查询中涉及的每个数字的频率可能会偏斜,即,很少查询一些,而某些查询则非常频繁。您可以假设概率分布是正态分布,zipf分布或任何其他合理的替代。nnn 值分布只是任何可能分布的连续子集。换句话说,如果您有一个表示一定分布的直方图,则此问题涉及的所有数字都是单个存储桶中的所有数字。 根据K的值,您可以假定它总是小于经常查询的元素的数量。

2
IID随机变量和的商的期望(剑桥大学工作表)
我正在准备一个面试,要求对基础概率有相当的了解(至少要通过面试本身)。从学生时代开始,我正在整理以下表格。这通常是相当简单的,但是我完全被问题12困扰。 http://www.trin.cam.ac.uk/dpk10/IA/exsheet2.pdf 任何帮助,将不胜感激。 编辑:问题是: 假设是具有和独立均匀分布的正随机变量。令。显示当时,并且时。X1个,X2,。。。X1,X2,...X_1, X_2, ... E(X1个)= μ &lt; ∞E(X1)=μ&lt;∞\mathbb{E}(X_1) = \mu < \inftyE(X− 11个)&lt; ∞E(X1−1)&lt;∞\mathbb{E}(X_1^{-1}) < \infty小号ñ=∑ñ我= 1X一世Sn=∑i=1nXiS_n = \sum_{i=1}^n X_iE(小号米/小号ñ)= m / nE(Sm/Sn)=m/n\mathbb{E}(S_m/S_n) = m/nm &lt; = nm&lt;=nm<=nE(小号米/小号ñ)= 1 + (米- ñ )μ È(小号− 1ñ))E(Sm/Sn)=1+(m−n)μE(Sn−1))\mathbb{E}(S_m/S_n) = 1 + (m-n)\mu\mathbb{E}(S_n^{-1}))m &gt; = n米&gt; =ñm>=n 实际上,在键入内容的过程中,我已经解决了第二部分。 对于,m &gt; = …

2
统计学中的三个开放性哲学问题
我最近读完了《品尝女士茶》,这是一本有关统计历史的有趣书籍。在书的最后,作者大卫·萨尔斯堡(David Salsburg)提出了统计学中的三个开放性哲学问题,他认为解决这些问题将对统计理论在科学中的应用产生更大的影响。我以前从未听说过这些问题,所以我对其他人对它们的反应很感兴趣。我正在冒险进入一个我所不了解的领域,所以我将仅描述萨尔斯堡对这些问题的描述,并在下面提出关于这些问题的两个一般性问题。 萨尔斯堡的哲学问题是: 可以使用统计模型进行决策吗? 当应用于现实生活时,概率是什么意思? 人们真的了解概率吗? 统计与决策 为了说明问题1,Salsburg提出了以下悖论。假设我们组织了一张有10000张未编号彩票的彩票。如果我们通过拒绝概率低于0.001的票证的假设来使用概率来决定任何给定的票证是否会赢得彩票,我们将拒绝彩票中所有票证的中奖票证的假设! 萨尔斯堡大学(Salsburg)使用此示例辩称,由于当前了解概率论,因此逻辑与概率论不一致,因此,我们目前尚没有一种很好的方法来集成统计信息(以现代形式,它主要基于概率论)与决策的逻辑手段。 概率的含义 作为数学上的抽象,萨尔斯堡认为概率很好,但是当我们尝试将结果应用于现实生活时,我们遇到了这样的问题:概率在现实生活中没有具体的意义。更具体地说,当我们说明天有95%的机会下雨时,尚不清楚95%适用于哪些实体。它是否适用于我们可能进行以获取有关降雨知识的一组可能的实验?它适用于可能会出门弄湿的那一组人吗?萨尔斯堡(Salsburg)认为,缺乏解释概率的方法会给基于概率的统计模型(即大多数概率模型)造成问题。 人们了解概率吗? 萨尔斯堡争辩说,一种试图通过缺乏具体的概率解释方法解决问题的尝试是通过吉米·萨维奇和布鲁诺·德·芬内蒂提出的“ 个人概率 ” 概念。,将概率理解为对未来事件可能性的个人信念。但是,为了使个人概率为概率提供连贯的基础,人们需要对什么是概率有一个共同的理解,并需要一种使用证据得出有关概率结论的通用方法。不幸的是,诸如卡尼曼和特维尔斯基所产生的证据表明,个人信念可能是很难为概率建立连贯基础的基础。萨尔斯堡(Salsburg)建议,将概率建模为信念的统计方法(也许是贝叶斯方法?在这里我要扩展我的知识)将需要处理这个问题。 我的问题 萨尔斯堡的问题在多大程度上真正成为现代统计的问题? 我们在寻找解决这些问题的方法方面是否取得了进展?

1
评估时间序列预测性能
我有一个在几个时间变量上训练过的动态朴素贝叶斯模型。模型的输出是P(Event) @ t+1每个的预测t。 P(Event)vs 的曲线time如下图所示。在此图中,黑线代表P(Event)我的模型所预测的;的水平红线表示事件发生的先验概率; 和垂直虚线表示在时间序列中的(5个)的事件发生。 理想情况下,我希望P(Event)在观察任何事件之前先看到预测的峰值,并且在没有事件发生的希望时保持接近零。 我希望能够报告模型(黑线)在预测事件发生方面的表现。与我的模型进行比较的一个明显的候选对象是事件的先验概率(红线),如果将其用作预测因子,则将为所有对象预测相同的概率值t。 实现这种比较的最佳形式方法是什么? PS:我目前正在按照以下代码使用(直观)评分,其中总体评分较低表明预测性能更好。我发现用这个评分实际上很难超越以前的评分: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score = 1- prob_prediction[t]; cur_prior_score = 1 - prior else: # no event cur_model_score = prob_prediction[t] - 0; cur_prior_score = prior - …


3
Rademacher随机变量的乘积和
令是独立随机变量,其值分别为或,概率分别为0.5。考虑和。我希望将概率上限。我现在的最佳界限是,其中c是一个通用常数。这是通过应用简单的Chernoff 边界对概率Pr(| x_1 + \ dots + x_n | &lt;\ sqrt {t})和Pr(| y_1 + \ dots y_n | &lt;\ sqrt {t})进行下限来实现的。我能希望得到比这个界限更好的东西吗?首先,我至少可以得到x1…xa,y1…ybx1…xa,y1…ybx_1 \ldots x_a,y_1 \ldots y_b+1+1+1−1−1-1S=∑i,jxi×yjS=∑i,jxi×yjS = \sum_{i,j} x_i\times y_jP(|S|&gt;t)P(|S|&gt;t)P(|S| > t)2e−ctmax(a,b)2e−ctmax(a,b)2e^{-\frac{ct}{\max(a,b)}}cccPr(|x1+⋯+xn|&lt;t√)Pr(|x1+⋯+xn|&lt;t)Pr(|x_1 + \dots + x_n|<\sqrt{t})Pr(|y1+⋯+yn|&lt;t√)Pr(|y1+⋯+yn|&lt;t)Pr(|y_1 + \dots + y_n|<\sqrt{t})e−ctab√e−ctabe^{-c\frac{t}{\sqrt{ab}}}。如果我可以得到次高斯的尾巴,那可能是最好的,但是我们可以期望吗(我不这样认为,但也不能想到一个论点)?


1
这是使用贝叶斯定理不断更新概率的正确方法吗?
假设我正在尝试找出某人最喜欢的冰淇淋口味是香草的可能性。 我知道这个人也喜欢恐怖电影。 考虑到他们喜欢看恐怖电影,我想找出这个人最喜欢的冰淇淋是香草的可能性。 我知道以下几点: 5%5%5\%的人选择香草作为他们最喜欢的冰淇淋口味。(这是我的)P(A)P(A)P(A) 10%10%10\%最喜欢香草冰淇淋的人中,有的人也喜欢恐怖电影。(这是我的)P(B|A)P(B|A)P(B|A) 1%1%1\%最不喜欢香草冰淇淋的人中有的人也喜欢恐怖电影(这是我的)P(B|¬A)P(B|¬A)P(B|\lnot A) 因此,我这样计算: 我发现P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(1−0.05))P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(1−0.05))P(A|B)=\frac{0.05\times0.1}{(0.05 \times 0.1)+(0.01 \times(1-0.05))}P(A|B)=0.3448P(A|B)=0.3448P(A|B) = 0.3448(四舍五入到最接近的十分之一)。有一个34.48%34.48%34.48\% 恐怖电影迷最喜欢的冰淇淋口味是香草。 但是后来我得知该人在过去30天内看过一部恐怖电影。这是我所知道的: 34.48%34.48%34.48\% 是香草是该人最喜欢的冰淇淋口味的最新后验概率- P(A)P(A)P(A) 在下一个问题中。 20%20%20\% 在过去30天内,最喜欢香草冰淇淋的人中有一部看过恐怖片。 5 %5%5\% 在过去30天内,最不喜欢香草冰淇淋的人中有过看过恐怖片的人。 这给出: 0.3448 × 0.2(0.3448 × 0.2 )+ (0.05 × (1 − 0.3448 ))= 0.67790.3448×0.2(0.3448×0.2)+(0.05×(1−0.3448))=0.6779\frac{0.3448\times0.2}{(0.3448\times0.2)+(0.05\times(1-0.3448))} = 0.6779 四舍五入时。 所以现在我相信有一个 67.79 %67.79%67.79\% 鉴于过去30天内看过恐怖电影,恐怖电影迷很喜欢冰淇淋。 但是,等等,还有另一件事。我还了解到该人拥有一只猫。 这是我所知道的: 67.79 …

1
“以来
简短的问题:为什么如此? 长问题: 很简单,我试图找出第一个方程式的理由。我正在阅读的书的作者(如果需要,请在此处提供,但不是必需的)声称以下内容: 由于存在近似高斯的假设,我们可以这样写: p0(ξ)= Aϕ (ξ)e x p (一个n + 1ξ+ (一个n + 2+1个2)ξ2+∑我= 1ñ一个一世G一世(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) 其中是具有最大熵的观测数据的PDF,假设您仅观测到一系列期望(简单数),其中和是标准化高斯变量的PDF,即0个均值和单位方差。p0(ξ)p0(ξ)p_0(\xi)C一世,我= 1 。。。ñci,i=1...nc_i, i = 1 ... nC一世= E {G一世(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}ϕ (ξ)ϕ(ξ)\phi(\xi) 所有这些都是他将上述方程式作为简化PDF的出发点,我知道他是怎么做的,但我没有得到他如何证明上述方程式的正当性,即,起点。p0(ξ)p0(ξ)p_0(\xi) 我试图保持简短,以免混淆任何人,但是如果您需要其他详细信息,请在评论中让我知道。谢谢!

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


1
您如何抽样人口有关系吗?
我有一个混合桶,里面装有无限量的大理石。大桶中有无数的大理石,但它们仅以一些未知但数量有限的品种出现: 是未知的,对于,绘制型大理石比绘制型大理石更有可能。V={v1,v2,v3,...,vk}V={v1,v2,v3,...,vk}\mathcal{V} = \{v_{1},v_{2},v_{3},...,v_{k}\} kkki≠ji≠ji\neq jviviv_ivjvjv_j 在一个实验中,一台机器使用某种未知程序对桶进行采样。该机器从其样本中报告一组描述了种大理石: XXXq≤kq≤kq\leq kX⊆V;|X|=qX⊆V;|X|=q X \subseteq \mathcal{V}; \quad |X|=q 重复该实验的试验(各个试验中的是固定的),我们得到,的子集序列。qqqVV\mathcal{V}(X1,X2,…)(X1,X2,…)(X_1,X_2,\dots) 我们知道的唯一其他事情是: 审判是独立且相同的 机器报告样品中前最常见的品种qqq 我们确切地不知道机器如何采样大理石。它可以选择大量弹珠,然后报告最频繁的。或者,它可以继续拾取大理石,直到有品种为止。它也可以做其他事情。qqqqqq 我们的试验会受到机器采样程序的影响?(X1个,X2,… )(X1个,X2,…)(X_1,X_2,\dots)

1
基于字符串长度和可能字符的简单组合/概率问题
假设“完全随机”,并给出一个长度为20个字符的字符串,其中每个字符可能是62个可能的字符之一: 总共可能有多少种组合?(将20乘以62的幂。) 另外,如果新的字符串是一个接一个地随机选择的,并添加到到目前为止选择的字符串列表中,那么在选择已经选择的字符串之前,必须选择多少个字符串的比例低于1到100000()?10−510−510^{-5} 注意: 62来自:数字(0-9),大写字母(AZ)和小写字母(az)。


1
如何计算以获得均匀分布的阶次统计?
我正在尝试为自己的论文解决一个问题,但是我不知道该怎么做。我从均匀分布中随机抽取4个观察值。我想计算的概率。 是第i个顺序统计量(我采用该顺序统计量,以便我的观察结果从最小到最大排列)。我已经为一个简单的案例解决了它,但是在这里我迷失了如何去做。(0,1)(0,1)(0,1)3X(1)≥X(2)+X(3)3X(1)≥X(2)+X(3)3 X_{(1)}\ge X_{(2)}+X_{(3)}X(i)X(i)X_{(i)} 欢迎所有帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.