Questions tagged «probability»

概率提供了特定事件可能发生的定量描述。

2
不对称分布的核密度估计
令是从未知(但肯定是非对称的)概率分布中得出的观察结果。{ x1个,… ,xñ}{X1个,…,Xñ}\{x_1,\ldots,x_N\} 我想通过KDE方法找到概率分布: 但是,我尝试使用高斯内核,但是由于它是对称的,因此性能很差。因此,尽管我不了解如何使用它们,但我已经看到一些有关Gamma和Beta内核的工作已经发布。F^(x )= 1ñH∑我= 1ñķ( x − x一世H)F^(X)=1个ñH∑一世=1个ñķ(X-X一世H) \hat{f}(x) = \frac{1}{Nh}\sum_{i=1}^{N} K\bigl(\frac{x-x_i}{h}\bigr) 我的问题是:假设基础分布的支持不在区间,如何处理这种不对称情况?[ 0 ,1 ][0,1个][0,1]

3
掷硬币概率的一个严重的深度问题
可以说我正在掷一万枚硬币。我想知道连续获得4个或更多连续磁头需要多少次翻转。 计数将按以下方式进行,您将计数连续的一轮翻转仅是正面(4头或更多)。当一条尾巴击中并破坏了头的条纹时,计数将从下一次翻转开始。然后重复10,000次翻转。 我想知道不仅连续出现4个或更多磁头的概率,而且是6个或更多,10个或更多的概率。为了澄清是否达到9个头的条纹,将其记为1个条纹4个或更多(和/或6个或更多),而不是2个单独的条纹。例如,如果硬币来到THTHTHTHHHHHH /// THAHTHT...。计数将为13,并在下一条尾部再次开始。 假设数据偏右偏;平均为40次翻转,条纹达到4个或更多,分布为u =28。显然是偏斜的。 我正在尽力寻找一种方法来从描述性数据中弄清楚,除非到目前为止我什么都没发现。 我想找到一种方法来从中获得一些合理的可能性。就像+/- 1 SD为68%的正态曲线等。我研究了对数归一化,它仅真正用于参数测试,这并不是我的目标。 有人告诉我Beta发行版,但我提出的每条建议都令人困惑。我一年前曾问过这个问题,并获得了一些见识,但不幸的是我仍然没有答案。谢谢任何有想法的人。

3
为通过网站的旅程构建路径概率树
我目前正在网站上进行分析,这要求我创建一个决策树图,以显示人们到达网站时可能采取的路线。我正在处理一个data.frame从首页开始显示所有客户到站点的路径的。例如,客户可以采用以下路径: Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 因此该客户将进行3页的旅程。我想在R中尝试做的是结合所有客户路径,从而按照站点上的某个路径为客户分配概率。例如,如果我检查所有路径,我会发现34%的到达首页的人进入了“厨房用品页面”。R有这个设施吗? 我已经通过rpart和partykit软件包查找了不同的方法,但是它们似乎没有任何帮助。 任何朝着正确方向前进的方向都非常感谢!

1
无限随机几何图中随机行走的机器人的密度
考虑一个无限随机的几何图,其中节点位置遵循密度为的泊松点过程,并且边距比更近。因此,边的长度遵循以下PDF:dρρ\rhoddd F(l )= { 2 ld2升≤ d0升> dF(升)={2升d2升≤d0升>d f(l)= \begin{cases} \frac{2 l}{d^2} \;\quad l \le d \\ 0 \qquad\; l > d \end{cases} 在上图中,考虑半径的圆内以原点为中心的节点。假设在时间,我们在每个提到的节点内放置了一个微型机器人。也就是说,飞机上机器人的密度由下式给出:吨= 0[R[Rrt = 0Ť=0t=0 G(l )= { ρ升≤ [R0升> dG(升)={ρ升≤[R0升>d g(l)= \begin{cases} \rho \quad l \le r \\ 0 \quad\; l > d \end{cases} ,其中是到原点的距离。下图显示了机器人初始放置的示例。升升l 在每个时间步上,机器人都会随机走近一个邻居。 现在,我的问题是:在,机器人的密度函数是多少?时可以计算密度函数吗?t …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
IID随机法线的最大阶统计量的渐近分布
是否有一个很好的极限分布最大(X1个,X2,。。。,Xñ)最大值(X1个,X2,。。。,Xñ)\max( X_1,X_2,...,X_n) 的ññn去∞∞\infty,假定它们是独立同分布的方差正态分布σ2σ2\sigma^2。 几乎可以肯定,这是一个众所周知的问题,需要有精巧的证明和好的解决方案,但是我一直在研究并且没有发现任何东西。

6
如何评估二元结果分类预测变量集的预测能力?计算概率还是逻辑回归?
我试图确定简单概率是否可以解决我的问题,或者使用(学习)逻辑回归等更复杂的方法是否更好。 此问题中的响应变量是二进制响应(0,1)。我有许多都是分类无序的预测变量。我正在尝试确定预测变量的哪些组合产生最高的1。我需要逻辑回归吗?仅针对分类预测变量的每种组合计算样本集中的比例会有什么好处?

1
为什么我们不能凭直觉相信自己的直觉?
如果有的话,蒙蒂·霍尔(Monty Hall)问题会变得很明显。甚至伟大的保罗·埃多斯(Paul Erdos)也被这个问题所迷惑。我可能很难回答的问题是,我们对一个答案如此自信而又凭直觉争论却​​又如此错误的可能性是什么?本福德的第一位数字定律和等待时间悖论是其他类似的著名例子。

4
找到特定碱基对序列的可能性
考虑概率总是让我意识到自己在数数上有多糟糕... 考虑基本字母的序列,每个都可能出现。该序列包含特定感兴趣的碱基对长度的特定序列的概率是多少?一个,nnn- [R ≤ ÑA,T,C, and GA,T,C, and GA,\; T, \; C, \text{ and } Gr≤nr≤nr\leq n 有不同的(相等可能性)序列可能。在整个序列的开始处从感兴趣的序列开始;序列是可能的。我们可以在不同的位置开始感兴趣的序列。因此,我的答案是。4 ñ - - [R Ñ + 1 - - [R (Ñ + 1 - - [R )/ 4 - [R4n4n4^n4n−r4n−r4^{n-r}n+1−rn+1−rn+1 -r(n+1−r)/4r(n+1−r)/4r(n+1-r)/4^r 这个概率在增加,这对我来说很有意义。但是当时,该概率超过。但是那不可能。概率应在极限(接近我)范围内接近1,但不能超过该极限。n > 4 r + r − 1nnnn>4r+r−1n>4r+r−1n>4^r +r-1 我认为我在重复计算。我想念什么?谢谢。 (仅供参考,而不是功课,只是准备考试的一个玩具示例。我的分子生物学家朋友提出了一个问题。)

1
超越Fisher内核
一段时间以来,Fisher Kernels似乎很受欢迎,因为它们似乎是一种根据概率模型构造核的方法。但是,我很少见到它们在实践中使用过,而且我有很好的权威,认为它们往往效果不佳。他们依靠Fisher信息的计算-引用Wikipedia: Fisher信息相对于f的自然对数θ是二阶导数期望值的负值。信息可以看作是支持曲线的“曲率”在θ的最大似然估计(MLE)附近的度量。 据我所知,这意味着两点之间的核函数就是沿着该曲面的距离-是吗? 但是,这对于在内核方法中使用可能会有问题,因为 对于给定的模型,MLE可能是非常糟糕的估计 MLE周围的支撑曲线的曲率可能无法用于区分实例,例如,如果似然表面非常尖 这似乎抛弃了有关模型的许多信息 如果是这样的话,还有没有更多现代的方法可以从概率方法构造内核?例如,我们可以使用保留集以相同的方式使用MAP估算吗?与概率方法的距离或相似度还有哪些其他概念可以用来构造(有效)内核函数?

3
给定连续M次,预期抛硬币的次数将连续N次
1月,Interviewstreet进行了第二次CodeSprint,其中包括以下问题。程序化答案已发布,但不包含统计解释。 (您可以使用Google信用登录到Interviewstreet网站,然后从此页面转到Coin Tosses问题,以查看原始问题和已发布的解决方案。) 投币 您有一个不偏不倚的硬币,您想要一直扔下去,直到获得N个连续的正面。您已经抛硬币了M次,令人惊讶的是,所有抛硬币都导致了正面的损失。 在您连续获得N个脑袋之前,需要进行的额外抛球次数是多少? 输入: 第一行包含个案T的数量。接下来的T行每一行包含两个数字N和M。 输出: 输出T行,其中包含相应测试用例的答案。打印答案,精确到小数点后两位。 样本输入: 4 2 0 2 1 3 3 3 2 样本输出: 6.00 4.00 0.00 8.00 示例说明: 如果N = 2且M = 0,则需要不断掷硬币,直到连续获得2个头。不难证明平均需要掷6枚硬币。 如果N = 2且M = 1,则需要连续2个头,并且已经有1个头。无论如何,都需要再次抛掷。在第一个折腾中,如果您有头脑,那就完成了。否则,您需要重新开始,因为连续计数器会重置,并且您需要不断掷硬币,直到获得N = 2个连续头。因此,预期的抛硬币次数为1 +(0.5 * 0 + 0.5 * 6)= 4.0如果N = 3且M = 3,您已经有3个头,因此您不再需要抛硬币。 …

3
从大小为的牌组中抽出张卡片时,看不见的卡片的预期数量
我们有一副nnn张牌。我们随机更换,从中均匀地抽取卡片。2n2n2n抽奖后,从未选择的期望牌数是多少? 此问题是问题2.12中的第2部分 M. Mitzenmacher和E. Upfal,《概率与计算:随机算法和概率分析》,剑桥大学出版社,2005年。 而且,就其价值而言,这不是作业问题。这是自学的,我只是被卡住了。 到目前为止,我的回答是: 令XiXiX_i为第iii次抽奖后看到的不同纸牌的数量。然后: E[Xi]=∑k=1nk(knP(Xi−1=k)+n−k−1nP(Xi−1=k−1))E[Xi]=∑k=1nk(knP(Xi−1=k)+n−k−1nP(Xi−1=k−1))E[X_i] = \displaystyle \sum_{k=1}^{n} k (\frac{k}{n}P(X_{i-1}=k) + \frac{n-k-1}{n} P(X_{i-1}=k-1)) 这里的想法是,每次绘制时,我们要么绘制我们看到的卡片,要么绘制我们没有看到的卡片,然后我们可以递归地定义它。 最后,问题的答案是nE [X_ {2n}],我们在2n次抽签后还没看到多少?2n2n2nn−E[X2n]n−E[X2n]n-E[X_{2n}] 我相信这是正确的,但是必须有一个更简单的解决方案。 任何帮助将不胜感激。

3
不可衡量的事件的概率
从测度理论中我们知道,有些事件是无法测度的,也就是说,它们是不可测量的。我们怎么称呼没有定义概率度量的事件?我们将对此类事件做出哪些类型的陈述?

1
如何在保持函数形状的同时将函数转换为概率密度?
我有一系列函数,据推测每个函数代表跨代理的随机变量的密度。每个函数还具有一个域,该域描述随机变量的哪些值有效。 现在,如果我正确地记住了stats类,并且在函数域所描述的值中采用了其中一个函数的积分,那么我应该得到1.0的值。但是,这不会发生。 是否有一种标准化技术可以将函数转换为真实的概率密度,但又可以保持函数的形状? 所有函数的格式均为,其中是随机变量,而是变化的常数。abx+cabx+c\frac{a}{bx}+cxxxa,b,ca,b,ca,b,c

2
我可以测试先前给定数据的有效性吗?
问题 我正在编写一个R函数,该函数执行贝叶斯分析以在已知先验和数据的情况下估计后验密度。我希望该功能在用户需要重新考虑之前发出警告。 在这个问题上,我有兴趣学习如何评估先验。先前的问题涵盖了陈述知情先验的机制(此处和此处)。 在以下情况下,可能需要重新评估先验值: 数据代表了一个极端的情况,在陈述之前 数据中的错误(例如,如果先验单位为kg,则数据单位为g) 由于代码中的错误,因此从一组可用的优先级中选择了错误的优先级 在第一种情况下,先验通常仍然足够分散,除非数据值在不受支持的范围内(例如,logN或Gamma <0),否则数据通常会使它们不堪重负。其他情况是错误或错误。 问题 关于使用数据评估先验的有效性是否存在任何问题? 是否有任何特定测试最适合此问题? 例子 这是两个与较差的数据集,因为它们来自具有(红色)或(蓝色)的。升Ò 克ñ(0 ,1 )升ØGñ(0,1个)logN(0,1)ñ(0 ,5 )ñ(0,5)N(0,5)ñ( 8 ,0.5 )ñ(8,0.5)N(8,0.5) 蓝色数据可能是有效的先验+数据组合,而红色数据将需要先验分布,该分布支持负值。 set.seed(1) x<- seq(0.01,15,by=0.1) plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='') points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red') points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.