Questions tagged «distributions»

分布是概率或频率的数学描述。

2
不对称分布的核密度估计
令是从未知(但肯定是非对称的)概率分布中得出的观察结果。{ x1个,… ,xñ}{X1个,…,Xñ}\{x_1,\ldots,x_N\} 我想通过KDE方法找到概率分布: 但是,我尝试使用高斯内核,但是由于它是对称的,因此性能很差。因此,尽管我不了解如何使用它们,但我已经看到一些有关Gamma和Beta内核的工作已经发布。F^(x )= 1ñH∑我= 1ñķ( x − x一世H)F^(X)=1个ñH∑一世=1个ñķ(X-X一世H) \hat{f}(x) = \frac{1}{Nh}\sum_{i=1}^{N} K\bigl(\frac{x-x_i}{h}\bigr) 我的问题是:假设基础分布的支持不在区间,如何处理这种不对称情况?[ 0 ,1 ][0,1个][0,1]

3
掷硬币概率的一个严重的深度问题
可以说我正在掷一万枚硬币。我想知道连续获得4个或更多连续磁头需要多少次翻转。 计数将按以下方式进行,您将计数连续的一轮翻转仅是正面(4头或更多)。当一条尾巴击中并破坏了头的条纹时,计数将从下一次翻转开始。然后重复10,000次翻转。 我想知道不仅连续出现4个或更多磁头的概率,而且是6个或更多,10个或更多的概率。为了澄清是否达到9个头的条纹,将其记为1个条纹4个或更多(和/或6个或更多),而不是2个单独的条纹。例如,如果硬币来到THTHTHTHHHHHH /// THAHTHT...。计数将为13,并在下一条尾部再次开始。 假设数据偏右偏;平均为40次翻转,条纹达到4个或更多,分布为u =28。显然是偏斜的。 我正在尽力寻找一种方法来从描述性数据中弄清楚,除非到目前为止我什么都没发现。 我想找到一种方法来从中获得一些合理的可能性。就像+/- 1 SD为68%的正态曲线等。我研究了对数归一化,它仅真正用于参数测试,这并不是我的目标。 有人告诉我Beta发行版,但我提出的每条建议都令人困惑。我一年前曾问过这个问题,并获得了一些见识,但不幸的是我仍然没有答案。谢谢任何有想法的人。

3
两个独立泊松随机变量的加权和
通过使用维基百科,我找到了一种方法来计算由两个泊松随机变量之和得出的概率质量函数。但是,我认为我的方法是错误的。 令是两个独立的Poisson随机变量,均值和,其中和是常数,则的概率生成函数由 现在,利用泊松随机变量的概率生成函数为,我们可以写出两个独立泊松随机变量之和为 X1,X2X1,X2X_1, X_2λ1,λ2λ1,λ2\lambda_1, \lambda_2S2=a1X1+a2X2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2ģ X 我(ż)= È λ 我(ž - 1 )G ^ 小号2(Ž )GS2(z)=E(zS2)=E(za1X1+a2X2)GX1(za1)GX2(za2).GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 X_1+a_2 X_2}) G_{X_1}(z^{a_1})G_{X_2}(z^{a_2}). GXi(z)=eλi(z−1)GXi(z)=eλi(z−1)G_{X_i}(z) = \textrm{e}^{\lambda_i(z - 1)}S2G S 2(z)Pr(S2=k)= G (k )S 2(0)GS2(z)=eλ1(za1−1)eλ2(za2−1)=eλ1(za1−1)+λ2(za2−1).GS2(z)=eλ1(za1−1)eλ2(za2−1)=eλ1(za1−1)+λ2(za2−1). \begin{aligned} G_{S_2}(z) &= \textrm{e}^{\lambda_1(z^{a_1} - 1)}\textrm{e}^{\lambda_2(z^{a_2} - 1)} \\ &= \textrm{e}^{\lambda_1(z^{a_1} …

2
Gamma随机变量的差异
给定两个独立的随机变量和,差的分布是多少,即?ý 〜ģ 一米米一个(α Ý,β ÿ)d = X - ÿX∼Gamma(αX,βX)X〜G一个米米一个(αX,βX)X\sim \mathrm{Gamma}(\alpha_X,\beta_X)Y∼Gamma(αY,βY)ÿ〜G一个米米一个(αÿ,βÿ)Y\sim \mathrm{Gamma}(\alpha_Y,\beta_Y)D=X−Yd=X-ÿD=X-Y 如果结果不为人所知,我将如何得出结果?

2
用逻辑函数转换的高斯随机变量的期望值
逻辑函数和标准差通常都表示为。我将使用和作为标准偏差。σσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss 我有一个逻辑输入随机输入的逻辑神经元,其均值和标准差我所知。我希望可以通过一些高斯噪声很好地估计出与平均值的差。因此,略微使用符号,假定它产生。的期望值是多少?与或相比,标准偏差可能大或小。理想值的良好闭合形式近似值几乎与闭合形式解决方案一样好。μμ\musssσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))sssμμ\mu111 我认为不存在封闭形式的解决方案。这可以看作是卷积,并且逻辑密度的特征函数是已知的(),但是我不确定有什么帮助。该逆符号计算器无法识别密度物流配送的密度的卷积和标准正态分布,这说明,但并不能证明没有简单的基本积分。更多的间接证据:在一些将高斯输入噪声添加到具有逻辑神经元的神经网络的论文中,这些论文也未给出封闭形式的表达式。πt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 这个问题产生于试图了解玻尔兹曼机中平均场近似的误差。


1
时间事件的长尾分布
假设您具有Web服务器的日志。在这些日志中,您具有以下类型的元组: user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... 这些时间戳表示例如用户的点击。现在,user1它将在一个月内多次访问该网站(会话),并且您在每个会话期间都会获得来自每个用户的点击次数激增(假设当用户访问您的网站时,他将点击多个页面)。 假设您希望在产生点击的会话中对这些点击次数进行分区,但是您没有任何其他信息源,只有时间戳列表。如果您计算来自同一用户的两次点击之间的间隔分布,则将获得长尾分布。直观地,您会寻找一个“剪切参数”,例如N秒,如果为timestamp_{i+1} - timestamp{i} > N,则您timestamp_{i+1}是新会话的开始。 问题在于,这种分布实际上是两个变量的混合:X =“同一会话中两次随之而来的点击之间的间隔”和Y =“上一次会话的最后点击与新会话中的第一次单击之间的间隔”。 问题是,仅通过查看点击次数,如何估算这个N,即可将两个分布(可能会有些重叠)分开?

2
为什么分布很重要?
这可能和在该论坛上提出过的最愚​​蠢的问题一样,但是在收到上一个问题的合理答案后,我想我会再次运气。 一段时间以来,我一直对统计分布的重要性感到困惑,特别是因为它们与资产收益有关,更具体地说与资产分配有关。 我要具体说明的问题是:假设我有20年的标准普尔500指数月度回报数据,为什么在我可以简单地进行资产分配决策时,为什么我需要假设某种分配形式(即正态分布/约翰逊/征税飞行等)?只是根据我拥有的历史数据做出资产分配决策?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
如何根据孤立子分布生成数字?
的孤子分布是在一组离散的概率分布与概率质量函数{1,…,N}{1,…,N}\{1,\dots, N\} p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} 我想将其用作LT代码实现的一部分,理想情况下是在有统一随机数生成器的Python中使用。

2
IID随机法线的最大阶统计量的渐近分布
是否有一个很好的极限分布最大(X1个,X2,。。。,Xñ)最大值(X1个,X2,。。。,Xñ)\max( X_1,X_2,...,X_n) 的ññn去∞∞\infty,假定它们是独立同分布的方差正态分布σ2σ2\sigma^2。 几乎可以肯定,这是一个众所周知的问题,需要有精巧的证明和好的解决方案,但是我一直在研究并且没有发现任何东西。

2
巨大峰度?
我正在对股指的每日收益进行描述性统计。也就是说,如果和分别是第1天和第2天的索引级别,则是我正在使用的收益(文献上完全标准)。P 2P1P1P_1P2P2P_2loge(P2P1)loge(P2P1)log_e (\frac{P_2}{P_1}) 因此,其中的峰度很大。我正在查看大约15年的每日数据(因此大约有时间序列观测值)260∗15260∗15260 * 15 means sds mins maxs skews kurts ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532 AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104 CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205 FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008 HUNGARY -0.00019 0.00880 -0.06301 0.05208 -0.10580 4.20463 IRELAND 0.00003 0.00641 …



1
如何在保持函数形状的同时将函数转换为概率密度?
我有一系列函数,据推测每个函数代表跨代理的随机变量的密度。每个函数还具有一个域,该域描述随机变量的哪些值有效。 现在,如果我正确地记住了stats类,并且在函数域所描述的值中采用了其中一个函数的积分,那么我应该得到1.0的值。但是,这不会发生。 是否有一种标准化技术可以将函数转换为真实的概率密度,但又可以保持函数的形状? 所有函数的格式均为,其中是随机变量,而是变化的常数。abx+cabx+c\frac{a}{bx}+cxxxa,b,ca,b,ca,b,c

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.