Questions tagged «distributions»

分布是概率或频率的数学描述。

6
我如何分析地证明随机分配金额会导致指数分布(例如收入和财富)?
在《科学》杂志的当前文章中,提出了以下建议: 假设您将5亿的收入随机分配给10,000人。只有一种方法可以让每个人平均获得50,000个份额。因此,如果您随机分配收入,则极不可能实现平等。但是,有无数种方式可以给少数人很多现金,而给许多人一点钱甚至没有钱。实际上,考虑到所有可以分配收入的方式,大多数方法都会产生指数分布的收入。 我已经使用以下R代码(似乎可以肯定结果)完成了此操作: library(MASS) w <- 500000000 #wealth p <- 10000 #people d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99))) fit <- fitdistr(d,"exponential") curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE) 我的问题 我该如何分析证明结果分布确实是指数的? …


4
分布如何具有无限的均值和方差?
如果能给出以下例子,将不胜感激: 均值和方差无限的分布。 具有无限均值和有限方差的分布。 具有有限均值和无限方差的分布。 具有有限均值和有限方差的分布。 这是因为我看到了我正在阅读,在Google谷歌搜索和阅读Wilmott论坛/网站上的主题的文章中使用的这些陌生术语(无限均值,无限方差),却没有找到足够清晰的解释。我自己的教科书中也没有找到任何解释。

11
平均绝对偏差与标准偏差
在Greer(1983)的教科书“ O水平的新综合数学”中,我看到了计算出的平均偏差,如下所示: 总结单个值与平均值之间的绝对差。然后得到其平均值。在本章中,使用术语“ 平均偏差”。 但是我最近看到了一些使用术语标准差的引用,这就是它们的作用: 计算单个值与平均值之间的差的平方。然后得到他们的平均值,最后得到答案的根源。 我对一组通用数据尝试了这两种方法,它们的答案也不同。我不是统计学家。试图教我的孩子们偏差时,我感到困惑。 简而言之,术语“ 标准差”和“ 平均差 ”是否相同?还是我的旧教科书错误?

4
Gamma随机变量的一般和
我已经读到具有相同比例参数的Gamma随机变量的总和是另一个Gamma随机变量。我还看过Moschopoulos撰写的论文,该论文描述了一种对一般Gamma随机变量集求和的方法。我曾尝试实施Moschopoulos的方法,但尚未成功。 一般的Gamma随机变量集的总和是什么样的?为了使这个问题具体,它看起来像什么: Gamma(3,1)+Gamma(4,2)+Gamma(5,1)Gamma(3,1)+Gamma(4,2)+Gamma(5,1)\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1) 如果上述参数不是特别有用,请建议其他参数。

2
为什么似然比检验分布卡方?
为什么似然比检验的检验统计量分布卡方? 2 (ln 大号一升吨米直径:d È 升 − ln 大号Ñ ü 升升米直径:d È 升 )〜χ2dF一升吨- dFnull2(ln⁡ 大号一种升Ť 米ØdË升-ln⁡ 大号ñü升升 米ØdË升)〜χdF一种升Ť-dFñü升升22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 



6
有人可以提供偏态为零但不对称的单峰分布的示例吗?
在2010年5月,维基百科用户Mcorazao在偏度文章中添加了一个句子:“零值表示这些值在平均值的两侧相对均匀地分布,通常但不一定意味着对称分布。” 但是,Wiki页面没有实际的发行示例,可以打破此规则。至少在前20个结果中,谷歌搜索“具有零偏度的示例非对称分布”也没有给出任何实际示例。 使用这样的定义,偏斜由和R计算得出式E[(X−μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big] sum((x-mean(x))^3)/(length(x) * sd(x)^3) 我可以构造一个小的任意分布以降低偏度。例如,分布 x = c(1, 3.122, 5, 4, 1.1) 产生的偏斜。但这是一个很小的样本,而且与对称性的偏差也不大。因此,是否可以使用一个高度不对称但仍具有接近零偏度的峰构造一个更大的分布?−5.64947⋅10−5−5.64947⋅10−5-5.64947\cdot10^{-5}

1
BUGS和R中的参数化对于哪些分布不同?
我发现一些BUGS和R具有不同参数化的分布:正态,对数正态和Weibull。 对于这些中的每一个,我都收集到R所使用的第二个参数需要在BUGS(在我的情况下为JAGS)中使用之前需要进行逆变换(1 /参数)。 有人知道当前存在的这些转换的完整列表吗? 我能找到的最接近的结果是将JAGS 2.2.0用户手册的表7中的分布与etc的结果?rnorm以及一些概率文本进行比较。这种方法似乎需要分别从pdf推导转换。 如果执行此任务,我希望避免执行此任务(以及可能的错误),否则,请从此处开始列表。 更新资料 基于Ben的建议,我编写了以下函数,将参数的数据帧从R转换为BUGS参数化。 ##' convert R parameterizations to BUGS paramaterizations ##' ##' R and BUGS have different parameterizations for some distributions. ##' This function transforms the distributions from R defaults to BUGS ##' defaults. BUGS is an implementation of the BUGS language, and these …

3
我的数据遵循什么分布?
让我们说我有1000个组件,并且我一直在收集有关这些组件记录故障的次数以及每次它们记录故障的数据,我还跟踪团队修复该问题花费了多长时间。简而言之,我一直在记录这1000个组件中每个组件的修复时间(以秒为单位)。在该问题的末尾提供了数据。 我把所有的这些值,并使用在画了R A Cullen和Frey图descdist从fitdistrplus包。我的希望是了解维修时间是否遵循特定的分配时间。这是boot=500获取引导值的图: 我看到该图告诉我观察结果属于beta分布(或者可能不是,在这种情况下,它揭示了什么?)现在,考虑到我是系统架构师而不是统计学家,那么该图揭示了什么? ?(我正在寻找这些结果背后的实际现实直觉)。 编辑: QQplot使用qqPlot包中的功能car。我首先使用该fitdistr函数估算了形状和比例参数。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 然后,我这样做: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 编辑2: 使用对数正态QQplot更新。 这是我的数据: c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, …


2
为什么我们应该使用t错误而不是普通错误?
在Andrew Gelman撰写的此博客文章中,包含以下内容: 50年前的贝叶斯模型看起来简直是无望的(当然,对于简单的问题除外),我希望今天的贝叶斯模型在50年后看起来简直是绝望的。(仅举一个简单的例子:我们可能应该在任何地方都常规地使用t而不是正常错误,但是出于熟悉,习惯和数学上的方便,我们还没有这样做。这可能是很好的理由-在科学上在政治上,保守主义有很多有利的理由,但我认为,最终,当我们适应更复杂的模型时,我们会朝着这个方向发展。) 为什么我们应该“常规地在几乎所有地方都使用t而不是普通错误”?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.