Questions tagged «distributions»

分布是概率或频率的数学描述。

5
关于Kullback-Leibler(KL)分歧的直觉
我了解了KL散度背后的直觉,因为模型分布函数与数据的理论/真实分布有多大差异。我正在阅读的资料继续说,这两个分布之间的“距离”的直观理解是有帮助的,但不应从字面上理解,因为对于两个分布和,KL散度在和不是对称的。PPP问QQPPP问QQ 我不确定如何理解最后的陈述,还是“距离”的直觉被打破了? 我希望看到一个简单但有见地的例子。

5
如果两组的t检验和ANOVA相等,为什么它们的假设不相等?
我确定我已经完全把它包裹在头上了,但是我只是想不通。 t检验使用Z分布比较两个正态分布。这就是为什么DATA中存在正常性的原因。 与OLS一样,ANOVA等效于具有虚拟变量的线性回归,并且使用平方和。这就是为什么存在RESIDUALS正常性的假设。 我花了几年的时间,但我认为我终于掌握了这些基本事实。那么为什么t检验等同于两组ANOVA?如果他们甚至不对数据假设相同的东西,怎么能等效呢?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

6
分布之间的Kolmogorov距离的动机
有许多方法可以测量两个概率分布的相似程度。在不同的圈子中流行的方法有: Kolmogorov距离:分布函数之间的超距离; 坎托罗维奇-鲁宾斯坦距离:两个具有Lipschitz常数的函数的期望值之间的最大差,也就是分布函数之间的L 1距离;1个1个1大号1个大号1个L^1 bounded-Lipschitz距离:与KR距离一样,但函数也必须具有最大绝对值。1个1个1 这些有不同的优点和缺点。实际上,只有3.意义上的收敛才真正对应于分布的收敛。一般而言,在1.或2.的意义上的收敛性要强一些。(特别是如果的概率为1,则Xn的分布收敛为0,但不在Kolmogorov距离内收敛。但是,如果极限分布是连续的,则不会发生这种病理情况。)Xñ= 1ñXñ=1个ñX_n=\frac{1}{n}1个1个1XñXñX_n000 从基本概率或测度理论的角度来看,1.很自然,因为它比较了某个集合中的概率。另一方面,更复杂的概率视角倾向于更多地关注期望而不是概率。同样,从功能分析的角度来看,基于二元性和某些功能空间的距离(如2.或3.)非常吸引人,因为有大量的数学工具可用于处理此类事物。 但是,我的印象(如果我错了,请纠正我!)是在统计中,Kolmogorov距离是衡量分布相似度的通常首选方法。我可以猜出一个原因:如果其中一个分布是在有限支持下离散的,特别是如果它是一些实际数据的分布,那么到模型分布的Kolmogorov距离就很容易计算。(实际上,KR距离的计算较难,BL距离实际上是不可能的。) 因此,我的问题(最后)是,出于统计目的,是否还有其他原因(无论是实践原因还是理论原因)都倾向于使用Kolmogorov距离(或其他距离)?


5
伪随机数:比真实的均匀数据分布更均匀
我正在寻找一种生成似乎均匀分布的随机数的方法-每个测试都将显示它们是均匀的-除了它们比真实的均匀数据分布更均匀外。 我对“真实的”统一随机数存在的问题是,它们有时会聚类。在较小的样本量下,这种效果会更强。粗略地说:当我在U [0; 1]中绘制两个均匀随机数时,它们在0.1范围内的几率约为10%,在0.01范围内的几率约为1%。 因此,我正在寻找一种生成比统一随机数分布更均匀的随机数的好方法。 用例示例:比如说我在做电脑游戏,我想在地图上随机放置宝藏(不在乎其他任何东西)。我不想把宝藏全部放在一个地方,它应该遍布整个地图。如果使用统一的随机数,如果我放置10个对象,则彼此之间有5个左右的机会并不算低。这可以使一个玩家比另一个玩家更具优势。想想扫雷者,您很有可能(如果有足够的地雷的话)很幸运,只需单击一下即可获胜。 解决我的问题的一种非常幼稚的方法是将数据划分为网格。只要数量足够大(并且有足够的因素),就可以通过这种方式实现额外的统一性。因此,与从U [0; .1]提取12个随机变量不同,我可以从U [0; .5]提取6和从U [0.5; 1]提取6,或从U [0; 1/3] + 4提取4来自U [1/3; 2/3] + 4来自U [2/3; 1]。 有什么更好的方法可以使制服获得额外的均匀性?它可能仅适用于批量随机数(绘制单个随机数时,我显然必须考虑整个范围)。特别是,我可以在之后再次重新整理记录(因此它不是前三分之一中的前四个)。 如何逐步进行?那么第一个在U [0; 1]上,然后在每个半部分中两个,每个三分之一中一个,每个四个中一个?是否对此进行了调查,效果如何?我可能必须谨慎使用x和y的不同生成器,以使它们不相关(第一个xy总是在下半部分,第二个在左半部分和下三分之一,第三个xy在中心第三个和上三分之一。 ..因此至少还需要一些随机的bin排列。从长远来看,我想这会太均匀。 作为副节点,是否存在众所周知的测试,即某些分布是否过于均匀以至于无法真正统一?因此,测试“真正的统一”与“有人弄乱数据并使项目更均匀地分布”。如果我没记错的话,霍普金斯统计局(Hopkins Statistic)可以衡量这一点,但它也可以用于测试吗?KS-Test也是相反的:如果最大偏差低于某个预期阈值,数据分布是否过于均匀?



3
均值,中位数和众数之间的经验关系
对于中等偏斜的单峰分布,我们在均值,中位数和众数之间具有以下经验关系: 这种关系如何派生出来的?(平均数-模式)〜3(平均-中位数)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} 在形成这个结论之前,卡尔·皮尔森(Karl Pearson)是否绘制了成千上万个这样的关系,还是在这种关系背后有逻辑上的推理?

4
正常随机变量的近似阶数统计
是否存在用于某些随机分布的顺序统计的众所周知的公式?特别是正常随机变量的一阶和最后一阶统计量,但也可以理解为更通用的答案。 编辑:为澄清起见,我正在寻找可以或多或少明确评估的近似公式,而不是确切的整数表达式。 例如,对于正常rv的一阶统计量(即最小值),我已经看到以下两个近似值: e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma 和 e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma 其中第一个,对于,给出大约,这似乎是一个松散的界限。n=200n=200n=200e1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigma 第二个给出而快速的Monte Carlo给出,所以这并不是一个很差的近似值,但也不是很好,并且更重要的是,我对它的来源一无所知。e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmae1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigma 有什么帮助吗?

9
如何有效地建模伯努利随机变量的总和?
我正在建模一个随机变量(),它是大约15-40k个独立的伯努利随机变量()的总和,每个随机变量具有不同的成功概率()。形式上,其中和\ Pr(X_i = 0)= 1-p_i。YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i 我对快速回答诸如Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(其中kkk给出)的查询感兴趣。 目前,我使用随机模拟来回答此类查询。我根据每个XiXiX_i的p_i随机绘制它们pipip_i,然后将所有XiXiX_i值求和以获得Y′Y′Y'。我重复此过程数千次,然后返回分数Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)。 显然,这并不是完全准确的(尽管随着仿真次数的增加,准确度也会大大提高)。另外,似乎我有足够的有关分布的数据来避免使用模拟。您能想到一种获取确切概率\ Pr(Y \ leq k)的合理方法Pr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)吗? ps 我使用Perl&R。 编辑 在回答之后,我认为可能需要进行一些澄清。我将简短地描述问题的所在。给定的是一个带有周长的圆形基因组,c以及n映射到它的一组范围。例如c=3*10^9和ranges={[100,200],[50,1000],[3*10^9-1,1000],...}。请注意,所有范围都是封闭的(两端都包括在内)。另请注意,我们仅处理整数(整个单位)。 我正在寻找圆上被给定n映射范围掩盖的区域。因此,为了测试x圆上给定的长度范围是否被掩盖,我测试了n范围随机映射的假设。映射的长度范围q&gt;x将完全覆盖给定长度范围的概率x为(q-x)/c。当c大和/或小时,该概率变得非常q小。我感兴趣的是n覆盖的范围数(超出范围)x。这是如何Y形成的。 我测试了原假设与单方面的选择(不足覆盖率)的对比。另请注意,我正在测试多个假设(不同的x长度),请确保对此进行更正。



2
了解负二项分布内的参数
我试图适应我的数据转换成各种模型,并计算出了fitdistr从库函数MASS的R给了我Negative Binomial作为最合适的。现在,在Wiki页面上,定义为: NegBin(r,p)分布描述了k + r Bernoulli(p)试验中k次失败和r次成功的概率,最后一次试验成功。 使用R执行模型拟合给我两个参数mean和dispersion parameter。我不理解如何解释这些内容,因为我无法在Wiki页面上看到这些参数。我只能看到以下公式: k观察的数目在哪里r=0...n?现在如何将它们与给定的参数相关联R?帮助文件也没有提供太多信息。 另外,只说几句关于我的实验的信息:在进行的一项社交实验中,我试图计算每个用户在10天内接触的人数。该实验的人口规模为100。 现在,如果模型适合负二项式,我可以盲目地说它遵循该分布,但我真的想了解其背后的直观含义。说我的测试对象联系的人数遵循负二项式分布是什么意思?有人可以帮忙澄清一下吗?

10
为什么假定生存时间呈指数分布?
我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说: ...如果已知生存时间呈指数分布,则观察生存时间的概率... 为什么假定生存时间呈指数分布?对我来说似乎很不自然。 为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)? 如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.