Questions tagged «distributions»

分布是概率或频率的数学描述。

2
在Dirichlet分布中将单纯形表示为三角形曲面的含义?
我正在读一本介绍Dirchilet分布的书,然后提供有关它的图。但是我真的不能理解那些数字。我将图附加在底部。我不理解的是三角形的含义。 通常,当要绘制一个包含2个变量的函数时,可以使用var1和va2的值,然后绘制这两个变量的函数值的值...这可以在3D维度中显示。但是这里有3个维度,而函数值有一个其他值,因此可以在4D空间中进行可视化。我不明白这些数字! 希望有人可以澄清一下! 编辑:这是我从图2.14a中无法理解的内容。因此,我们从K = 3 dirichlet中提取了一个样本theta(基本上是一个向量),即:theta = [theta1,theta2,theta3]。三角形绘图[theta1,theta2,theta3]。从原点到每个theta_i的距离是theta_i的值。然后为每个theta_i放置一个顶点,并将所有三个顶点连接起来,并制成一个三角形。我知道,如果将[theta1,theta2,theta3]插入dir(theta | a),我将得到一个数,即向量theta的联合概率。我也理解连续随机变量的概率是对面积的度量。但是这里我们有3个维度,因此联合概率将是粉红色平面及其下方(即金字塔)的空间量的度量。现在我不明白三角形在这里的作用。

2
人口稳定指数-除以零
总体稳定性指数通过比较两个时间段内的数据样本来量化变量分布的变化。它非常常用于衡量分数变化。 计算方法如下: 1)离散基期的样本。通常将其分为十分位数 2)使用与第一步相同的时间间隔将目标期间的样本离散化 其中: -在基准期间中第i个bin的份额。 -目标时段中第i个bin的份额。 P小号一世=∑一世(一个一世-乙一世)⋅ 升Ñ (一个一世乙一世)P小号一世=∑一世(一个一世-乙一世)⋅升ñ(一个一世乙一世)PSI = \sum_{i} (A_{i} - B_{i}) \cdot ln(\frac{A_{i}}{B_{i}}) 一个一世一个一世A_{i}乙一世乙一世B_{i} 问题:当目标样本中的一个容器为空时,该怎么办?

1
学生(Gosset)对t检验的贡献是什么?
一个最近的问题,相关的问题,并引用来源,最近让我知道,ñ− 1N−1N-1人口方差样本估计的校正称为贝塞尔校正。贝塞尔(Bessel)于1846年去世(维基百科引文),t检验于1908年发布(维基百科引文)。由于某些原因,我一直认为Gosset(又名Student)在制定t检验中的贡献是使用了ñ− 1N−1N-1 在计算 s2s2s^2。现在看来,这项贡献显然属于贝塞尔。因此,我想问戈塞特在制定t检验方面的贡献是什么?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
参数化Behrens-Fisher分布
Seock-Ho Kim和艾伦·科恩(Allen S. Cohen)撰写的“关于贝伦斯-费舍尔问题:评论” 教育与行为统计杂志,第23卷,第4期,1998年冬季,第356-377页 我正在看这个东西,它说: Fisher(1935,1939)选择统计量 [其中是通常的单样本统计量],其中位于第一象限中,而 [。。。]的分布是Behrens-Fisher分布,由三个参数,和,τ=δ−(x¯2−x¯1)s21/n1+s22/n2−−−−−−−−−−−√=t2cosθ−t1sinθτ=δ−(x¯2−x¯1)s12/n1+s22/n2=t2cos⁡θ−t1sin⁡θ \tau = \frac{\delta-(\bar x_2 - \bar x_1)}{\sqrt{s_1^2/n_1+s_2^2/n_2}} = t_2\cos\theta - t_1\sin\theta titit_ittti=1,2i=1,2i=1,2θθ\thetatanθ=s1/n1−−√s2/n2−−√.(13)(13)tan⁡θ=s1/n1s2/n2. \tan\theta = \frac{s_1/\sqrt{n_1}}{s_2/\sqrt{n_2}}.\tag{13} ττ\tauν1ν1\nu_1ν2ν2\nu_2θθ\theta 对于,参数先前已定义为。νiνi\nu_ini−1ni−1n_i-1i=1,2i=1,2i=1,2 现在,这里看不到的是,这两个总体的平均值是,,它们的差是,因此是和两个统计量。样本SD和是可观察的,并用于定义,因此是可观察的统计信息,而不是不可观察的总体参数。但是我们看到它被用作这个分布族的参数之一!δδ\deltaμ1μ1\mu_1μ2μ2\mu_2δδ\deltaττ\tauttts1s1s_1s2s2s_2θθ\thetaθθ\theta 可能是他们应该说参数是的反正切值,而不是的反正切值?σ1/n1−−√σ2/n2−−√σ1/n1σ2/n2\dfrac{\sigma_1/\sqrt{n_1}}{\sigma_2/\sqrt{n_2}}s1/n1−−√s2/n2−−√s1/n1s2/n2\dfrac{s_1/\sqrt{n_1}}{s_2/\sqrt{n_2}}

3
如何测试/证明数据为零膨胀?
我有一个问题,我认为应该很简单,但无法完全解决。我正在查看种子授粉,我有成簇开花的植物(n = 36),我从每棵植物中采样了3个花簇,并从每个簇中采样了6个种子荚(每个植物总计18个种子荚)。一个豆荚可以授粉0到4个种子。因此,数据是有上限的计数。我发现平均约有10%的种子被授粉,但在给定植物上的授粉量介于1%至30%之间,因此在分散的数据上,当然,在3棵植物上有4个缺失的簇重复,因此不完全对称。 我要问的问题是,这些数据是否支持这种植物需要传粉媒介进行结实的想法。 我发现一个豆荚中种子数量的分布看起来比有更多的0个授粉种子豆荚(16个中有6-9个豆荚)以及更多的3个和4个授粉种子豆荚(每个有2-4个)如果种群中的种子只是随机授粉,这是可以预期的。基本上,我认为这是零膨胀数据的经典示例,首先,昆虫完全不访问花朵(一个零生成器),如果这样做,则在另一个分布中对0-4的种子进行授粉。另一个假设是植物是部分自交的,然后可以预期每个种子都具有相同的授粉概率(此数据表明大约有0.1的机会,这意味着同一荚中的两粒种子有0.01的机会,依此类推) 。 但是我只是想证明数据最适合一种或另一种分布,而不是实际上对数据进行ZIP或ZINB处理。我认为我使用的任何方法都应考虑到授粉种子的实际数量和每棵植物上采样的豆荚的数量。我想到的最好的事情是做某种引导带事情,我只是将给定植物的授粉种子数量随机分配到我采样的种子荚数量中,进行10,000次,看看有多大可能性给定植物的实验数据来自该随机分布。 我只是觉得有些事情比蛮力自举要容易得多,但是经过几天的思考和搜索,我放弃了。我不能仅将其与Poisson分布进行比较,因为它是上限,它不是二项式的,因为我需要以某种方式生成期望的分布。有什么想法吗?而且我正在使用R,所以这里的建议(尤其是如何最优雅地将10,000个n球的随机分布生成到16个可以最多包含4个球的盒子中)。 ADDED 9/07/2012首先,感谢大家的关注和帮助。阅读答案,使我想重新表达我的问题。我要说的是,我有一个假设(种子现在我认为是无效的),即种子在豆荚之间随机授粉,而我的另一种假设是,至少有1个授粉种子的种子荚更可能种子的授粉种子数量多于随机过程所预期的数量。我提供了来自三个工厂的真实数据作为示例,以说明我在说什么。第一列是豆荚中已授粉种子的数量,第二列是具有该种子数的豆荚的频率。 植物1(总共3粒种子:4%授粉) 种子数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2(总共19粒种子:26%授粉) num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3(总共16粒种子:22%授粉) num.seeds :: …

1
模拟分布
我正在进行能力规划任务,并且已经阅读了一些书籍。这特别是关于分布。我用R 建议使用什么方法来确定我的数据分布是什么?有统计方法可以识别它吗? 我有这张图。 使用R有哪些可用的模拟方法?在这里,我想为特定分布(例如指数)生成数据。如果我想将r-java与Java集成,它是正确的方法吗? 当我通过管道传输特定分布的数据时,是否可以预测效果(CPU使用率等)的分布?发送某些数据分布有什么不同的影响? 请考虑这些作为初学者的问题。是否有涉及此类模拟的书籍或材料? 笔记 该图摘自论文的结尾http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf。 我遇到过的健身技巧 拟合优度评估 卡方 柯尔莫哥洛夫-斯米尔诺夫, Anderson-Darling统计密度,CDF,PP和QQ图 如果我发现我的分布是正态分布或指数分布等,我不确定该怎么解释或下一步应该做些什么?它可以做什么?预测?希望这个问题清楚。 根据我的尼尔·冈瑟(Neil Gunther)的《能力规划》一书,指数延迟会导致队列波动。所以我知道这一点。

1
有没有一种方法可以只估计分位数来估计分布参数?
如果只给几个分位数,有没有一种方法可以拟合指定的分布? 例如,如果我告诉您我有一个伽玛分布数据集,则经验的 20%,30%,50%和90%分位数分别是: 20% 30% 50% 90% 0.3936833 0.4890963 0.6751703 1.3404074 我将如何估算参数?有多种方法可以做到这一点,还是已经有一个特定的程序? 更多编辑:我没有特别要求伽玛分布,这只是一个例子,因为我担心我无法适当地解释我的问题。我的任务是给定一些(2-4)个分位数,并希望估计一些分布的(1-3)参数尽可能“接近”。有时候有一个(或无限)精确的解决方案,有时却没有,对吧?

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 


4
测试正态分布随机变量比率的显着差异
与分析变量的比率有关,以及如何参数化两个正态分布变量的比率或一个变量的倒数?。 假设我有来自四个不同连续随机分布的多个样本,我们可以假设所有这些样本都是大致正态的。在我的情况下,这些对应于两个不同文件系统(例如ext4和XFS)的一些性能指标,无论有没有加密。该指标可能是,例如,每秒创建的文件数,或某些文件操作的平均延迟。我们可以假设从这些分布中抽取的所有样本将始终严格为正。我们称这些分布Perffstype,encryptionPerffstype,encryption\textrm{Perf}_{fstype,encryption} 哪里 fstype∈{xfs,ext4}fstype∈{xfs,ext4}fstype \in \{xfs,ext4\} 和 encryption∈{crypto,nocrypto}encryption∈{crypto,nocrypto}encryption \in \{crypto,nocrypto\}。 现在,我的假设是,加密会使一个文件系统比另一个文件系统减慢的速度更大。对假设是否有一些简单的检验E[Perfxfs,crypto]E[Perfxfs,nocrypto]&lt;E[Perfext4,crypto]E[Perfext4,nocrypto]E[Perfxfs,crypto]E[Perfxfs,nocrypto]&lt;E[Perfext4,crypto]E[Perfext4,nocrypto]\frac{E[\textrm{Perf}_{xfs,crypto}]}{E[\textrm{Perf}_{xfs,nocrypto}]} < \frac{E[\textrm{Perf}_{ext4,crypto}]}{E[\textrm{Perf}_{ext4,nocrypto}]}?

7
寻找2D人工数据以演示聚类算法的属性
我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子: 星状云数据 四个集群,一个容易分离 螺旋形(无簇) 戒指 两片几乎分开的云 两个平行的簇形成螺旋 ...等等

1
回归系数的倒数分布
假设我们有一个线性模型 ÿ一世=β0+β1个X一世+ϵ一世yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_i符合所有标准回归(Gauss-Markov)假设。我们有兴趣θ = 1 /β1个θ=1/β1\theta = 1/\beta_1。 问题1:分配的必要条件是什么θ^θ^\hat{\theta} 定义清楚吗? β1个≠ 0β1≠0\beta_1 \neq 0 会很重要-其他吗? 问题2:添加假设误差遵循正态分布。我们知道,如果β^1个β^1\hat{\beta}_1 是MLE, G(⋅ )g(⋅)g(\cdot) 是单调函数,则 G(β^1个)g(β^1)g\left(\hat{\beta}_1\right) 是MLE g(β1)g(β1)g(\beta_1)。单调性仅在β1β1\beta_1?换句话说,是θ^=1/β^θ^=1/β^\hat{\theta} = 1/\hat{\beta}MLE?连续映射定理至少告诉我们该参数是一致的。 问题3: Delta方法和自举程序是否都是寻找分布的合适方法?θ^θ^\hat{\theta}? 问题4:这些答案如何更改参数γ=β0/β1γ=β0/β1\gamma = \beta_0 / \beta_1? 旁白:我们可能会考虑重新布置问题以解决 xi=β0β1+1β1yi+1β1ϵi=γ+θyi+1β1ϵixi=β0β1+1β1yi+1β1ϵi=γ+θyi+1β1ϵi\begin{align*} x_i &= \frac{\beta_0}{\beta_1} + \frac{1}{\beta_1} y_i + \frac{1}{\beta_1} \epsilon_i \\ …

3
如何使用1%的微数据样本大规模地模拟小区域的人口普查微数据,以及如何在小区域尺度上进行汇总统计?
我想在较小的地理汇总水平(澳大利亚人口普查收集区)中执行个人级别的多元分析。显然,出于隐私原因,无法在这些较小的汇总级别进行人口普查,因此我正在研究其他替代方案。几乎所有感兴趣的变量都是分类变量。我有两个数据集可供使用: 1%的人口普查样本可用于更高级别的空间聚集(一个人口约为190,000且人口统计学的空间分隔较大的区域)。 我在小区域级别上感兴趣的变量的频率表(500个小区域,平均pop = 385,sd = 319,中位数= 355)。 如何使用这两个数据集在小面积级别模拟尽可能接近小面积实际人口的人口分布? 我很欣赏可能有常规的方法来执行此操作;如果是这样,将非常感谢您提供教科书或相关期刊文章的指针。

2
此发行版有名称吗?或什么可能会产生随机过程?
具有质量函数的离散分布 p (x ; k )=ķ(x + k )(x + k − 1 ),X = 1 ,2 ,...p(X;ķ)=ķ(X+ķ)(X+ķ-1个),X=1个,2,…p(x;k) = \frac{k}{(x+k)(x+k-1)},\quad x = 1,2,\ldots 出现第9页本文。 对于它是带有的Yule-Simon分布,但是我没有找到其他示例。k = 1ķ=1个k=1ρ = 1ρ=1个\rho=1 它有名字吗?它是否出现在其他任何上下文中?是否有可能会产生一个简单的随机过程?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.