Questions tagged «distributions»

分布是概率或频率的数学描述。

1
N正态id的乘积的近似分布?特例μ≈0
给定 iid和,寻找:X Ñ ≈ Ñ(μ X,σ 2 X)μ X ≈ 0ñ≥ 30N≥30N\geq30Xñ≈ ñ(μX,σ2X)Xn≈N(μX,σX2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈ 0μX≈0\mu_X \approx 0 精确封闭形式分布近似值 ÿñ= ∏1个ñXñYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 相同乘积的渐近(指数?)逼近 这是一个特殊情况,是一个更一般的问题。μX≈ 0μX≈0\mu_X \approx 0

2
当是概率密度函数时如何找到?
我该如何解决?我需要中间方程式。也许答案是。−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)是概率密度函数。 也就是说,和\ lim \ limits_ {x \ to \ infty} F(x)= 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 来源:http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf第40页 尝试下面的中间方程式: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx …

1
如何读取邓恩测试的结果?
我如何阅读邓恩 测试的结果?具体来说,下表中的值告诉我什么? 我有4组的非参数数据,我首先进行了Kruskal-Wallis检验,以确认各组的分布彼此之间以及汇总数据集之间是不同的。然后,我使用Dunn的检验来查看哪些组彼此不同,哪些没有。 library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C ---------+--------------------------------- B | 20.62310 | 0.0000 | C | 26.66519 …

4
多大比例的独立分布给出正态分布?
两个独立正态分布的比率给出柯西分布。t分布是正态分布除以独立的卡方分布。两个独立的卡方分布的比率给出F分布。 我正在寻找独立连续分布的比率,该比率给出均值和方差正态分布随机变量?σ 2μμ\muσ2σ2\sigma^2 可能有无限可能的答案。您能给我一些可能的答案吗?如果要计算比率的两个独立分布相同或至少具有相似的方差,我将特别感激。

3
如何规范未知分布的数据
我试图找到某种类型的重复测量数据的最合适的特征分布。 本质上,在我所在的地质学领域,我们经常使用放射线测定样品中的矿物(岩石块)的年代,以查明事件发生多久了(岩石冷却到阈值温度以下)。通常,将对每个样本进行几次(3-10)次测量。然后,取平均值和标准偏差。这是地质,因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9μμ\muσσ\sigma10510510^510910910^9 不过,我有理由相信,测量不高斯:“离群”,要么宣布随意,或者通过一些标准,比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森,1951年],是相当这很常见(例如30分之一),而且这些数据几乎总是比较旧,这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。 因此,如果我能找到一个更好的分布,包括肥尾和偏斜,我认为我们可以构造更有意义的位置和比例参数,而不必如此迅速地分配离群值。也就是说,如果可以证明这些类型的测量是对数正态或对数拉普拉斯等,则可以使用比和更合适的最大似然性度量,它们是非稳健的,在这种情况下可能会有偏差系统右偏的数据。σμμ\muσσ\sigma 我想知道这样做的最好方法是什么。到目前为止,我有一个大约有600个样本的数据库,每个样本有2-10个(或大约)重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化,然后查看归一化数据的直方图。这会产生合理的结果,并且似乎表明该数据具有典型的对数拉普拉斯算式: 但是,我不确定这是否是解决问题的适当方法,或者不确定我是否意识到有一些警告可能会影响我的结果,所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
根据理论,拟合或其他方式选择分布更好吗?
这是一个哲学问题,但是我对其他有更多经验的人如何考虑分配选择感兴趣。在某些情况下,似乎很显然,理论可能最有效(小鼠尾巴的长度可能呈正态分布)。在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。我可以想象使用其中的一个或另一个会遇到一些陷阱,然后当然存在一个问题,就是如果您真的不知道,也许应该只使用经验分布。 所以我想我真正要问的是:有人是否有一致的方式来处理/思考这个问题?您是否有任何资源可以建议对此进行良好处理?



2
如何估算合并数据的第三四分位数?
是否有任何技术上的技巧来确定第三个四分位数是否属于一个开放区间,而该区间包含的人口超过四分之一(因此我无法关闭区间并使用标准公式)? 编辑 如果我误解了一些东西,我会或多或少提供完整的背景信息。我将数据安排在一个表中,该表有两列,例如6行。每列对应一个间隔(在第一列中)和“属于”该间隔的数量的人口。最后一个间隔是开放的,包括超过25%的人口。所有间隔(最后一个间隔除外)具有相同的范围。 样本数据(用于演示): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 第一列将被解释为收入水平范围。第二个将被解释为收入属于区间的雇员数。 我正在考虑的标准公式为。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

2
给定数据集自动确定概率分布
给定一个数据集: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) ..我想通过参数估计来确定最合适的概率分布(伽玛,贝塔,正态,指数,泊松,卡方等)。我已经知道以下链接上的问题,其中使用R提供了解决方案:https : //stackoverflow.com/questions/2661402/given-a-set-of-random-numbers-drawn-from-a-连续单变量分布-f 建议的最佳解决方案如下: > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, 'exponential')$loglik #$ 并选择具有最小loglik值的分布。但是,其他干扰(例如beta分布)需要在fitdistr()函数中指定一些附加参数: fitdistr(x, 'beta', list(shape1 = some value, shape2= some value)). 鉴于我正在尝试在没有任何先验信息的情况下确定最佳分布,因此我不知道每种分布的参数值可能是多少。是否有另一种解决方案考虑了这一要求?它不必在R中。


1
根据数据估算分布
我有一个R由生成的数据样本rnorm(50,0,1),因此该数据显然呈正态分布。但是,R不“知道”有关数据的分布信息。 有没有一种方法R可以估算我的样本来自哪种分布?如果没有,我将使用该shapiro.test功能并继续进行操作。
12 r  distributions 


3
具有可参数化协方差矩阵的正k维象限的分布是什么?
继zzk关于其负模拟问题的问题之后,我想知道正k维象限上的参数化分布族是什么,可以为其设置协方差矩阵。 ΣRk+R+k\mathbb{R}_+^kΣΣ\Sigma 如zzk所讨论的那样,从的分布开始并应用线性变换不起作用。 X⟶Σ 1 / 2(X-μ)+μRk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.