统计和大数据 distributions

1

给定 iid和，寻找：X Ñ ≈ Ñ（μ X，σ 2 X）μ X ≈ 0ñ≥ 30N≥30N\geq30Xñ≈ ñ（μX，σ2X）Xn≈N(μX,σX2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈ 0μX≈0\mu_X \approx 0 精确封闭形式分布近似值 ÿñ= ∏1个ñXñYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 相同乘积的渐近（指数？）逼近这是一个特殊情况，是一个更一般的问题。μX≈ 0μX≈0\mu_X \approx 0

12 distributions normal-distribution asymptotics approximation

2

当是概率密度函数时如何找到？

我该如何解决？我需要中间方程式。也许答案是。−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)是概率密度函数。也就是说，和\ lim \ limits_ {x \ to \ infty} F（x）= 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 来源：http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf第40页尝试下面的中间方程式： ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx …

12 probability distributions self-study mathematical-statistics

1

如何读取邓恩测试的结果？

我如何阅读邓恩测试的结果？具体来说，下表中的值告诉我什么？我有4组的非参数数据，我首先进行了Kruskal-Wallis检验，以确认各组的分布彼此之间以及汇总数据集之间是不同的。然后，我使用Dunn的检验来查看哪些组彼此不同，哪些没有。 library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C ---------+--------------------------------- B | 20.62310 | 0.0000 | C | 26.66519 …

12 r distributions kruskal-wallis dunn-test

4

多大比例的独立分布给出正态分布？

两个独立正态分布的比率给出柯西分布。t分布是正态分布除以独立的卡方分布。两个独立的卡方分布的比率给出F分布。我正在寻找独立连续分布的比率，该比率给出均值和方差正态分布随机变量？σ 2μμ\muσ2σ2\sigma^2 可能有无限可能的答案。您能给我一些可能的答案吗？如果要计算比率的两个独立分布相同或至少具有相似的方差，我将特别感激。

12 probability distributions normal-distribution mathematical-statistics

3

如何规范未知分布的数据

我试图找到某种类型的重复测量数据的最合适的特征分布。本质上，在我所在的地质学领域，我们经常使用放射线测定样品中的矿物（岩石块）的年代，以查明事件发生多久了（岩石冷却到阈值温度以下）。通常，将对每个样本进行几次（3-10）次测量。然后，取平均值和标准偏差。这是地质，因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9μμ\muσσ\sigma10510510^510910910^9 不过，我有理由相信，测量不高斯：“离群”，要么宣布随意，或者通过一些标准，比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森，1951年]，是相当这很常见（例如30分之一），而且这些数据几乎总是比较旧，这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。因此，如果我能找到一个更好的分布，包括肥尾和偏斜，我认为我们可以构造更有意义的位置和比例参数，而不必如此迅速地分配离群值。也就是说，如果可以证明这些类型的测量是对数正态或对数拉普拉斯等，则可以使用比和更合适的最大似然性度量，它们是非稳健的，在这种情况下可能会有偏差系统右偏的数据。σμμ\muσσ\sigma 我想知道这样做的最好方法是什么。到目前为止，我有一个大约有600个样本的数据库，每个样本有2-10个（或大约）重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化，然后查看归一化数据的直方图。这会产生合理的结果，并且似乎表明该数据具有典型的对数拉普拉斯算式：但是，我不确定这是否是解决问题的适当方法，或者不确定我是否意识到有一些警告可能会影响我的结果，所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践？

12 distributions normal-distribution normalization histogram

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

根据理论，拟合或其他方式选择分布更好吗？

这是一个哲学问题，但是我对其他有更多经验的人如何考虑分配选择感兴趣。在某些情况下，似乎很显然，理论可能最有效（小鼠尾巴的长度可能呈正态分布）。在很多情况下，可能没有理论来描述一组数据，因此，无论原始开发用来描述什么，您都可以使用非常适合您的数据。我可以想象使用其中的一个或另一个会遇到一些陷阱，然后当然存在一个问题，就是如果您真的不知道，也许应该只使用经验分布。所以我想我真正要问的是：有人是否有一致的方式来处理/思考这个问题？您是否有任何资源可以建议对此进行良好处理？

12 distributions overfitting heuristic

2

在左偏数据中，均值和中位数之间是什么关系？

我认为中位数表示平均值。≤≤\leq 是这样吗

12 distributions self-study mean skewness median

2

法线总和与法线立方总和之比

请帮助我找到以下项的极限分布（如）：其中是iid。n→∞n→∞n \rightarrow \inftyUn=X1+X2+…+XnX31+X32+…X3n,Un=X1+X2+…+XnX13+X23+…Xn3, U_n = \frac{X_1 + X_2 + \ldots + X_n}{X_1^3 + X_2^3 + \ldots X_n^3},XiXiX_iN(0,1)N(0,1)N(0,1)

12 distributions normal-distribution asymptotics

2

如何估算合并数据的第三四分位数？

是否有任何技术上的技巧来确定第三个四分位数是否属于一个开放区间，而该区间包含的人口超过四分之一（因此我无法关闭区间并使用标准公式）？编辑如果我误解了一些东西，我会或多或少提供完整的背景信息。我将数据安排在一个表中，该表有两列，例如6行。每列对应一个间隔（在第一列中）和“属于”该间隔的数量的人口。最后一个间隔是开放的，包括超过25％的人口。所有间隔（最后一个间隔除外）具有相同的范围。样本数据（用于演示）： Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 第一列将被解释为收入水平范围。第二个将被解释为收入属于区间的雇员数。我正在考虑的标准公式为。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

12 distributions histogram descriptive-statistics

2

给定数据集自动确定概率分布

给定一个数据集： x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) ..我想通过参数估计来确定最合适的概率分布（伽玛，贝塔，正态，指数，泊松，卡方等）。我已经知道以下链接上的问题，其中使用R提供了解决方案：https : //stackoverflow.com/questions/2661402/given-a-set-of-random-numbers-drawn-from-a-连续单变量分布-f 建议的最佳解决方案如下： > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, 'exponential')$loglik #$ 并选择具有最小loglik值的分布。但是，其他干扰（例如beta分布）需要在fitdistr（）函数中指定一些附加参数： fitdistr(x, 'beta', list(shape1 = some value, shape2= some value)). 鉴于我正在尝试在没有任何先验信息的情况下确定最佳分布，因此我不知道每种分布的参数值可能是多少。是否有另一种解决方案考虑了这一要求？它不必在R中。

12 r matlab distributions

1

分解正态分布

是否存在仅正分布，从而使两个独立样本与该分布的差呈正态分布？如果是这样，它是否具有简单的形式？

12 distributions probability

1

根据数据估算分布

我有一个R由生成的数据样本rnorm(50,0,1)，因此该数据显然呈正态分布。但是，R不“知道”有关数据的分布信息。有没有一种方法R可以估算我的样本来自哪种分布？如果没有，我将使用该shapiro.test功能并继续进行操作。

12 r distributions

1

力矩产生函数的标识

是否有任何不相同的分布恰好具有相同的矩生成函数？

12 distributions moments mgf

3

具有可参数化协方差矩阵的正k维象限的分布是什么？

继zzk关于其负模拟问题的问题之后，我想知道正k维象限上的参数化分布族是什么，可以为其设置协方差矩阵。 ΣRk+R+k\mathbb{R}_+^kΣΣ\Sigma 如zzk所讨论的那样，从的分布开始并应用线性变换不起作用。 X⟶＆Sigma; 1 / 2（X-μ）+μRk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

12 distributions multivariate-analysis covariance

Questions tagged «distributions»