统计和大数据 distributions

4

当我大致了解比例应该是多少时，我一直在使用对数正态分布作为比例参数的先验分布（对于正态分布，t分布等），但想犯错误的一面是我不知道关于它。我之所以使用它，是因为该用法对我来说很直观，但是我还没有看到其他人使用它。有任何隐藏的危险吗？

21 distributions bayesian modeling prior maximum-entropy

2

反转方法如何工作？说我有一个随机样本与密度在，因此cdf在。然后通过反演方法，我得到的分布为。 f （x ; θ ）= 1X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_n 0<X<1˚FX（X）=X1/θ（0，1）X˚F - 1 X（Û）=Üθf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0<x<10<x<10<x<1FX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}(0,1)(0,1)(0,1)XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta 那么是否具有的分布？这是反演方法的工作方式吗？ Xuθuθu^\thetaXXX u<-runif(n) x<-u^(theta)

21 r distributions inference random-generation inverse-cdf

2

为什么将“负二项式”随机变量称为“负二项式”？

我不明白为什么“负二项式”随机变量具有该名称。它有什么负面影响？二项式是什么？负二项式是什么？

21 distributions random-variable terminology negative-binomial

4

如何测试我的分布是否为多峰？

当我绘制数据的直方图时，它有两个峰值：这是否意味着潜在的多峰分布？我dip.test在R（library(diptest)）中运行，输出为： D = 0.0275, p-value = 0.7913 我可以得出结论，我的数据具有多模式分布？数据 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …

21 r hypothesis-testing distributions self-study histogram

2

哪些分布具有最大似然估计的封闭式解决方案？

哪些分布具有封闭形式的解，可以根据独立观测的样本对参数的最大似然估计？

21 distributions mathematical-statistics maximum-likelihood

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

5

经验CDF与CDF

我正在学习经验累积分布函数。但是我还是不明白为什么称其为“经验的”？经验CDF和CDF有什么区别？

21 distributions terminology cdf ecdf

3

两个正态分布之差的分布

我有两个正态分布的概率密度函数： f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } 和 f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 我正在寻找和之间分离的概率密度函数。我认为这意味着我正在寻找| x_1-x_2 |的概率密度函数。。那是对的吗？我怎么找到那个？x1x1x_1x2x2x_2|x1−x2||x1−x2||x_1 - x_2|

20 distributions normal-distribution distance

12

负偏度分布的真实示例

受到“ 常见分布的真实示例 ”的启发，我想知道人们使用哪些教学示例来显示负偏度？教学中使用了许多对称或正态分布的“规范”示例-即使身高和体重这样的分布无法通过更严格的生物学检查而幸免！血压可能接近正常。我喜欢天文学的测量误差-具有历史意义，从直觉上讲，它们不太可能朝一个方向倾斜，而小的误差比大的误差更大。关于正偏度的常见教学示例包括人们的收入。待售二手车的里程；心理学实验中的反应时间；房价保险客户的事故索赔数量；一个家庭中孩子的数量。它们的物理合理性通常源于低于（通常为零）的界限，低值是合理的，甚至很常见，但众所周知，却会出现很大的值（有时高出几个数量级）。对于负偏斜，我发现很难给出年轻观众（高中生）可以直观理解的清晰生动的示例，这也许是因为较少的现实生活分布具有明确的上限。我在学校教的一个不好的例子是“手指数”。大多数人有十个人，但有些人在一次事故中丧生一个或多个。结果是“ 99％的人的手指数高于平均数”！多义性使问题复杂化，因为十不是严格的上限。由于缺少手指和多余手指都是罕见的事件，因此对于学生可能尚不清楚哪个影响占主导地位。我通常使用高的二项式分布。但是，学生通常会发现“一批中令人满意的组件数量出现负偏斜”不如“一批中的故障组件数量呈正偏斜”这一补充事实那么直观。（这本教科书是工业主题的；我更喜欢在十二个盒子中装满裂纹和完整的鸡蛋。）也许学生觉得“成功”应该很少见。ppp 另一个选择是指出，如果呈正偏，则呈负偏，但将其置于实际情况下（“负房价呈负偏”）似乎注定会导致教学上的失败。虽然教数据转换的效果是有好处的，但首先给出一个具体的例子似乎是明智的。我更喜欢一个似乎不是人为的，负偏斜非常明确，并且学生的生活经历应该使他们意识到分布形状的人。− XXXX−X-X-X

20 distributions skewness teaching

2

我们可以在自然界某处看到法线的形状吗？

我不想知道自然界中某些现象是否具有正态分布，但是我们是否可以在某个地方看到正态曲线的形状，例如在高尔顿盒中可以看到的。从Wikipedia看到此图。请注意，自然界中可以直接看到许多数学形状或曲线，例如在蜗牛中可以找到黄金均值和对数螺旋。第一个天真的答案是未倾斜的山丘是否经常“拟合”正态分布：-)。

20 distributions normality-assumption

4

边缘情况下精度和召回率的正确值是多少？

精度定义为： p = true positives / (true positives + false positives) 对不对，作为true positives和false positives做法0，精度接近1？召回相同的问题： r = true positives / (true positives + false negatives) 我目前正在实施统计测试，需要计算这些值，有时分母为0，我想知道在这种情况下应返回哪个值。 PS：请原谅，不恰当的标签，我想用recall，precision和limit，但我不能创造新的标签呢。

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

从均匀分布到指数分布，反之亦然

这可能是一个琐碎的问题，但是到目前为止，我的搜索仍然没有结果，包括这篇Wikipedia文章和“分发纲要” 文档。如果具有均匀分布，是否意味着遵循指数分布？Ë XXXXeXeXe^X 同样，如果遵循指数分布，是否表示遵循均匀分布？升Ñ （Ý ）YYY升ñ （ÿ）ln(Y)ln(Y)

20 distributions data-transformation exponential uniform

2

为什么用波浪号表示概率分布？

指定代数分布时，代字号的含义是什么？例如： Z∼Normal(0,1).Z∼Normal(0,1).Z \sim \mbox{Normal}(0,1).

20 probability distributions notation

3

分布的时刻-是否用于部分或更高时刻？

通常使用分布的第二，第三和第四时刻来描述某些属性。局部矩或高于第四矩的矩是否描述了分布的任何有用特性？

20 distributions moments partial-moments

7

箱图有哪些替代方案？

我正在创建一个网站，该网站显示用户选择的多边形的普查数据，并希望以图形方式显示各种参数的分布（每个参数一个图）。数据通常具有以下属性：样本数量往往很大（例如大约10,000个数据点）值的范围往往要求较大（例如，最小人口可以小于100，最大人口可以是500,000） q1通常接近最小值（例如200），而q2和q3将在10,000以内它看起来不像正态分布我不是统计学家，因此我的描述可能不太清楚。我想在图表上显示此分布，市民（外行，如果您愿意）可以看到该分布。我本来希望使用直方图，但是由于值的范围很大，因此是不可能的，因为这使得制作垃圾箱并不是一件容易的事。据我对统计的了解很少，通常使用箱形图来显示此类数据，但我认为对于外行而言，解密箱形图并不容易。我有什么选择可以以一种易于理解的方式显示此数据？

20 distributions data-visualization boxplot

Questions tagged «distributions»