统计和大数据 pdf

1

假设。我对对角元素的边际分布感兴趣。关于的子矩阵的分布有一些简单的结果（至少有一些列在Wikipedia上）。由此我可以看出，对角线上任何单个元素的边际分布都是反伽玛。但是我一直无法推断出联合分布。DIAG （X ）= （X 11，... ，X p p）XX∼InvWishart(ν,Σ0)X∼InvWishart⁡(ν,Σ0)X\sim \operatorname{InvWishart}(\nu, \Sigma_0)诊断（X）= （x11，… ，xp p）诊断⁡（X）=（X11，…，Xpp）\operatorname{diag}(X) = (x_{11}, \dots, x_{pp})XXX 我认为也许可以通过合成来得出，例如： p （X11| X我我，i > 1 ）p （x22| X我我，i > 2 ）… p （x（p − 1 ）（p − 1 ）| Xp p）p （xp p），p（X11|X一世一世，一世>1个）p（X22|X一世一世，一世>2）…p（X（p-1个）（p-1个）|Xpp）p（Xpp），p(x_{11} | x_{ii}, i\gt 1)p(x_{22}|x_{ii}, i>2)\dots p(x_{(p-1)(p-1)}|x_{pp})p(x_{pp}), 但是我从没有得到任何帮助，并且进一步怀疑我缺少简单的东西；似乎已经知道这个“应该”，但是我一直无法找到/显示它。

21 distributions probability pdf

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

是否存在两个分布之间的Hellinger距离的无偏估计量？

在一个观察密度为的分布的分布的环境中，我想知道是否存在一个对密度为另一分布即的Hellinger距离的无偏估计量（基于）。X1,…,XnX1,…,XnX_1,\ldots,X_nfffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

20 pdf unbiased-estimator distance-functions functional-data-analysis hellinger

4

“概率密度函数下面的总面积为1”-相对于什么？

从概念上讲，我理解短语“ PDF下的总面积为1”的含义。这应该意味着结果出现在可能性的总间隔中的机会是100％。但我不能真正从“几何”的角度理解它。例如，如果在PDF中，x轴表示长度，那么如果x以毫米而不是公里来测量，曲线下方的总面积是否不会变大？我总是尝试描绘如果函数展平为一条直线，曲线下方的区域将如何显示。对于任何PDF，该行的高度（在y轴上的位置）是否相同，或者它的值取决于定义该函数的x轴上的间隔？

20 probability pdf integral

3

当和时极坐标是如何分布的？

令随机点的笛卡尔x,yx,yx,y坐标为st (x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)。因此，半径ρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 + y^2}并不是ρρ\rho的pdf所暗示的均匀分布。尽管如此，我希望θ=arctanyxθ=arctan⁡yx\theta = \arctan{\frac{y}{x}}几乎是均匀的，不包括由于边缘4个残差而导致的假象：以下是grafically计算概率密度函数的θθ\theta和ρρ\rho：现在，如果我让分布为st那么似乎是均匀分布的：x,yx,yx,yx,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta 为什么当时不均匀而当时是均匀的吗？θθ\theta(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)x,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2) 我使用的Matlab代码： number_of_points = 100000; rng('shuffle') a = -10; b = 10; r = (b-a).*randn(2,number_of_points); r = reshape(r, [2,number_of_points]); I = eye(2); e1 = …

19 normal-distribution matlab pdf uniform

4

直方图和pdf的区别？

如果我们要看得见连续数据的分布，应使用直方图和pdf中的哪一个？直方图和pdf有什么区别，而不是公式上的区别？

18 distributions pdf histogram

2

为什么样本的CDF均匀分布

我在这里读到，给定样本来自cdf的连续分布，该样本对应于X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) 遵循标准均匀分布。我已经使用Python中的定性模拟对此进行了验证，并且我很容易就能验证这种关系。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 结果如下图：我无法理解为什么会这样。我认为这与CDF的定义及其与PDF的关系有关，但是我缺少一些东西... 如果有人可以指点我阅读有关该主题的文章或帮助我获得对该主题的直觉，我将不胜感激。编辑：CDF看起来像这样：

17 pdf uniform cdf intuition

2

的分布是什么

我有四个独立的均匀分布的变量a,b,c,da,b,c,da,b,c,d中，每个在 [0,1][0,1][0,1]。我想计算(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc。我计算的分布u2=4bcu2=4bcu_2=4bc是（因此），并且的等于f2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.现在，总和的分布为（也独立）因为。这里必须是因此积分等于现在我将其插入Mathematica并得到u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 我制作了四个独立的集合，每个集合分别由数字组成，并绘制了的直方图：a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc 并绘制了：fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 通常，该图与直方图相似，但在区间大部分为负（根在2.27034处）。正部分的积分。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 哪里错了？或者我在哪里缺少什么？编辑：我缩放直方图以显示PDF。编辑2：我想我知道推理的问题所在-集成限制。因为和，所以我不能简单地。该图显示了我必须集成的区域：y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x 这意味着我有为（这就是为什么我的一部分是正确的），中和 in。不幸的是，Mathematica无法计算后两个积分（嗯，它的确计算了第二个积分，因为输出中有一个虚构的单位会破坏一切... ）。 Ý ∈ （0 ，1 ] ˚F ∫ X X - 1个 Ÿ ∈ （1 ，4 ] ∫ 4 X - 1 Ÿ ∈ （4 ，5 ]∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 编辑3：看来Mathematica可以使用以下代码计算最后三个积分： (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 …

17 distributions random-variable pdf uniform mathematica

3

pdf和pmf以及cdf是否包含相同的信息？

pdf和pmf以及cdf是否包含相同的信息？对我来说，pdf将整个概率提供给某个点（基本上是该概率下的面积）。 pmf给出某一点的概率。 cdf给出特定点下的概率。因此对我来说pdf和cdf具有相同的信息，但是pmf却没有，因为它给出了分布上某一点的概率x。

17 probability distributions pdf inference cdf

5

单变量随机变量的均值是否始终等于其分位数函数的积分？

我只是注意到，对从p = 0到p = 1的单变量随机变量的分位数函数（逆cdf）进行积分会产生变量的平均值。我之前从未听说过这种关系，所以我想知道：是否总是这样？如果是这样，这种关系是否广为人知？这是python中的示例： from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0)) def normalQf(p, mu, sigma): return mu + sigma * sqrt(2.0) * erfinv(2.0 …

17 mean pdf quantile-function

3

为什么累积分布函数（CDF）唯一定义分布？

我一直被告知CDF是唯一的，但是PDF / PMF不是唯一的，为什么呢？您能否举一个PDF / PMF不唯一的示例？

17 probability distributions pdf cdf

1

如何从R中的密度函数查找/估计概率密度函数

假设我有一个X未知分布的变量。在Mathematica中，通过使用SmoothKernelDensity函数，我们可以得到一个估计的密度函数。该估计的密度函数可以与PDF函数一起用于计算某个值的概率密度函数，例如X以PDF[density,X]“密度”为的形式表示SmoothKernelDensity。如果R中具有这样的功能，那将是很好的。这就是Mathematica中的工作方式 http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html 作为一个示例（基于Mathematica函数）： data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 在这里您可以找到有关PDF的更多信息： http://reference.wolfram.com/mathematica/ref/PDF.html 我知道我可以density(X)在R中使用它绘制密度函数，并通过使用ecdf(X)它可以获得经验累积分布函数。基于我对Mathematica的描述，是否有可能在R中做同样的事情？任何帮助和想法表示赞赏。

17 r pdf cdf

4

相信哪个：Kolmogorov-Smirnov测试或QQ情节？

我试图确定我的连续数据数据集是否遵循参数shape 1.7和rate 0.000063 的伽马分布。====== 问题是，当我使用R来创建数据集对于理论分布伽玛（1.7，0.000063）的QQ图时，我得到了一个图，该图表明经验数据与伽玛分布大致相符。ECDF图也会发生相同的情况。xxx 但是，当我运行Kolmogorov-Smirnov检验时，它给了我< 1 ％的不合理的值。ppp< 1 ％<1个％<1\% 我应该选择相信哪个？图形输出还是KS测试的结果？

16 pdf kolmogorov-smirnov cdf qq-plot

1

在原假设下，可交换样本背后的直觉是什么？

排列检验（也称为随机检验，重新随机检验或精确检验）非常有用，并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是，在使用这种检验时，一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是，当有两个以上的示例（如在coinR包中实现的示例）时，也可以应用这种方法。您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗？这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。注意：提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。更新：假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1：1。分别Par1在V1（基准），V2（3个月后）和V3（1年后）时测量了参数1 。根据特征A，所有50个主题都可以分为2组；正值= 20，负值=30。它们也可以基于特征B细分为另外2组；B阳性= 15，B阴性=35。现在，我具有Par1所有访问中所有受试者的值。在可交换性的假设下，如果可以，我是否可以在Par1使用置换测试的水平之间进行比较： -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较？ -将具有特征A的对象与具有V2的特征B的对象进行比较？ -比较在V2具有特征A的对象与在V3具有特征A的对象？ -在哪种情况下，这种比较是无效的，并且违反了可交换性的假设？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

R中内核密度估计中“ pdf”下的区域

我正在尝试在R中使用' density '函数进行内核密度估计。我有一些困难，解释结果和比较不同的数据集，因为它似乎在曲线下面积不一定1.对于任何概率密度函数（PDF），我们需要有区域∫ ∞ - ∞ φ （x ）d x = 1。我假设内核密度估计报告pdf。我使用integrate.xy从sfsmisc估计曲线下面积。ϕ(x)ϕ(x)\phi(x)∫∞−∞ϕ(x)dx=1∫−∞∞ϕ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 > # generate some data > xx<-rnorm(10000) > # get density > xy <- density(xx) > # plot it > plot(xy) > # load the library > library(sfsmisc) > integrate.xy(xy$x,xy$y) [1] 1.000978 > …

15 r estimation pdf kernel-smoothing auc

Questions tagged «pdf»