Questions tagged «pdf»

连续随机变量的概率密度函数(PDF)给出了每个可能值的相对概率。将此标签也用于离散概率质量函数(PMF)。

1
逆Wishart分布矩阵的对角线的边际分布
假设。我对对角元素的边际分布感兴趣。关于的子矩阵的分布有一些简单的结果(至少有一些列在Wikipedia上)。由此我可以看出,对角线上任何单个元素的边际分布都是反伽玛。但是我一直无法推断出联合分布。DIAG (X )= (X 11,... ,X p p)XX∼InvWishart(ν,Σ0)X∼InvWishart⁡(ν,Σ0)X\sim \operatorname{InvWishart}(\nu, \Sigma_0)诊断(X)= (x11,… ,xp p)诊断⁡(X)=(X11,…,Xpp)\operatorname{diag}(X) = (x_{11}, \dots, x_{pp})XXX 我认为也许可以通过合成来得出,例如: p (X11| X我我,i > 1 )p (x22| X我我,i > 2 )… p (x(p − 1 )(p − 1 )| Xp p)p (xp p),p(X11|X一世一世,一世>1个)p(X22|X一世一世,一世>2)…p(X(p-1个)(p-1个)|Xpp)p(Xpp),p(x_{11} | x_{ii}, i\gt 1)p(x_{22}|x_{ii}, i>2)\dots p(x_{(p-1)(p-1)}|x_{pp})p(x_{pp}), 但是我从没有得到任何帮助,并且进一步怀疑我缺少简单的东西;似乎已经知道这个“应该”,但是我一直无法找到/显示它。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
是否存在两个分布之间的Hellinger距离的无偏估计量?
在一个观察密度为的分布的分布的环境中,我想知道是否存在一个对密度为另一分布即 的Hellinger距离的无偏估计量(基于)。X1,…,XnX1,…,XnX_1,\ldots,X_nfffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

4
“概率密度函数下面的总面积为1”-相对于什么?
从概念上讲,我理解短语“ PDF下的总面积为1”的含义。这应该意味着结果出现在可能性的总间隔中的机会是100%。 但我不能真正从“几何”的角度理解它。例如,如果在PDF中,x轴表示长度,那么如果x以毫米而不是公里来测量,曲线下方的总面积是否不会变大? 我总是尝试描绘如果函数展平为一条直线,曲线下方的区域将如何显示。对于任何PDF,该行的高度(在y轴上的位置)是否相同,或者它的值取决于定义该函数的x轴上的间隔?

3
当和时极坐标是如何分布的?
令随机点的笛卡尔x,yx,yx,y坐标为st (x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)。 因此,半径ρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 + y^2}并不是ρρ\rho的pdf所暗示的均匀分布。 尽管如此,我希望θ=arctanyxθ=arctan⁡yx\theta = \arctan{\frac{y}{x}}几乎是均匀的,不包括由于边缘4个残差而导致的假象: 以下是grafically计算概率密度函数的θθ\theta和ρρ\rho: 现在,如果我让分布为st那么似乎是均匀分布的:x,yx,yx,yx,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta 为什么当时不均匀而当时是均匀的吗?θθ\theta(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)x,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2) 我使用的Matlab代码: number_of_points = 100000; rng('shuffle') a = -10; b = 10; r = (b-a).*randn(2,number_of_points); r = reshape(r, [2,number_of_points]); I = eye(2); e1 = …


2
为什么样本的CDF均匀分布
我在这里读到,给定样本来自cdf的连续分布,该样本对应于X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) 遵循标准均匀分布。 我已经使用Python中的定性模拟对此进行了验证,并且我很容易就能验证这种关系。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 结果如下图: 我无法理解为什么会这样。我认为这与CDF的定义及其与PDF的关系有关,但是我缺少一些东西... 如果有人可以指点我阅读有关该主题的文章或帮助我获得对该主题的直觉,我将不胜感激。 编辑:CDF看起来像这样:
17 pdf  uniform  cdf  intuition 

2
的分布是什么
我有四个独立的均匀分布的变量a,b,c,da,b,c,da,b,c,d中,每个在 [0,1][0,1][0,1]。我想计算(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc。我计算的分布u2=4bcu2=4bcu_2=4bc是(因此),并且的等于f2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.现在,总和的分布为(也独立)因为。这里必须是因此积分等于现在我将其插入Mathematica并得到u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 我制作了四个独立的集合,每个集合分别由数字组成,并绘制了的直方图:a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc 并绘制了:fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 通常,该图与直方图相似,但在区间大部分为负(根在​​2.27034处)。正部分的积分。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 哪里错了?或者我在哪里缺少什么? 编辑:我缩放直方图以显示PDF。 编辑2:我想我知道推理的问题所在-集成限制。因为和,所以我不能简单地。该图显示了我必须集成的区域:y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x 这意味着我有为(这就是为什么我的一部分是正确的),中和 in。不幸的是,Mathematica无法计算后两个积分(嗯,它的确计算了第二个积分,因为输出中有一个虚构的单位会破坏一切... )。 Ý ∈ (0 ,1 ] ˚F ∫ X X - 1个 Ÿ ∈ (1 ,4 ] ∫ 4 X - 1 Ÿ ∈ (4 ,5 ]∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 编辑3:看来Mathematica可以使用以下代码计算最后三个积分: (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 …

3
pdf和pmf以及cdf是否包含相同的信息?
pdf和pmf以及cdf是否包含相同的信息? 对我来说,pdf将整个概率提供给某个点(基本上是该概率下的面积)。 pmf给出某一点的概率。 cdf给出特定点下的概率。 因此对我来说pdf和cdf具有相同的信息,但是pmf却没有,因为它给出了分布上某一点的概率x。

5
单变量随机变量的均值是否始终等于其分位数函数的积分?
我只是注意到,对从p = 0到p = 1的单变量随机变量的分位数函数(逆cdf)进行积分会产生变量的平均值。我之前从未听说过这种关系,所以我想知道:是否总是这样?如果是这样,这种关系是否广为人知? 这是python中的示例: from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0)) def normalQf(p, mu, sigma): return mu + sigma * sqrt(2.0) * erfinv(2.0 …


1
如何从R中的密度函数查找/估计概率密度函数
假设我有一个X未知分布的变量。在Mathematica中,通过使用SmoothKernelDensity函数,我们可以得到一个估计的密度函数。该估计的密度函数可以与PDF函数一起用于计算某个值的概率密度函数,例如X以PDF[density,X]“密度”为的形式表示SmoothKernelDensity。如果R中具有这样的功能,那将是很好的。这就是Mathematica中的工作方式 http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html 作为一个示例(基于Mathematica函数): data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 在这里您可以找到有关PDF的更多信息: http://reference.wolfram.com/mathematica/ref/PDF.html 我知道我可以density(X)在R中使用它绘制密度函数,并通过使用ecdf(X)它可以获得经验累积分布函数。基于我对Mathematica的描述,是否有可能在R中做同样的事情? 任何帮助和想法表示赞赏。
17 r  pdf  cdf 

4
相信哪个:Kolmogorov-Smirnov测试或QQ情节?
我试图确定我的连续数据数据集是否遵循参数shape 1.7和rate 0.000063 的伽马分布。====== 问题是,当我使用R来创建数据集对于理论分布伽玛(1.7,0.000063)的QQ图时,我得到了一个图,该图表明经验数据与伽玛分布大致相符。ECDF图也会发生相同的情况。xxx 但是,当我运行Kolmogorov-Smirnov检验时,它给了我&lt; 1 %的不合理的值。ppp&lt; 1 %&lt;1个%<1\% 我应该选择相信哪个?图形输出还是KS测试的结果?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
R中内核密度估计中“ pdf”下的区域
我正在尝试在R中使用' density '函数进行内核密度估计。我有一些困难,解释结果和比较不同的数据集,因为它似乎在曲线下面积不一定1.对于任何概率密度函数(PDF) ,我们需要有区域∫ ∞ - ∞ φ (x )d x = 1。我假设内核密度估计报告pdf。我使用integrate.xy从sfsmisc估计曲线下面积。ϕ(x)ϕ(x)\phi(x)∫∞−∞ϕ(x)dx=1∫−∞∞ϕ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 &gt; # generate some data &gt; xx&lt;-rnorm(10000) &gt; # get density &gt; xy &lt;- density(xx) &gt; # plot it &gt; plot(xy) &gt; # load the library &gt; library(sfsmisc) &gt; integrate.xy(xy$x,xy$y) [1] 1.000978 &gt; …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.