Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

6
概率分布值超过1可以吗?
在有关朴素贝叶斯分类器的Wikipedia页面上,存在以下行: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789(1的概率分布是可以的。钟形曲线下的面积等于1。) 值如何确定?我认为所有概率值都表示在范围内。此外,假设有可能具有这样的值,那么在页面上显示的示例中如何获得该值?>1>1>10≤p≤10≤p≤10 \leq p \leq 1

9
从底部到顶部解释马氏距离?
我正在研究模式识别和统计,几乎每本书我都涉及马哈拉诺比斯距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正真正了解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,它可以测量某种距离” :) 这些定义通常还包含特征向量和特征值,与马氏距离之间的连接有点麻烦。我了解特征向量和特征值的定义,但是它们与马氏距离有何关系?它与更改线性代数等的基数有关吗? 我还阅读了有关该主题的以下先前问题: 什么是马氏距离,如何将其用于模式识别? 高斯分布函数和马哈拉诺比斯距离(Math.SE)的直观解释 我也读过这个解释。 答案是好的,画面不错,但我仍然没有真正得到它。我有一个想法,但它仍然在黑暗中。有人可以给出“您将如何向您的祖母解释”的解释,以便我最终将其总结起来,而再也不会怀疑马哈拉诺比斯距离是多少?:)它来自哪里,为什么? 更新: 以下是有助于理解Mahalanobis公式的内容: https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-椭球

2
推导多元正态分布的条件分布
我们有一个多元法向向量Y∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma)。考虑将μμ\boldsymbol\mu和YY{\boldsymbol Y}划分为 μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix} Y=[y1y2]Y=[y1y2]{\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix} 将\ Sigma的类似分区划分ΣΣ\Sigma为 [Σ11Σ21Σ12Σ22][Σ11Σ12Σ21Σ22] \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} 然后,(y1|y2=a)(y1|y2=a)({\boldsymbol y}_1|{\boldsymbol y}_2={\boldsymbol a}),给定第二个分区的第一个分区的条件分布为 N(μ¯¯¯¯,Σ¯¯¯¯)N(μ¯,Σ¯)\mathcal{N}(\overline{\boldsymbol\mu},\overline{\Sigma}),其均值 μ¯¯¯¯=μ1+Σ12Σ22−1(a−μ2)μ¯=μ1+Σ12Σ22−1(a−μ2) \overline{\boldsymbol\mu}=\boldsymbol\mu_1+\Sigma_{12}{\Sigma_{22}}^{-1}({\boldsymbol a}-\boldsymbol\mu_2) 和协方差矩阵 Σ¯¯¯¯=Σ11−Σ12Σ22−1Σ21Σ¯=Σ11−Σ12Σ22−1Σ21 \overline{\Sigma}=\Sigma_{11}-\Sigma_{12}{\Sigma_{22}}^{-1}\Sigma_{21} 实际上,这些结果也已在Wikipedia中提供,但是我不知道μ¯¯¯¯μ¯\overline{\boldsymbol\mu}和Σ¯¯¯¯Σ¯\overline{\Sigma}是如何得出的。这些结果至关重要,因为它们是推导卡尔曼滤波器的重要统计公式。有人能提供我推导μ¯¯¯¯μ¯\overline{\boldsymbol\mu}和\ overline {\ Sigma}的推导步骤Σ¯¯¯¯Σ¯\overline{\Sigma}吗?非常感谢你!


2
两个单变量高斯之间的KL散度
我需要确定两个高斯之间的KL散度。我正在将我的结果与这些结果进行比较,但是我无法复制它们的结果。我的结果显然是错误的,因为KL(p,p)的KL不为0。 我想知道我在哪里做错了,问是否有人可以发现它。 令和。从Bishop的PRML我知道p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx 在所有实线上完成集成的地方 ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} (1 + \log 2 \pi \sigma_1^2), 所以我将自己限制为,我可以写成∫p(x)logq(x)dx∫p(x)log⁡q(x)dx\int p(x) \log q(x) dx −∫p(x)log1(2πσ22)(1/2)e−(x−μ2)22σ22dx,−∫p(x)log⁡1(2πσ22)(1/2)e−(x−μ2)22σ22dx,-\int p(x) \log \frac{1}{(2 \pi \sigma_2^2)^{(1/2)}} e^{-\frac{(x-\mu_2)^2}{2 …

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 




14
高斯(正态)分布最令人惊讶的特征是什么?
可以通过明确给出其密度来定义上的标准化高斯分布: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} 或其特征功能。 就像在这个问题中提到的那样,它也是样本均值和方差是独立的唯一分布。 您知道高斯测量的其他令人惊讶的替代特征是什么?我会接受最令人惊讶的答案


3
条件高斯分布背后的直觉是什么?
假设X〜 Ñ2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})。然后,给定X 2 = x 2的的条件分布是均值的多元正态分布:X1个X1X_1X2= x2X2=x2X_2 = x_2 Ë[ P(X1个| X2= x2)] = μ1个+ σ12σ22(x2- μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) 和方差:V 一- [R [P(X1个| X2= x2)] = σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} 由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?X1X1X_1和之间的协方差如何X2X2X_2影响条件均值?


1
两个多元高斯之间的KL散度
假设两个多元正态分布,我在推导KL散度公式时遇到麻烦。我已经很轻松地完成了单变量案例。但是,自从我获得数学统计数据以来已经有一段时间了,因此在将其扩展到多元案例时遇到了一些麻烦。我确定我只是缺少一些简单的东西。 这就是我所拥有的... 假设二者和q是正态分布的与装置的PDF文件μ 1和μ 2和方差Σ 1和Σ 2分别。从q到p的Kullback-Leibler距离为:pppqqqμ1个μ1\mu_1μ2μ2\mu_2Σ1个Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp ,对于两个多元法线为:∫[ 日志(p (x ))- 对数(q((x ))] p (x )d X∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) - \log( q(x)) \right]\ p(x)\ dx 12[log|Σ2||Σ1|−d+Tr(Σ−12Σ1)+(μ2−μ1)TΣ−12(μ2−μ1)]12[log⁡|Σ2||Σ1|−d+Tr(Σ2−1Σ1)+(μ2−μ1)TΣ2−1(μ2−μ1)]\frac{1}{2}\left[\log\frac{|\Sigma_2|}{|\Sigma_1|} - d + Tr(\Sigma_2^{-1}\Sigma_1) + (\mu_2 - \mu_1)^T \Sigma_2^{-1}(\mu_2 - \mu_1)\right] 遵循与此证明相同的逻辑,在陷入困境之前,请先到达此处: =∫[d2log|Σ2||Σ1|+12((x−μ2)TΣ−12(x−μ2)−(x−μ1)TΣ−12(x−μ1))]×p(x)dx=∫[d2log⁡|Σ2||Σ1|+12((x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ2−1(x−μ1))]×p(x)dx=\int \left[ \frac{d}{2} \log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2} \left((x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_2^{-1}(x-\mu_1) \right) …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.