Questions tagged «gaussian-mixture»

假设子种群遵循高斯分布的一种混合分布或模型。

5
使用离散变量和连续变量对数据集进行聚类
我有一个数据集X,它有10个维度,其中4个是离散值。实际上,这四个离散变量是有序的,即较高的值表示较高/更好的语义。 这些离散变量中的2个是分类的,对于每个这些变量,例如11到12的距离与5到6的距离是不相同的。虽然较高的变量值实际上意味着较高,但比例尺是不一定是线性的(实际上,它并没有真正定义)。 我的问题是: 将通用的聚类算法(例如K-Means然后是高斯混合(GMM))应用于包含离散变量和连续变量的数据集,这是一个好主意吗? 如果不: 我应该删除离散变量并只关注连续变量吗? 我是否应该更好地离散化连续数据并为离散数据使用聚类算法?

2
如果k均值聚类是高斯混合建模的一种形式,那么当数据不正常时可以使用它吗?
我正在阅读Bishop有关GMM的EM算法以及GMM和k均值之间的关系。 在这本书中,它说k均值是GMM的硬分配版本。我想知道这是否意味着如果我要聚类的数据不是高斯,我就不能使用k-means(或者至少不适合使用)?例如,如果数据是手写数字的图像,该图像由8 * 8像素组成,每个像素的值为0或1(并假设它们是独立的,因此应该是伯努利的混合物)? 我对此有些困惑,将不胜感激。

2
手动执行EM算法
我想手动实现EM算法,然后比较它的结果normalmixEM的mixtools包。当然,如果它们都能带来相同的结果,我将很高兴。主要参考文献是Geoffrey McLachlan(2000),有限混合模型。 我有两个高斯混合密度,一般形式下,对数似然由(McLachlan第48页)给出: 日志大号C(Ψ )= Σ我= 1G∑j = 1ñž我Ĵ{ 日志π一世+ 日志F一世(y一世; θ一世)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. 所述是,如果观察是从个元件密度,否则。该是正态分布的密度。所述是混合物的比例,所以是概率,即观察是从第一高斯分布和是概率,即观察是从第二高斯分布。ž我Ĵzijz_{ij}1个11一世ii000F一世fif_iππ\piπ1个π1\pi_1π2π2\pi_2 该ê步现在,条件期望的计算: Q (Ψ ; Ψ(0 ))= EΨ (0 ){ 日志大号C(| Ψ )| ÿ} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 经过一些推导得出结果(第49页): τ一世(yĴ; Ψ(k ))= π(k )一世F一世(yĴ; θ(k )一世F(yĴ; …

2
为什么直接在计算上优化高斯混合很难?
考虑混合高斯的对数似然: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} 我想知道为什么要直接最大化该方程在计算上很困难?我一直在寻找一个清晰的直觉,以了解为什么它应该如此艰难,或者为什么要对其为何如此艰难做出更严格的解释。这个问题是NP完整的,还是我们还不知道如何解决?这是我们诉诸使用EM(期望最大化)算法的原因吗? 符号: SnSnS_n =训练数据。 x(t)x(t)x^{(t)} =数据点。 θθ\theta =一组参数,指定高斯,其均值,标准偏差以及从每个聚类/类/高斯生成点的概率。 pipip_i =从聚类/类/高斯i生成点的概率。

2
为什么期望最大化对于混合模型很重要?
有许多文献强调混合模型(高斯混合模型,隐马尔可夫模型等)上的期望最大化方法。 为何EM重要?EM只是一种优化方法,并未广泛用作基于梯度的方法(梯度体面或牛顿/准牛顿法)或此处讨论的其他无梯度方法。此外,EM仍然存在局部极小问题。 是因为该过程是直观的并且可以轻松地转换为代码吗?还是其他原因?

2
如何拟合混合模型以进行聚类
我有两个变量-X和Y,我需要使簇最大(最优)=5。让我们理想的变量图如下所示: 我想做5个这样的集群。像这样: 因此,我认为这是具有5个群集的混合模型。每个聚类都有中心点和围绕它的置信度。 这些簇并不总是这样,它们看起来如下所示,其中有时两个簇靠在一起,或者一个或两个簇完全缺失。 在这种情况下如何有效地拟合混合模型并进行分类(聚类)? 例: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col = "gray40")

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
高斯混合模型中的奇点问题
在模式识别和机器学习这本书的第9章中,有关于高斯混合模型的这一部分: 老实说,我并不真正理解为什么会产生奇异之处。谁能向我解释一下?抱歉,我只是一个本科生,并且是机器学习的新手,所以我的问题听起来有点愚蠢,但请帮助我。非常感谢你

3
证明使用高斯混合的合理依据
高斯混合模型(GMM)之所以吸引人,是因为它们在分析和实践中都易于使用,并且能够建模某些奇特的分布而不会过于复杂。我们应该保留一些分析属性,这些属性通常并不明确。尤其是: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 假设我们有一个连续分布PPP,我们发现了一个NNN分量高斯混合P^P^\hat{P},它的总变化量接近PPP:δ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilon。我们可以用\ epsilon约束D(P || \ hat {P})吗?D(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 如果我们想通过独立的加性噪声Y \ sim P_Y(真实的,连续的)观察X \ sim P_X,并且我们有GMM \ hat {X} \ sim Q_X,\ hat {Y} \ sim Q_N其中\ delta(P ,Q)&lt;\ epsilon,则此值较小:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf {mmse}(\ hat {X} | \ hat {X} + …


1
高斯混合模型的不同协方差类型
在这里尝试使用高斯混合模型时,我发现了这4种协方差。 'full' (each component has its own general covariance matrix), 'tied' (all components share the same general covariance matrix), 'diag' (each component has its own diagonal covariance matrix), 'spherical' (each component has its own single variance). 我在Google上进行了大量搜索,以找到有关每种类型的更多详细信息,但仅找到了非常高级的描述(例如this)。 欣赏有人可以帮助我理解这些内容,或者至少将我引导到可以阅读这些内容的地方。

1
来自正态分布组合的分位数
我了解不同年龄儿童的人体测量尺寸分布(例如肩跨度)。对于每个年龄和维度,我都有均值,标准差。(我也有八个分位数,但我认为我无法从中得到想要的东西。) 对于每个维度,我想估算长度分布的特定分位数。如果我假设每个维度都是正态分布的,则可以使用均值和标准偏差来实现。我是否可以使用一个漂亮的公式来获取与特定分位数的分布相关的值? 反向操作非常简单:对于特定值,对于每个正态分布(年龄),将面积都设置在该值的右侧。对结果求和,然后除以分布数。 更新:这是图形形式的相同问题。假设每个彩色分布都是正态分布。 而且,很明显,我可以尝试一堆不同的长度,并不断更改它们,直到获得与我的精度足够接近所需分位数的长度为止。我想知道是否有比这更好的方法。如果这是正确的方法,那么它有名字吗?

1
Mclust模型选择
R软件包mclust使用BIC作为选择集群模型的标准。据我了解,应该选择BIC最低的模型而不是其他模型(如果您仅关心BIC)。但是,当BIC值均为负时,该Mclust功能默认为具有最高BIC值的模型。我的来自各种试验总体理解是mclust识别“最好”的模型作为那些具有。max{BICi}max{BICi}max\{BIC_i\} 我试图理解作者为什么做出这个决定。它在CRAN站点中进行了说明:https ://cran.r-project.org/web/packages/mclust/vignettes/mclust.html 另外,mclust软件包的作者在第5页的基于模型的分类方法:使用化学计量学中的mclust软件中对此进行了记录。 “最佳”模型被认为是拟合模型中BIC最高的模型。 谁能在这个问题上大放异彩?如果较低的BIC总是更好,那么为什么作者不选择具有最低BIC的模型,而是选择具有最小绝对BIC的模型?如果可能,请提供参考。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
两种高斯混合物之间的距离以评估聚类解
我正在运行一个快速仿真以比较不同的群集方法,并且目前遇到了尝试评估群集解决方案的障碍。 我知道各种验证指标(许多在R 中的cluster.stats()中找到),但是我假设如果估计的集群数量实际上等于集群的真实数量,则最好使用这些验证指标。我想保持一种能力,可以测量在原始模拟中未指定正确数量的聚类解决方案时聚类解决方案的性能(即,模拟为具有4个聚类的三个聚类解决方案模型数据的性能如何)解)。仅作为您的参考,对群集进行模拟以拥有相同的协方差矩阵。 我认为高斯的两种混合之间的KL散度将对实现有用,但是不存在封闭形式的解决方案(Hershey和Olson(2007年)),实现蒙特卡洛模拟的计算开始变得昂贵。 是否还有其他可能易于实现的解决方案(即使只是一个近似值)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.