Questions tagged «statistical-learning»

机器学习算法可建立训练数据模型。术语“机器学习”含糊其词;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


2
为什么将岭回归称为“岭”,为什么需要它,当达到无穷大时会发生什么?
岭回归系数估计是使β^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 我的问题是: 如果,那么我们看到上面的表达式简化为通常的RSS。如果怎么办?我不理解教科书中有关系数行为的解释。λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty 为了帮助理解特定术语背后的概念,为什么将该术语称为RIDGE回归?(为什么要使用ridge?)通常/常见回归可能有什么问题,需要引入一个称为ridge回归的新概念? 您的见解会很棒。

3
有监督的聚类或分类?
第二个问题是,据我所知,我在网络上某处的讨论中发现“有监督的聚类”,而聚类是无监督的,那么“有监督的聚类”的确切含义是什么?关于“分类”有什么区别? 有很多链接在谈论这一点: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 等...


1
为什么我们要讨论不同拓扑中不同估计量的收敛行为?
在《代数几何与统计学习理论》一书的第一章中,讨论了不同函数空间中的估计的收敛性,其中提到贝叶斯估计对应于Schwartz分布拓扑,而最大似然估计对应于超范数拓扑(第7页): 例如sup-norm, -norm,希尔伯特空间弱拓扑,Schwartz分布拓扑等。是否收敛成立,很大程度上取决于函数空间的拓扑。贝叶斯估计对应于Schwartz分布拓扑,而最大似然或后验方法对应于超范数。这种差异会强烈影响单一模型的学习结果。大号p大号pL^p大号2大号2L^2ķñ( w )→ K( w )ķñ(w)→ķ(w)K_n(w)\to K(w) 其中和分别是真实模型与参数模型(参数)之间的经验KL散度(观测值之和)和真实KL散度(数据分布的总和)。Kn(w)Kn(w)K_n(w)K(w)K(w)K(w)www 谁能解释一下,或暗示我书中哪个地方有道理?谢谢。 更新:版权内容已删除。

2
变量向量如何表示超平面?
我正在阅读《统计学习的要素》,在第12页(第2.3节)中,将线性模型表示为: Yˆ=XTβˆY^=XTβ^\widehat{Y} = X^{T} \widehat{\beta} ...其中是预测变量/自变量/输入的列向量的转置。(它前面指出“所有矢量都假定为列矢量”,所以这不是使成为行矢量,而成为列矢量吗?) X 牛逼βXTXTX^{T}XTXTX^{T}βˆβ^\widehat{\beta} 包含一个“ ”,将其与对应的系数相乘,得出(恒定)截距。1XXX111 它继续说: 在维输入-输出空间中,表示一个超平面。如果常量包含在,则超平面包括原点,并且是子空间;如果不是,则为仿射集,在点处切割轴 。(X ,ÿ)X Ý (0 ,^ β 0)(p+1)(p+1)(p + 1)(X, Yˆ)(X, Y^)(X,\ \widehat{Y})XXXYYY(0, β0ˆ)(0, β0^)(0,\ \widehat{\beta_0}) “ ”是否描述了由预测变量,截距的“ ”和串联而成的向量?为什么在中包含“ ”会迫使超平面通过原点,并确保将“ ”与相乘?1 Ÿ 1 X 1 ^ β 0(X, Yˆ)(X, Y^)(X,\ \widehat{Y})111YˆY^\widehat{Y}111XXX111β0ˆβ0^\widehat{\beta_0} 我听不懂这本书。任何帮助/建议/资源链接将不胜感激。

1
泊松分布数据的逻辑回归
从一些机器学习笔记中讨论了一些区分性分类方法,特别是逻辑回归,其中y是类标签(0或1),而x是数据,据说: 如果x|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0),并且x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1),则p(y|x)p(y|x)p(y|x)将是逻辑对数。 为什么会这样呢?

1
将2类模型扩展到多类问题
关于Adaboost的这篇论文提出了一些建议和代码(第17页),以将2类模型扩展到K类问题。我想对此代码进行概括,以便我可以轻松地插入不同的2类模型并比较结果。由于大多数分类模型都具有公式界面和predict方法,因此其中某些应该相对容易。不幸的是,我还没有找到从2类模型中提取类概率的标准方法,因此每个模型都需要一些自定义代码。 这是我编写的用于将K类问题分解为2类问题并返回K模型的函数: oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) names(models) <- unique(Y) info <- list(X=X, Y=Y, classes=unique(Y)) out <- list(models=models, info=info) class(out) <- 'oneVsAll' return(out) } 这是我编写的一种预测方法,用于遍历每个模型并进行预测: predict.oneVsAll <- …

1
澄清信息几何
此问题与Amari撰写的《弯曲指数家庭的微分几何-曲率和信息损失》有关。 全文如下。 令是具有坐标系统的维概率分布流形,其中假设 ...Sn={pθ}Sn={pθ}S^n=\{p_{\theta}\}nnnθ=(θ1,…,θn)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)pθ(x)>0pθ(x)>0p_{\theta}(x)>0 我们可以把每一个点的作为承载功能的 ...θθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxx 让是切空间在,这一点,粗略地说,有一小附近的线性化版本标识在。令是与协调系统关联的的自然基础...TθTθT_{\theta}SnSnS^nθθ\thetaθθ\thetaSnSnS^nei(θ),i=1,…,nei(θ),i=1,…,ne_i(\theta), i=1,\dots,nTθTθT_{\theta} 由于每个点的携带功能的,很自然地认为在作为表示函数θθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxxei(θ)ei(θ)e_i(\theta)θθ\thetaei(θ)=∂∂θilogpθ(x).ei(θ)=∂∂θilog⁡pθ(x).e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x). 我不明白最后的陈述。这出现在上述论文的第2节中。上式如何给出切线空间的基础?如果该社区中熟悉此类材料的某人可以帮助我理解这一点,将会很有帮助。谢谢。 更新1: 尽管我同意(来自@aginensky),如果是线性独立的,则由于它们也是线性独立的,所以这些切线空间的成员首先是如何的还不是很清楚。因此如何将视为切线空间的基础。任何帮助表示赞赏。∂∂θipθ∂∂θipθ\frac{\partial}{\partial\theta_i}p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta} 更新2: @aginensky:Amari在他的书中说: 让我们考虑以下情况:,上所有(严格)正概率度量的集合,其中我们将视为。实际上,是仿射空间一个开放子集。Sn=P(X)Sn=P(X)S^n=\mathcal{P}(\mathcal{X})X={x0,…,xn}X={x0,…,xn}\mathcal{X}=\{x_0,\dots,x_n\}P(X)P(X)\mathcal{P}(\mathcal{X})RX={X∣∣X:X→R}RX={X|X:X→R}\mathbb{R}^{\mathcal{X}}=\{X\big|X:\mathcal{X}\to \mathbb{R}\}P(X)P(X)\mathcal{P}(\mathcal{X}){X∣∣∑xX(x)=1}{X|∑xX(x)=1}\{X\big |\sum_x X(x)=1\} 然后切空间的每一点可以自然地与所确定的线性子空间。对于coordiante系统的自然基础,我们有。Tp(Sn)Tp(Sn)T_p(S^n)SnSnS^nA0={X∣∣∑xX(x)=0}A0={X|∑xX(x)=0}\mathcal{A}_0=\{X\big |\sum_x X(x)=0\}∂∂θi∂∂θi\frac{\partial}{\partial\theta_i}θ=(θ1,…,θn)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)(∂∂θi)θ=∂∂θipθ(∂∂θi)θ=∂∂θipθ(\frac{\partial}{\partial\theta_i})_{\theta}=\frac{\partial}{\partial\theta_i}p_{\theta} 接下来,就让我们再嵌入,并确定与该亚群的。的切线矢量然后通过操作的结果表示到,我们通过表示。特别是,我们有。显然和 p↦logpp↦log⁡pp\mapsto \log pSnSnS^nlogSn:={logp∣∣p∈Sn}log⁡Sn:={log⁡p|p∈Sn}\log S^n:=\{\log p\big |p\in S^n\}RXRX\mathbb{R}^{\mathcal{X}}X∈Tp(Sn)X∈Tp(Sn)X\in T_p(S^n)XXXp↦logpp↦log⁡pp\mapsto \log pX(e)X(e)X^{(e)}(∂∂θi)(e)θ=∂∂θilogpθ(∂∂θi)θ(e)=∂∂θilog⁡pθ(\frac{\partial}{\partial\theta_i})_{\theta}^{(e)}=\frac{\partial}{\partial\theta_i}\log p_{\theta}X(e)=X(x)/p(x)X(e)=X(x)/p(x)X^{(e)}=X(x)/p(x)T(e)p(Sn)={X(e)∣∣X∈Tp(Sn)}={A∈RX∣∣∑xA(x)p(x)=0}.Tp(e)(Sn)={X(e)|X∈Tp(Sn)}={A∈RX|∑xA(x)p(x)=0}.T_p^{(e)}(S^n)=\{X^{(e)}\big |X\in T_p(S^n)\}=\{A\in \mathbb{R}^{\mathcal{X}}\big |\sum_x A(x)p(x)=0\}. 我的问题:如果和都是切线空间的基础,那么这不会与事实和是不同的和?∂∂θi∂∂θi\frac{\partial}{\partial\theta_i}(∂∂θi)(e)(∂∂θi)(e)(\frac{\partial}{\partial\theta_i})^{(e)}TpTpT_pT(e)pTp(e)T_p^{(e)}∂∂θi(e)∈T(e)p∂∂θi(e)∈Tp(e)\frac{\partial}{\partial\theta_i}^{(e)}\in T_p^{(e)} 我猜想()和之间似乎存在关联。如果您可以澄清这一点,将有很大帮助。您可以给出答案。Sn,TpSn,TpS^n,T_p(logSn,T(e)p)(log⁡Sn,Tp(e))(\log S^n,T_p^{(e)})

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.