Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
受限制的玻尔兹曼机回归?
我正在跟我先前在RBM上提出的问题进行跟进。我看到很多描述它们的文献,但是没有一篇真正地谈到回归(甚至没有带有标记数据的分类)。我感觉它仅用于未标记的数据。是否有处理回归的资源?还是像在隐藏层之上添加另一层并上下运行CD算法那样简单?在此先感谢。

3
如何在具有高多重共线性的线性回归中处理不稳定的
具有高多重共线性的线性回归中的Beta稳定性? 假设在线性回归中,变量和x 2具有较高的多重共线性(相关系数约为0.9)。X1个x1x_1X2x2x_2 我们担心系数的稳定性,因此我们必须处理多重共线性。ββ\beta 教科书的解决方案是只丢弃一个变量。 但是我们不想仅仅丢弃变量就失去有用的信息。 有什么建议?

2
为什么在伯努利参数上使用beta分布进行分层逻辑回归?
我目前正在阅读Kruschke出色的“做贝叶斯数据分析”书。但是,有关分层逻辑回归的章节(第20章)有些令人困惑。 图20.2描述了分层逻辑回归,其中伯努利参数被定义为通过S型函数转换的系数的线性函数。我在其他在线资源中也看到了大多数示例,这似乎是构成分层逻辑回归的方式。例如-http: //polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug 但是,当预测变量是名义变量时,他在层次结构中添加了一层-Bernoulli参数现在从beta分布中绘制(图20.5),其参数由mu和kappa确定,其中mu是系数线性函数的S形变换。 ,而kappa使用伽玛优先级。 这似乎是合理的,类似于第9章中的掷硬币示例,但是我不认为名义上的预测变量与添加beta分布有什么关系。在度量标准预测变量的情况下,为什么不这样做?为什么为名义预测变量增加了beta分布? 编辑:澄清我所指的模型。首先,具有指标预测变量的逻辑回归模型(之前没有beta)。这类似于分层逻辑回归的其他示例,例如上面的错误示例: ÿ一世〜伯努利(μ一世)μ一世= 信号(β0+ ∑ĴβĴXĴ 我)β0〜ñ(M0,Ť0)βĴ〜ñ(Mβ,Ťβ)yi∼Bernoulli⁡(μi)μi=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(Mβ,Tβ) y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\ 然后是带有名义预测变量的示例。在这里,我不太了解层次结构的“较低”级别的作用(将逻辑结果纳入二项式分析的beta中),以及为什么它应与度量示例有所不同。 ž一世〜斌(θ一世,N)θ一世〜Beta版(一个Ĵ,bĴ)一个Ĵ= μĴκbĴ= (1 - μĴ)κκ 〜Γ (小号κ,Rκ)μĴ= 信号(β0+ ∑ĴβĴXĴ 我)β0〜ñ(M0,Ť0)βĴ〜ñ(0 ,τβ)τβ= 1 / σ2βσ2β〜折t(TŤ,d ˚F)zi∼Bin⁡(θi,N)θi∼Beta⁡(aj,bj)aj=μjκbj=(1−μj)κκ∼Γ(Sκ,Rκ)μj=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(0,τβ)τβ=1/σβ2σβ2∼folded …

3
在逻辑回归(或其他形式的回归)中测试非线性
Logistic回归的一种假设是logit中的线性。因此,一旦我建立了模型并开始运行,就可以使用Box-Tidwell测试来测试非线性。我的一个连续预测变量(X)对非线性进行了正面测试。我接下来该怎么办? 因为这违反了假设,所以我应该摆脱预测变量(X)或包括非线性变换(X * X)。还是将变量转换为分类变量?如果您有参考,也可以给我指出吗?

3
如何以并行/分布式方式运行线性回归以进行大数据设置?
我正在处理一个非常大的线性回归问题,数据量太大,以至于必须将它们存储在一组机器上。将所有样本聚合到一台计算机的内存(甚至磁盘)中将太大了 为了对这些数据进行回归,我正在考虑一种并行方法,即对每个单独的框进行回归,然后根据每个单独的beta的统计数据(可能是平均值或中位数)来计算beta。 这有意义吗 ?如果是的话,我应该如何获得预期的总R2R2R^2的每一个人R2R2R^2?

5
在回归分析中,交叉熵成本是否有意义?
在回归(相对于分类)的上下文中,交叉熵成本是否有意义?如果是这样,您可以通过TensorFlow给出一个玩具示例吗?如果没有,为什么不呢? 我正在阅读迈克尔·尼尔森(Michael Nielsen)的《神经网络和深度学习》中的交叉熵,它似乎可以自然地用于回归和分类,但是我不知道您如何在TensorFlow中有效地应用它。损失函数采用logit(我也不是很了解),它们在此处归类


4
在逻辑回归分析中,对于连续自变量,我应如何检查对数线性的假设?
我对逻辑回归分析中连续预测变量的logit线性假设感到困惑。在使用单变量logistic回归分析筛选潜在预测指标时,我们是否需要检查线性关系? 就我而言,我正在使用多元逻辑回归分析来确定参与者中与营养状况(二分结果)相关的因素。连续变量包括年龄,Charlson合并症评分,Barthel指数评分,握力,GDS评分,BMI等。我的第一步是使用简单的逻辑回归筛选重要变量。在每个连续变量的简单逻辑回归分析过程中,是否需要检查线性假设?还是应该在最终的多元逻辑回归模型中进行检查? 此外,据我了解,我们需要先将非线性连续变量转化为模型,然后再进行转换。我可以对非线性连续变量进行分类而不是进行转换吗?

1
高斯过程回归中的超参数调整
我正在尝试调整已实现的高斯过程回归算法的超参数。我只是想最大化由公式 ,其中K是与元素K_ {ij} = k(x_i,x_j)= b ^ {-1} \ exp(-\ frac {1} {2}(x_i-x_j)^ TM(x_i-x_j))+ a ^ {-1 } \ delta_ {ij}其中M = lI,而a,b和l是超参数。ķķ我Ĵ=ķ(X我,XĴ)=b-1个EXP(-1日志(y | X,θ)= − 12ÿŤķ− 1ÿy − 12日志(det (K))− n2日志(2 π)日志⁡(ÿ|X,θ)=-1个2ÿŤķÿ-1个ÿ-1个2日志⁡(t(ķ))-ñ2日志⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)ķķK中号=升我一个,b升ķ我Ĵ= k (x一世,XĴ)= b− 1经验值(− 12(x一世− xĴ)Ť中号(x一世− xĴ))+ 一个− 1δ我Ĵķ一世Ĵ=ķ(X一世,XĴ)=b-1个经验值⁡(-1个2(X一世-XĴ)Ť中号(X一世-XĴ))+一种-1个δ一世ĴK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}中号= 升余中号=升一世M=lI一,b一种,ba,b升升l 对数边际似然率wrt参数的偏导数由以下日志(y | X,θ)dθ= 12吨ř 一个Ç ë( …

4
高斯过程:如何使用GPML进行多维输出
有没有一种方法可以使用GPML对多维输出(可能是相关的)执行高斯过程回归? 在演示脚本中, 我只能找到一维示例。 关于CV 的类似问题,涉及多维输入的情况。 我浏览了他们的书,看看是否能找到任何东西。在本书的第9章(第9.1节)中,他们提到了这种多输出的情况。他们提到了几种解决方法,一种是使用相关的噪声处理,另一种是使用Cokriging(相关的先验)。 我还是不知道如何将所有这些想法整合到GPML框架中。 另外,还有其他支持多维输出的GP库/框架吗?

1
相互作用项和高阶多项式
如果我有兴趣拟合线性解释变量和与因变量具有二次关系的另一个解释变量之间的双向相互作用,我是否必须同时包括与二次分量的相互作用和与线性变量的相互作用模型中的组件?例如: 反过来在我之前的线程上构建: 曲率项和模型选择,如果这是在R中使用的模型选择分析,其中包含许多解释变量,则输出的模型包含交互项,其中包括二次项aaabbbyyyy∼a+b+b2+ab+ab2y∼a+b+b2+ab+ab2 y\sim a+b+b^2+ab+ab^2 MuMIna:b2a:b2a:b^2仅当在同一模型中还存在与线性成分的相互作用项以及,和作为直接效应时才有效吗?a:ba:ba:baaabbbb2b2b^2

1
线性回归中作为独立变量求和的解释比例
我熟悉分类变量的概念以及相应的伪变量编码,这些编码使我们能够将一个级别作为基线来避免共线性。我还熟悉如何从此类模型解释参数估计值:相对于基线类别,对于给定拟合类别的预测变量,结果的预测变化。 我不确定的是如何解释一组独立的变量,这些变量之和等于一个。如果我们将所有比例都拟合到模型中,我们将再次具有共线性,因此,我们大概必须将一类作为基线。我还假设我将使用III型SS对该变量的重要性进行整体测试。但是,我们如何解释模型中相对于基线的那些水平的参数估计呢? 一个示例:在邮政编码级别,自变量是变质岩,火成岩和沉积岩的比例。如您所知,这是三种主要的岩石类型,所有岩石都被分类为其中一种。这样,所有这三个部分的比例之和为1。结果是各个邮政编码中的平均ra水平。 例如,如果要拟合变质和火成岩比例作为模型中的预测因子,而以沉积物为基线,则通过对两个拟合水平的整体III型SS F-测试可以表明岩石类型总体上是否重要结果的预测因子(平均ra水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。 但是,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(摇滚类型)之间结果的预期变化,而且我不知道如何将它们按比例拟合这一事实纳入其中。 如果的变质估计值为例如0.43,则说明的不是简单的解释,即当岩石变质而沉积时,预测的平均the水平增加了0.43个单位。但是,这种解释也不只是简单地解释了变质岩类型比例的某种单位增加(例如0.1),因为这并没有反映出它也相对于基线(沉积物)以及变化的事实。变质的比例从本质上改变了火成岩模型中其他岩石水平拟合的比例。ββ\beta 有没有人提供提供这种模型的解释的资源,或者如果没有,您可以在这里提供一个简短的示例吗?

1
是个根本转变建议?
我的同事想在通过将响应变量提高到(即)的幂后,对一些数据进行分析。 ÿ0.1251818\frac18y0.125y0.125y^{0.125} 我对此感到不舒服,但努力阐明原因。我想不出这种转换的任何机械原理。我以前也从未看过它,我担心它可能会夸大I型错误率或某种程度-但我无力支持这些担忧! 另外,我的同事发现,在AIC比较中,这些转换后的模型优于未转换的模型。这本身是否可以证明其用途合理?

5
线性回归过时了吗?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 我目前正在参加线性回归课程,但我无法撼动自己的感觉,即我正在学习的内容不再与现代统计学或机器学习相关。当如今有这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花那么多时间进行简单或多元线性回归的推理?为什么不代之以关于更灵活,更现代的工具(如使用支持向量机或高斯过程进行回归)的推理呢?尽管比在空间中找到一架超飞机要复杂得多,但这不会为学生提供更好的背景来解决现代问题吗?

2
了解逻辑回归和可能性
参数估计/逻辑回归训练如何真正起作用?我将尽我所能。 输出是y的逻辑函数输出,其概率形式取决于x的值: P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} 对于一个维度,所谓的赔率定义如下: p(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1xp(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x{{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x} 现在添加log函数以线性形式获取W_0和W_1: Logit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x 现在到问题部分 使用似然性(Big X是y) 谁能说出为什么我们两次考虑y = 1的概率?由于: L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))P(y=0|x)=1−P(y=1|x)P(y=0|x)=1−P(y=1|x)P(y=0|x)=1-P(y=1|x) 以及如何从中得到ω的值?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.