Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
轮廓函数有趣特征是否通过回归获得?
我假设使用回归的一般设置,即从族\ {h_ \ theta \} _ \ theta中选择一个连续函数h_ \ theta:X \至\ mathbb R ^ n以适合给定数据(x_i,y_i)根据某些自然标准,X乘以X乘以R ^ n,i = 1,\ ldots,k(X可以是任何空间,例如立方体[0,1] ^ m或实际上是任何合理的拓扑空间)。hθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n{hθ}θ{hθ}θ\{h_\theta\}_\theta(xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, kXXX[0,1]m[0,1]m[0,1]^m 是否有其中一个有兴趣的轮廓回归的应用h−1(y)h−1(y)h^{-1}(y)的hhh对于某些点y∈Rny∈Rny\in \mathbb R^n -例如零集合h−1(0)h−1(0)h^{-1}(0)? 我感兴趣的解释如下:由于在许多情况下,所学习的h_ \ theta都有不确定性hθhθh_\theta(数据的不精确或缺乏),因此人们可能想分析零集h−1(0)h−1(0)h^{-1}(0) “坚固”。即,研究h的所有“扰动”所共有的零集特征hhh。一个很好的了解已经非常一般设置在扰动最近开发fff可以任意连续映射接近hhh在ℓ∞ℓ∞\ell_\infty规范。或者,基本上等价地,fff是任意连续的,这样对于X中的每个x \,x∈Xx∈Xx\in X我们都有|f(x)−h(x)|≤c(x)|f(x)−h(x)|≤c(x)|f(x)-h(x)|\le c(x)其中c:X→Rc:X→Rc:X\to\mathbb R在每个x处给出一些置信度值xxx。 我们发展该理论和算法的主要动机是令人兴奋的数学背后(基本上所有问题/问题都归结为同伦理论)。但是,在当前阶段,为了进一步开发和实现算法,我们需要选择更具体的设置和目标。

1
使用k折CV的原始(?)模型选择
当使用k-fold CV在回归模型中进行选择时,我通常会针对每个模型及其标准误差SE分别计算CV误差,并且我会在CV误差最低的模型的1 SE中选择最简单的模型(1标准错误规则,请参见此处的示例)。但是,最近有人告诉我,这样我就高估了可变性,并且在选择两个模型A和B之间的特定情况下,我确实应该以不同的方式进行: 对于长度每个折叠,计算两个模型预测之间的逐点差异。然后计算折叠KKKNKNKN_KMSDK=∑NKi=1(y^Ai−y^Bi)2NK−−−−−−−−−−−−−−−√MSDK=∑i=1NK(y^Ai−y^Bi)2NKMSD_K=\sqrt{\frac{\sum_{i=1}^{N_K}\left(\hat{y}_{Ai}-\hat{y}_{Bi}\right)^2}{N_K}} 像往常一样在折痕上平均,并将此CV差值误差(及其标准误差)用作泛化误差的估计量。MSDKMSDKMSD_K 问题: 你能理解这个吗?我知道使用CV错误作为广义错误的估计因素有理论上的原因(我不知道这些原因是什么,但我知道它们存在!)。我不知道使用此“差异” CV错误背后是否有理论上的原因。 我不知道这是否可以推广到两个以上模型的比较中。计算所有成对模型的差异似乎是冒险的(多次比较?):如果您拥有两个以上的模型,该怎么办? 编辑:我的公式是完全错误的,此处描述了正确的指标,而且复杂得多。好吧,我很高兴在盲目应用公式之前在这里问过!感谢@Bay帮助我理解他/她的启发性答案。所描述的正确方法是实验性的,因此我会坚持使用我信任的工作马,CV错误!

1
带拉普拉斯误差的线性回归
考虑线性回归模型: yi=xi⋅β+εi,i=1,…,n,yi=xi⋅β+εi,i=1,…,n, y_i = \mathbf x_i \cdot \boldsymbol \beta + \varepsilon _i, \, i=1,\ldots ,n, 其中εi∼L(0,b)εi∼L(0,b)\varepsilon _i \sim \mathcal L(0, b),即,具有000均值的拉普拉斯分布和bbb标度参数都是相互独立的。考虑未知参数\ boldsymbol \ beta的最大似然估计ββ\boldsymbol \beta: −logp(y∣X,β,b)=nlog(2b)+1b∑i=1n|xi⋅β−yi|−log⁡p(y∣X,β,b)=nlog⁡(2b)+1b∑i=1n|xi⋅β−yi| -\log p(\mathbf y \mid \mathbf X, \boldsymbol \beta, b) = n\log (2b) + \frac 1b\sum _{i=1}^n |\mathbf x_i \cdot \boldsymbol \beta - y_i| 从其中 …

1
为什么不能使用相同的方法估算线性和逻辑回归系数?
我在一本机器学习书中读到,可以通过梯度下降来估算线性回归的参数(以及其他方法),而逻辑回归的参数通常是通过最大似然估计来估算的。 是否可以向新手(我)解释为什么我们需要不同的线性/逻辑回归方法。aka为什么不使用MLE进行线性回归,为什么不使用梯度下降进行logistic回归?

3
回归系数的偏差方差折衷是什么?如何推导?
在本文中(仅使用误差对比度进行方差分量的贝叶斯推断,Harville,1974年),作者声称 成为“众所周知的线性回归 其中 (y- Xβ)′H− 1(y- Xβ)= (y- Xβ^)′H− 1(y- Xβ^)+ (β- β^)′(X′H− 1X)(β- β^)(ÿ-Xβ)′H-1个(ÿ-Xβ)=(ÿ-Xβ^)′H-1个(ÿ-Xβ^)+(β-β^)′(X′H-1个X)(β-β^)(y-X\beta)'H^{-1}(y-X\beta)=(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)ε 〜ñÿ= Xβ+ϵ,y=Xβ+ϵ,y=X\beta+\epsilon,ϵ∼N(0,H).ϵ∼N(0,H).\epsilon\sim\mathcal{N}(0, H). 这个怎么知名的?证明这一点的最简单方法是什么?


1
不当的线性模型什么时候才能变得强大美观?
问题: 是在实践中使用了不正确的线性模型,还是在科学期刊中不时描述了某种好奇心?如果是这样,它们在哪些领域使用? 还有其他此类模型的例子吗? 最后,对于此类模型,从OLS提取的标准误差,,R ^ 2等是否正确,还是应该以某种方式进行纠正?pppR2R2R^2 背景:文献中不时描述了不正确的线性模型。通常,此类模型可以描述为 y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon 是什么让他们回归不同的是,的是没有在模型中估计系数,但权重是wjwjw_j 等于每个变量(单位加权回归),wi=1wi=1w_i = 1 基于相关性(Dana and Dawes,2004),wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) 随机选择(Dawes,1979年), −1−1-1变量负相关,为正相关的变量(Wainer,1976)。1 yyyy111yyy 使用某种特征缩放也很常见,例如将变量转换为分数。因此,这种模型可以简化为单变量线性回归ZZZ y=a+bv+εy=a+bv+ε y = a + b v + \varepsilon 其中,并且可以使用OLS回归简单地估算。v=∑wixv=∑wixv = \sum w_i x 参考: Dawes,Robyn M.(1979)。决策中不适当线性模型的鲁棒性。美国心理学家,第34卷,第 571-582页。 …

1
如何对主成分应用回归来预测输出变量?
我从tutorial1,link1和link2了解了主成分分析的基础知识。 我有100个变量的数据集(包括输出变量Y),我想通过PCA将变量减少到40个,然后使用这40个变量预测变量Y。 问题1:在获取主成分并选择前40个成分之后,如果对其应用回归,则会得到一些适合数据的函数。但是如何根据原始数据预测变量Y?要预测变量YI的输入有(100-1)个变量,我如何知道要从原始的100-1变量中选择哪个40个变量? 问题2:我将PCA反转了,并从那40个主要组件中获取了数据。但是数据发生了变化,因为我只选择了前40个组件。将回归应用于这些数据是否有意义? 我使用Matlab /八度。
9 regression  pca 

1
如何使用方差分析进行两个模型的比较?
anova比较两个模型时应如何理解结果? 例: Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 54.032 2 7 4.632 2 49.4 37.329 0.0001844 *** 该手册页指出:“为一个或多个拟合模型对象计算方差(或偏差)表的分析”。但是,一位教授提到,可以将其用于模型比较-这就是我打算做的。 因此,我假设我可以使用anova(model1, model2)并获得一个p值,该值告诉我是否应该拒绝原假设:“模型相同”。 我是否可以说,如果p值小于(比如说)0.05,则模型存在显着差异?
9 r  regression  anova 

1
对回归变量进行条件处理与将其视为固定条件有什么区别?
有时我们假设回归变量是固定的,即它们是非随机的。我认为这意味着我们所有的预测变量,参数估计等都是无条件的,对吧?我什至可能已经不再是随机变量了吗? 另一方面,如果我们接受经济学家所说的大多数回归变量是随机的,因为没有外界的力量在进行某种实验的基础上就决定了它们。然后,计量经济学家会根据这些随机回归变量进行调整。 这与将它们视为固定的有何不同? 我了解什么是调节。从数学上讲,这意味着我们将所有观察和推论都以该组特定的回归器为条件,并且没有雄心勃勃地说,如果我们看到回归器的实现不同,则推论,参数估计,方差估计等将是相同的。时间序列的症结所在,每个时间序列只能看到一次)。 但是,要真正掌握固定回归变量与随机回归变量的条件之间的区别,我想知道这里是否有人知道一个对固定回归变量有效但在随机回归时会分解的估计或推断过程的示例视情况而定)。 我期待看到这些示例!

2
回归结果具有意外的上限
我尝试预测平衡得分,并尝试了几种不同的回归方法。我注意到的一件事是,预测值似乎具有某种上限。也就是说,实际余额为,但我的预测顶部约0.8。下图显示了实际余额与预测余额(通过线性回归预测):[ 0.0 ,1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 这是相同数据的两个分布图: 由于我的预测变量非常偏斜(具有幂律分布的用户数据),因此我应用了Box-Cox转换,将结果更改为以下内容: 尽管它改变了预测的分布,但仍然存在上限。所以我的问题是: 预测结果出现上限的可能原因是什么? 如何确定与实际值的分布相对应的预测? 奖励:由于Box-Cox转换后的分布似乎遵循转换后的预测变量的分布,因此这可能直接相关吗?如果是这样,我是否可以应用一种转换以使分布适合实际值? 编辑:我使用了5个预测变量的简单线性回归。

3
R季节性时间序列
我在中使用该decompose函数,R并提出了我每月时间序列的3个组成部分(趋势,季节性和随机性)。如果我绘制图表或查看表格,则可以清楚地看到时间序列受季节的影响。 但是,当我将时间序列回归到11个季节性虚拟变量时,所有系数都不具有统计显着性,表明没有季节性。 我不明白为什么我要得出两个截然不同的结果。有人发生过这种事吗?难道我做错了什么? 我在这里添加一些有用的细节。 这是我的时间序列以及相应的每月更改。在两个图表中,您都可以看到有季节性(或者这就是我想评估的)。特别是,在第二张图表(该系列的每月变化)中,我可以看到一个反复出现的模式(一年中相同月份的高点和低点)。 下面是该decompose函数的输出。我很欣赏@RichardHardy所说的,该函数不会测试是否存在实际的季节性。但是分解似乎证实了我的想法。 但是,当我对11个季节性虚拟变量(1月至11月,不包括12月)的时间序列进行回归时,会发现以下内容: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5144454056 372840549 13.798 <2e-16 *** Jan -616669492 527276161 -1.170 0.248 Feb -586884419 527276161 -1.113 0.271 Mar -461990149 527276161 -0.876 0.385 Apr -407860396 527276161 -0.774 0.443 May -395942771 527276161 -0.751 0.456 Jun -382312331 527276161 -0.725 0.472 …

1
在物流回归中使用“预测”一词有多公平?
我的理解是,即使回归也不能给出因果关系。它只能给出y变量和x变量以及可能的方向之间的关联。我对么?即使在大多数课程教科书和在线的各种课程页面上,我也经常发现类似于“ x预测y”的短语。您通常将回归变量称为预测变量,将y称为响应。 将其用于线性回归有多公平? 逻辑回归如何?(如果我确实有一个阈值t,可以与之比较概率?)


3
仅根据相关总数估算一袋水果的质量?
我大学的一位老师提出了一个这样的问题(由于上课已经结束,所以我不参加家庭作业,所以不打算做作业)。我不知道该怎么办。 问题涉及2个袋子,每个袋子中包含各种不同种类的水果: 第一个袋子包含以下随机选择的水果: + ------------- + -------- + --------- + | 直径厘米| 质量g | 烂?| + ------------- + -------- + --------- + | 17.28 | 139.08 | 0 | | 6.57 | 91.48 | 1 | | 7.12 | 74.23 | 1 | | 16.52 | 129.8 | 0 | …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.