Questions tagged «linear-model»

指任何模型,其中随机变量通过在有限数量的参数中呈线性的函数与一个或多个随机变量相关。

2
将多元线性模型转换为多元回归
将多元线性回归模型重铸为多元线性回归是否完全等效?我指的不是简单地运行单独的回归。ttt 我已经在几个地方(贝叶斯数据分析-Gelman等人,以及Multivariate Old School-Marden)中读到了这一点,可以很容易地将多元线性模型重新参数化为多元回归。但是,两个消息来源都没有对此进行详细说明。他们本质上只是提到它,然后继续使用多元模型。数学上,我将首先编写多元版本, Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 其中粗体变量是矩阵,其大小在其下方。和往常一样,是数据,是设计矩阵,是正态分布的残差,而是我们感兴趣的推理对象。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} 要将其重新参数化为熟悉的多元线性回归,只需将变量重写为: ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, 其中使用的重新参数化为y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) ,β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})和D=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()表示矩阵的行首尾相连排列成一个长向量,⊗⊗\otimes是kronecker或外部乘积。 …

1
拟合优度以及选择线性回归或泊松的模型
我需要针对我的研究中的两个主要难题提出一些建议,这是对三大制药和创新案例的研究。每年的专利数量是因变量。 我的问题是 好的模型最重要的标准是什么?什么更重要或更重要?是大多数还是所有变量都是有意义的?是“ F统计”的概率吗?它是“调整后的R平方”的值吗? 第二,如何确定最合适的研究模型?除了专利是​​计数变量(可能是泊松计数)之外,我还有一些解释性变量,例如资产回报率,研发预算,重复合伙人(不是二进制变量的百分比),公司规模(员工)等等。我应该做线性回归还是泊松?

1
R平方的条件期望
考虑简单的线性模型: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon 其中ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)和 X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p},和包含常数的列。p≥2p≥2p\geq2XXX 我的问题是,给定,和,是否存在 * 上非平凡上界的公式?(假设模型是由OLS估算的)。E(X′X)E(X′X)\mathrm{E}(X'X)ββ\betaσσ\sigmaE(R2)E(R2)\mathrm{E}(R^2) *我以书面形式假设,不可能获得本身。E(R2)E(R2)E(R^2) 编辑1 使用StéphaneLaurent派生的解决方案(见下文),我们可以得出的非平凡上界。一些数值模拟(如下)表明,这个界限实际上是很严格的。E(R2)E(R2)E(R^2) 斯特凡·洛朗(StéphaneLaurent)得到了以下: 其中是具有以下项的非中心Beta分布非中心参数与R2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda)B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)λλ\lambda λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} 所以 E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} 其中是具有参数和自由度的非中心。因此的非平凡上限是χ2k(λ)χk2(λ)\chi^2_{k}(\lambda)χ2χ2\chi^2λλ\lambdakkkE(R2)E(R2)\mathrm{E}(R^2) λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} 它非常紧(比我预期的要紧得多): 例如,使用: rho<-0.75 p<-10 n<-25*p Su<-matrix(rho,p-1,p-1) diag(Su)<-1 su<-1 set.seed(123) bet<-runif(p) 在1000次仿真中的平均值为。上面的理论上限给出。在许多值上,边界似乎同样精确。真令人震惊![R2R2R^20.9608190.9609081[R2R2R^2 编辑2: 经过进一步研究,似乎随着增加(与其他所有相等的情况,随增加),对的上限近似的质量会更好。λ + p λ ÑË(R2)E(R2)E(R^2)λ + pλ+p\lambda+pλλ\lambdañnn


2
为什么将T分布用于假设检验线性回归系数?
在实践中,通常使用标准的T检验来检验线性回归系数的显着性。计算的机制对我来说很有意义。 为什么可以使用T分布来建模线性回归假设检验中使用的标准检验统计量?我在这里指的是标准测试统计信息: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

2
为什么GLM与带有转换变量的LM不同
如本课程讲义(第1页)中所述,线性模型可以用以下形式编写: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中是响应变量, 是第说明变量。yyyxixix_{i}ithithi^{th} 通常以满足测试假设为目标,可以转换响应变量。例如,我们在每个上应用log函数。转换响应变量并不等同于执行GLM。yiyiy_i 可以采用以下形式编写GLM(再次从课程讲义中(第3页)) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中仅仅是另一个符号Ÿ当我从第2页,课程讲义理解。g()称为链接函数。uuuyyyg()g()g() 在课程中,我不太了解GLM和带有转换后的变量的LM之间的区别。你能帮我吗?

4
经典线性模型-模型选择
我有一个经典的线性模型,带有5个可能的回归变量。它们彼此不相关,并且与响应的相关性很低。我已经建立了一个模型,其中3个回归变量的t统计量具有显着系数(p <0.05)。对于添加的变量,将其余2个变量中的一个或两个相加得出t统计量的p值> 0.05。这使我相信3变量模型是“最佳”的。 但是,在R中使用anova(a,b)命令,其中a是3变量模型,b是完整模型,F统计量的p值<0.05,这表明我更喜欢完整模型而不是3变量模型。我该如何调和这些明显的矛盾? 谢谢PS编辑:一些进一步的背景。这是家庭作业,因此我将不发布细节,但是我们没有提供回归变量代表的详细信息-它们只是从1到5编号。我们被要求“推导适当的模型,给出理由”。

3
我们什么时候可以说共线性
在线性模型中,我们需要检查解释变量之间是否存在关系。如果它们之间的相关性太大,则存在共线性(即,变量在某种程度上相互解释)。我目前仅查看每个解释变量之间的成对相关性。 问题1: 什么被归类为太多的相关性?例如,皮尔逊相关系数是否为0.5? 问题2: 我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素? 问题3: 对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?

1
了解QR分解
我有一个可行的示例(在R中),我试图进一步理解。我正在使用Limma创建线性模型,并试图逐步了解倍数变化计算中发生的情况。我主要是想弄清楚如何计算系数。据我所知,QR分解用于获取系数,因此我本质上是在寻找一种解释或逐步查看正在计算的方程式的方法,或者在其中寻找qr()的源代码。 R自己追踪。 使用以下数据: expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, 0.0493831375210439, -0.30903829000185, -0.289604319193543, -0.110019942085281, -0.220289950537685, 0.0680403723818882, -0.210977291862137, 0.253649629045288, 0.0740109953273042, 0.115109148186167, 0.187043445057404, 0.705155251555554, 0.105479342752451, 0.344672919872447, …

5
我可以忽略线性模型中非重要因素水平的系数吗?
在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。 示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别? 更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?

2
VIF,条件索引和特征值
我目前正在评估数据集中的多重共线性。 以下/上方的VIF和条件指数的阈值表示什么问题? VIF: 我听说VIF 是一个问题。≥ 10≥10\geq 10 除去两个问题变量后,VIF是为每个变量。变量是否需要更多处理,或者这个VIF看起来还好吗?≤ 3.96≤3.96\leq 3.96 条件指数: 我听说条件指数(CI)为30或更大是一个问题。我的最高CI为16.66。这有问题吗? 其他问题: 还有其他需要考虑的事项吗? 还有其他需要记住的事情吗?

2
逻辑回归的矩阵符号
在线性回归(平方损失)中,使用矩阵,我们对目标有一个非常简洁的表示法 minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 其中AAA是数据矩阵,xxx是系数,bbb是响应。 Logistic回归目标是否有类似的矩阵符号?我见过的所有符号都不能消除所有数据点的总和(像∑dataLlogistic(y,βTx)∑dataLlogistic(y,βTx)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx))。 编辑:感谢joceratops和AdamO的出色回答。他们的回答使我意识到线性回归具有更简洁的表示法的另一个原因是因为规范的定义封装了平方和或。但是在逻辑损失中,没有这样的定义,这使表示法有点复杂。e⊤ee⊤ee^\top e

3
对于线性分类器,更大的系数是否意味着更重要的特征?
我是从事机器学习的软件工程师。根据我的理解,线性回归(例如OLS)和 线性分类(例如对数回归和SVM)基于已训练系数 和特征变量→ x之间的内积进行预测:w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 我的问题是:训练模型后(即在计算系数之后),对于对于模型更准确地预测更重要的特征变量,系数是否会变大?wiwiw_i 换句话说,我想问的是,仅通过按系数值对变量排序,然后选择系数最高的特征,是否可以将系数的相对大小用于特征选择?如果此方法有效,那么为什么不选择功能(以及包装器和过滤器方法等)。 我之所以这样问,是因为我遇到了关于L1与L2正则化的讨论。有一个说明说: 经常提到内置特征选择是L1规范的有用属性,而L2规范则没有。这实际上是L1范数的结果,它倾向于产生稀疏系数(如下所述)。假设该模型有100个系数,但其中只有10个具有非零系数,这实际上是在说“其他90个预测变量对预测目标值无用”。 在两行之间阅读时,我猜想如果系数接近0,则具有该系数的特征变量的预测力必须很小。 编辑:我也将z缩放应用于我的数字变量。

2
使用线性SVM混合连续数据和二进制数据?
因此,我一直在使用SVM,我想知道这是否是一件好事: 我有一组连续特征(0到1)和一组分类特征,这些特征已转换为虚拟变量。在这种情况下,我将测量日期编码为一个虚拟变量: 我有3个期间的数据,并为它们保留了3个特征号: 20:21:22: 因此,根据数据来自哪个周期,将为不同的功能分配1;其他人将获得0。 SVM是否可以与此同时正常工作,或者这是一件坏事? 我使用SVMLight和线性内核。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.