Questions tagged «linear-model»

指任何模型,其中随机变量通过在有限数量的参数中呈线性的函数与一个或多个随机变量相关。

1
不当的线性模型什么时候才能变得强大美观?
问题: 是在实践中使用了不正确的线性模型,还是在科学期刊中不时描述了某种好奇心?如果是这样,它们在哪些领域使用? 还有其他此类模型的例子吗? 最后,对于此类模型,从OLS提取的标准误差,,R ^ 2等是否正确,还是应该以某种方式进行纠正?pppR2R2R^2 背景:文献中不时描述了不正确的线性模型。通常,此类模型可以描述为 y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon 是什么让他们回归不同的是,的是没有在模型中估计系数,但权重是wjwjw_j 等于每个变量(单位加权回归),wi=1wi=1w_i = 1 基于相关性(Dana and Dawes,2004),wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) 随机选择(Dawes,1979年), −1−1-1变量负相关,为正相关的变量(Wainer,1976)。1 yyyy111yyy 使用某种特征缩放也很常见,例如将变量转换为分数。因此,这种模型可以简化为单变量线性回归ZZZ y=a+bv+εy=a+bv+ε y = a + b v + \varepsilon 其中,并且可以使用OLS回归简单地估算。v=∑wixv=∑wixv = \sum w_i x 参考: Dawes,Robyn M.(1979)。决策中不适当线性模型的鲁棒性。美国心理学家,第34卷,第 571-582页。 …


1
使用百分位数作为预测变量-好主意吗?
我正在考虑一个问题,该问题是使用线性回归来预测客户的对数(支出)。 我正在考虑将哪些功能用作输入,并想知道将变量的百分位数用作输入是否可以。 例如,我可以将公司收入用作输入。我想知道的是,我是否可以使用公司收入百分比来代替。 另一个示例是分类行业分类器(NAICS)-如果我要查看每个NAICS代码的中位数支出,然后将每个NAICS代码分配给一个“ NAICS百分位数”,那将是我可以使用的有效解释变量吗? 只想知道使用百分位数时是否有任何需要注意的问题?它在某种程度上等同于一种要素缩放吗?

1
与线性动力系统有关的混乱
我正在读Bishop的这本书《模式识别和机器学习》。我对线性动力学系统的推导感到困惑。在LDS中,我们假定潜变量是连续的。如果Z表示潜在变量,X表示观测变量 p (žñ|žn − 1)= N(žñ| 一个žn − 1,τ)p(žñ|žñ-1个)=ñ(žñ|一个žñ-1个,τ)p(z_n|z_{n-1}) = N(z_n|Az_{n-1},\tau) p (Xñ|žñ)= N(Xñ,Cžñ,Σ )p(Xñ|žñ)=ñ(Xñ,Cžñ,Σ)p(x_n|z_n) = N(x_n,Cz_n,\Sigma) p (ž1个)= N(ž1个|ü0,V0)p(ž1个)=ñ(ž1个|ü0,V0)p(z_1) = N(z_1|u_0,V_0) 在LDS中,也使用alpha beta前向后向消息传递来计算后向潜在分布,即p (žñ| X)p(žñ|X)p(z_n|X) α (žñ)= p (x 1 ... x n ,žñ)α(žñ)=p(X1 ...Xñ,žñ)\alpha(z_n)=p(x1...xn,z_n) α^(žñ)= α (žñ)/ P(x 1 .... x n )α^(žñ)=α(žñ)/P(X1 ....Xñ)\hat\alpha(z_n) = \alpha(z_n)/P(x1....xn) 我的第一个问题在书中给出为 α^(žñ)= …


3
如何将系数项应用于线性方程中的因子和交互项?
使用R,我为来自连续和离散预测变量混合的单个响应变量拟合了线性模型。这是非常基础的,但是我很难理解离散因子的系数是如何工作的。 概念:显然,连续变量'x'的系数是以以下形式应用的,y = coefx(varx) + intercept但是如果该因子是非数值的,那么该因子对因子z怎么起作用?y = coefx(varx) + coefz(factorz???) + intercept 具体:我在R中拟合了一个模型,lm(log(c) ~ log(d) + h + a + f + h:a)其中h和f是离散的非数值因素。系数为: Coefficients: Estimate (Intercept) -0.679695 log(d) 1.791294 h1 0.870735 h2 -0.447570 h3 0.542033 a 0.037362 f1 -0.588362 f2 0.816825 f3 0.534440 h1:a -0.085658 h2:a -0.034970 h3:a -0.040637 我如何使用它们来创建预测方程: …

1
控制和治疗之间的差异应该显式还是隐式建模?
给出以下实验设置: 从受试者中采集多个样品,并对每个样品进行多种处理(包括对照治疗)。主要有趣的是对照和每种处理之间的差异。 我可以为这个数据想到两个简单的模型。以样本,处理,处理0为对照,令为数据,为样本的基线,为处理的差。第一个模型同时考虑了控制和差异:一世iiĴjjÿ我ĴYijY_{ij}γ一世γi\gamma_i一世iiδĴδj\delta_jĴjj ÿ我Ĵ=γ一世+δĴ+ϵ我ĴYij=γi+δj+ϵij Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij} δ0= 0δ0=0 \delta_0=0 虽然第二种模型仅着眼于差异。如果我们预先计算预先 然后 d我Ĵdijd_{ij}d我Ĵ=ÿ我Ĵ-ÿ我0dij=Yij−Yi0 d_{ij}=Y_{ij}-Y_{i0} d我Ĵ=δĴ+ε我Ĵdij=δj+εij d_{ij}=\delta_j+\varepsilon_{ij} 我的问题是这两种设置之间的根本区别是什么?尤其是,如果这些级别本身没有意义,而只有差异很重要,那么第一个模型是否做得太多并且动力不足?


4
线性回归中变量阶重要吗
我正在研究两个变量(和)之间的相互作用。这些变量之间存在很大的线性相关,其中。从问题的本质上,我无法说出因果关系(是否导致或相反)。我想研究与回归线的偏差,以发现异常值。为了做到这一点,我可以建立作为的函数的线性回归,或者。我选择的可变顺序会影响我的结果吗?X1个X1个x_1X2X2x_2r > 0.9[R>0.9r>0.9X1个X1个x_1X2X2x_2X1个X1个x_1X2X2x_2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.