Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

4
认为问题非常适合线性回归
我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。 我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。 经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。

2
将机器学习问题转化为回归框架
假设我有一组解释变量,其中,,还有二进制结果相关变量的向量。因此,仅在最后时间观察到,而在任何更早的时间观察不到完全一般的情况下是有多个为为每个单元在每个时间,但让我们集中在壳体为简洁。 i = 1 。。。N t =1 。。。T Y i T Y T X i j t j = 1 ... K i t K = 1XitXitX_{it}i=1...Ni=1...Ni = 1 ... Nt=1...Tt=1...Tt = 1 ... TYiTYiTY_{iT}YYYTTTXijtXijtX_{ijt}j=1...Kj=1...Kj=1...KiiitttK=1K=1K=1 具有时间相关的解释变量的“不平衡”对的应用例如(每日股票价格,季度股息),(每日天气报告,年度飓风)或(每次移动后的棋盘位置特征,赢/输结果)游戏结束)。(X,Y)(X,Y)(X, Y) 我对(可能非线性)回归系数做预测的,知道在训练数据中,给定的早期观察为它会导致最终结果βtβt\beta_t X 我吨吨&lt; Ť ÿ 我ŤYitYitY_{it}XitXitX_{it}t&lt;Tt&lt;Tt < TYiTYiTY_{iT} Y^it=f(∑tk=1Xikβk),t=1...TY^it=f(∑k=1tXikβk),t=1...T\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), …


3
了解用于线性回归的高斯基函数参数
我想将高斯基函数应用到线性回归实现中。不幸的是,我很难理解基本函数中的几个参数。特别是和。μμ\muσσ\sigma 我的数据集是10,000 x 31矩阵。10,000个样本和31个功能。我已经读过“每个基函数将输入向量x转换为标量值”。所以我假设x是1个样本,所以是1 x 31向量。从这里我很困惑。参数到底是什么?我已经读到,这支配着基本函数的位置。那这不是什么意思吗?我也被下标j(和)所,这让我想到了第j行。但这似乎没有道理。是载体?现在为μjμj\mu_jμμ\muϕϕ\phiμjμj\mu_jσσ\sigma“控制空间规模”。那到底是什么 我已经看到一些实现对此参数尝试使用.1,.5、2.5之类的实现。这些值如何计算?我一直在进行研究并寻找可以学习的例子,但到目前为止我还没有找到任何例子。任何帮助或指示将不胜感激!谢谢。

2
正态分布的X和Y是否更有可能导致正态分布的残差?
这里讨论了线性回归中对正态性假设的误解(“正态性”是指X和/或Y而不是残差),并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。 我的问题是:正态分布的X和Y 更有可能导致正态分布的残差吗?有很多相关的帖子,但是我不相信有人会问这个问题。 我意识到,如果只进行一次回归,那么这也许是微不足道的,但是如果有多个测试,那么就不那么重要了。假设我有100个X变量,且所有变量具有相同的偏斜度,我想测试所有这些变量。如果我将它们全部转换为正态分布,那么由于非正态分布的残差,我可能需要较少的X变量进行重新检验(具有不同/无转换),或者回归前的转换是完全任意的吗?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds &lt;- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
我们可以在预测间隔内做出概率陈述吗?
我已经阅读了该站点上有关置信区间和预测区间解释的许多精彩讨论,但是其中一个概念仍然有些令人费解: 考虑OLS框架,我们已经获得了拟合模型。给我们一个并要求预测它的响应。我们计算,作为奖励,我们还围绕我们的预测提供了95%的预测间隔,从而获得了线性模型中预测极限的公式。我们将此预测间隔称为PI。y^=Xβ^y^=Xβ^\hat y = X\hat\betax∗x∗x^*x∗Tβ^x∗Tβ^x^{*T}\hat\beta 现在,以下哪个(或两个都不是)对PI的正确解释是正确的? 特别是对于,位于PI内的可能性为95%。x∗x∗x^*y(x∗)y(x∗)y(x^*) 如果给我们大量的 s,则此计算PI的过程将覆盖95%的真实响应。xxx 从线性回归预测间隔中的 @gung的措辞来看,似乎前者是正确的(尽管我很可能会误解。)解释1对我来说似乎是违反直觉的(在某种意义上,我们是从频繁分析中得出贝叶斯结论的)。如果它是正确的,是不是因为我们预测实现了的随机变量与估计一个参数? (编辑)奖金问题:假设我们知道真正的是什么,即生成数据的过程,那么我们可以讨论任何特定预测的概率,因为我们只是查看吗?ββ\betaϵϵ\epsilon 我对此的最新尝试:我们可以将预测间隔“概念上分解”(非常宽松地使用)分为两部分:(A)围绕预测均值响应的置信区间,以及(B)只是分位数的间隔集合误差项的范围。(B)我们可以在知道真实的预测均值的前提下做出概率陈述,但总体而言,我们只能将预测区间视为围绕预测值的频繁CI。这有点正确吗?


4
回归残差分布假设
为什么有必要将分布假设置于误差上,即 ,具有 ε 我〜Ñ(0 ,σ 2)。ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ϵ一世〜ñ(0 ,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) 为什么不写 ,与 ÿ 我〜Ñ(X β,σ 2),ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ÿ一世〜ñ(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) 其中在任一情况下。 我已经看到它强调指出分布假设是基于错误而不是数据,但没有解释。 ϵ一世= y一世- ÿ^ϵi=yi−y^\epsilon_i = y_i - \hat{y} 我不太了解这两种说法之间的区别。在某些地方,我看到分布假设被放置在数据上(贝叶斯照明。它似乎主要是),但是大多数情况下,假设被放置在错误上。 在建模时,为什么/应该选择一个假设还是另一个假设开始?

1
信息从帽子矩阵中进行逻辑回归
对我来说很明显,并且在多个位置上都有很好的解释,帽子矩阵对角线上的值为线性回归提供了哪些信息。 对我来说,逻辑回归模型的帽子矩阵不太清楚。它与您通过线性回归从帽子矩阵中获得的信息相同吗?这是我在CV的另一个主题(源1)上发现的hat矩阵的定义: H=VX(X′VX)−1X′VH=VX(X′VX)−1X′VH=VX ( X'V X)^-1 X' V 其中X为预测变量的向量,V为的对角矩阵(π(1−π))−−−−−−−−√(π(1−π))\sqrt{(π(1−π))}。 换句话说,观察的帽子矩阵的特定值是否也只是表示协变量在协变量空间中的位置,而与该观察的结果值无关吗? 这写在Agresti的《分类数据分析》一书中: 观测值的杠杆越大,其对拟合的潜在影响就越大。与普通回归一样,杠杆率介于0到1之间,并且等于模型参数的数量。与普通回归不同,帽子值取决于拟合以及模型矩阵,具有极高预测值的点不需要具有高杠杆作用。 因此,超出这个定义,似乎不能像在普通线性回归中那样使用它? 来源1:如何计算R中逻辑回归的帽子矩阵?

1
当因变量具有“截止”时建模
如果我使用的任何术语不正确,请提前道歉。我欢迎任何纠正。如果我所说的“截断”使用不同的名称,请告诉我,我可以更新问题。 我感兴趣的情况是:您有自变量和一个因变量。我将保持模糊,但是假设为这些变量获得良好的回归模型将相对简单。xx\bf{x}yyy 但是,您要创建的模型是针对自变量xx\bf{x}和因变量w=min(y,a)w=min(y,a)w = \min(y,a),其中aaa是y范围内的某个固定值yyy。同样,您有权访问的数据不包含yyy,仅包含www。 一个(有些不切实际的)例子是,如果您试图模拟人们将领取养老金的年限。在这种情况下,xx\bf{x}可能是相关信息,例如性别,体重,每周运动时间等。“基本”变量yyy是预期寿命。但是,您可以访问并试图在模型中预测的变量将是w=min(0,y−r)w=min(0,y−r)w = \min(0, y-r),其中r是退休年龄(为简单起见,它是固定的)。 在回归建模中是否有解决此问题的好方法?

5
递归(在线)正则化最小二乘算法
谁能指出我的Tikhonov正则化(正则化最小二乘)在线(递归)算法的方向吗? 在离线环境,我将计算β = (X Ť X + λ我)- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť β。β^= (XŤX+ λ我)− 1XŤÿβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλÿyyXxxÿ= xŤβ^y=xTβ^y=x^T\hat\beta 在在线设置中,我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算(原件+新)?β^β^\hat\beta

2
为什么有些人在原始数据上测试类似回归模型的假设,而另一些人在残差上测试它们呢?
我是实验心理学的博士生,我努力提高自己的技能和知识,以分析数据。 在我进入心理学的五年级之前,我一直认为类似回归的模型(例如ANOVA)假设以下内容: 数据的正态性 数据的方差同质性等等 我的本科课程使我相信这些假设与数据有关。但是,在我五年级的时候,我的一些讲师强调了这样一个事实,即假设是关于误差(由残差估计)的,而不是原始数据。 最近,我与一些同事谈论假设问题,他们也承认,他们发现只有在大学的最后几年才检查残差假设的重要性。 如果我了解得很好,类似回归的模型将对误差做出假设。因此,检查残差的假设是有意义的。如果是这样,为什么有人检查原始数据的假设?是否因为这样的检查程序近似于我们通过检查残差而获得的结果? 我会与一些比我和我的同事更准确的知识的人就这个问题进行讨论。我在此先感谢您的回答。

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

2
每级1个观察值的混合模型
我正在glmer为一些业务数据拟合随机效应模型。目的是分析分销商的销售业绩,并考虑到地区差异。我有以下变量: distcode:发行商ID,大约有800个级别 region:顶级地理ID(北,南,东,西) zone:嵌套在中层地理区域内region,总共约30个层级 territory:嵌套在zone约150层中的低层地理 每个分销商仅在一个地区运营。棘手的部分是这是汇总数据,每个分发服务器只有一个数据点。因此,我有800个数据点,尽管有规律地尝试,但我试图(至少)容纳800个参数。 我已经安装了一个模型,如下所示: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) 尽管可以打印出注释,但运行没有问题: 随机效应的分组因子的级别数等于 n,即观察数 这是明智的做法吗?我得到了所有系数的有限估计,而且AIC也不是不合理的。如果我尝试使用带身份链接的泊松GLMM,则AIC会更糟,因此日志链接至少是一个不错的起点。 如果我绘制拟合值与响应的关系图,我得到的基本上是完美拟合,我猜这是因为每个分配器有一个数据点。那合理吗,还是我做的事完全愚蠢? 这正在使用一个月的数据。我可以获取多个月的数据并以这种方式进行一些复制,但是我必须添加新的术语来表示逐月的变化以及可能的交互作用,对吗? ETA:我再次运行了上面的模型,但是没有family参数(所以只是一个高斯LMM而不是GLMM)。现在lmer给我以下错误: (函数(fr,FL,start,REML,verbose)中的错误:用于随机效应的分组因子的数量级必须小于观察值的数量 因此,我想我做的事情不明智,因为改变家庭不会产生影响。但是现在的问题是,为什么它首先起作用?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.