Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。

2
如何选择最佳变换以实现线性?
我想进行多元线性回归,然后以很少的推算来预测新值。我的响应变量的范围是-2到+7,并且有三个预测变量(范围是+10-+200)。分布几乎是正常的。但是响应和预测变量之间的关系不是线性的,我在图中看到了曲线。例如这样的例子:http : //cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg 我想应用变换来实现线性。我尝试通过检查不同的函数并查看生成的图来变换响应变量,以查看响应和预测变量之间的线性关系。而且我发现有很多函数可以给我可见的线性关系。例如功能 t1=log(y+2.5)t1=log⁡(y+2.5)t_1=\log(y+2.5) t2=1log(y+5)t2=1log⁡(y+5)t_2=\frac{1}{\log(y+5)} t3=1y+5t3=1y+5t_3=\frac{1}{y+5} t4=1(y+10)3t4=1(y+10)3t_4=\frac{1}{(y+10)^3} t5=1(y+3)13t5=1(y+3)13t_5=\frac{1}{(y+3)^\frac{1}{3}}等给出类似的结果:http : //cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg 在我将预测值进行反变换之后(对于为等)。分布或多或少与正态分布相似。t=1(y+10)3t=1(y+10)3t=\frac{1}{(y+10)^3}y′=1t13−10y′=1t13−10y’=\frac{1}{t^\frac{1}{3}}-10 如何为数据选择最佳转换?是否存在定量(且不是很复杂)的线性度评估方法?证明所选的转换是最好的,或者在可能的情况下自动找到它。 还是唯一的方法是进行非线性多元回归?

3
线性模型异方差
我有以下线性模型: 为了解决残差的异方差性,我尝试对因变量应用log转换为但我仍然看到对残差具有相同的扇出效果。DV值相对较小,因此在这种情况下,取对数前的+1常数加法可能不合适。日志(是+ 1 )log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 如何转换变量以改善预测误差和方差,尤其是对于最右边的拟合值?

4
如何在线性回归中解释对数变换的系数?
我的情况是: 我已经对数转换了1个连续因变量和1个连续预测变量,以对它们的残差进行归一化,以进行简单的线性回归。 对于将这些转换后的变量与其原始上下文相关联的任何帮助,我将不胜感激。 我想使用线性回归来基于2010年缺勤的天数来预测2011年缺勤的天数。大多数学生缺勤0天或仅几天,数据正向左偏斜。因此,需要进行变换以使用线性回归。 我对两个变量都使用了log10(var + 1)(对于缺勤0天的学生使用+1)。我使用回归是因为我也想添加分类因素-性别/种族等。 我的问题是: 我想反馈给的听众不会理解log10(y)= log(constant)+ log(var2)x(坦率地说,我也不是)。 我的问题是: a)是否有更好的方法来解释回归中的转换变量?即在2010年永远错失1天,而在2011年错失2天,而在2010年永远错失1个日志单位,2011年是否错失x个日志单位? b)具体而言,鉴于此消息来源的引用语段如下: “这是数学标准化考试成绩每增加一个单位的负二项式回归估计,因为模型中的其他变量保持不变。如果学生将她的数学考试成绩提高一个点,则对数的对数差在使模型中的其他变量保持不变的同时,预期计数将减少0.0016单位。” 我想知道: 这句话是不是说UNTRANSFORMED变量数学分数的每增加一单位,常数(a)UNTRANSFORMED就会减少0.0016 ,那么如果数学分数上升两点,我就要从常数a减去0.0016 * 2? 这是否意味着我通过使用指数(a)和指数(a + beta * 2)来获得几何平均值,并且我需要计算这两者之间的百分比差,以说明预测变量的影响/有因变量? 还是我完全错了? 我正在使用SPSS v20。很抱歉在一个很长的问题中提出这个问题。

1
进行多元回归时,何时转换预测变量?
我目前正在研究生阶段上我的第一个应用线性回归课程,并且在多元线性回归中努力应对预测变量转换。我正在使用的文本Kutner等人的“应用的线性统计模型”似乎没有涵盖我所遇到的问题。(除了建议使用Box-Cox方法转换多个预测变量外)。 当面对一个响应变量和几个预测变量时,每个预测变量要努力满足什么条件?我了解我们最终正在寻找误差方差和正态分布误差的恒定性(至少在到目前为止所学的技术中)。我进行了许多练习,例如y ~ x1 + (1/x2) + log(x3),解决方案在哪里一个或多个预测变量发生了变化。 我很了解简单线性回归下的基本原理,因为很容易查看y〜x1和相关的诊断(残差的qq图,残差与y,残差与x等),并测试一下y〜log( x1)更符合我们的假设。 在了解许多预测变量的情况下,是否有一个开始了解何时转换预测变量的好地方? 先感谢您。马特

2
是否可以直接读取CSV列作为分类数据?
我需要使用R分析来自CSV格式的医学调查(带有100多个编码列)的数据。我将使用拨浪鼓进行一些初步分析,但在后台它仍然是R。 如果我读取.csv()文件,则将带有数字代码的列视为数字数据。我知道我可以使用factor()从它们创建分类列,但是要对100多个列执行此操作很麻烦。 我希望有一种更好的方法告诉R直接将列作为因素导入。或至少在以后将它们转换到位。 谢谢!

5
除了平方根,对数等普通转换外,还常用哪些其他归一化转换?
在测试成绩的分析中(例如在教育或心理学中),常用的分析技术通常会假设数据是正态分布的。但是,有时分数往往会与正常水平大相径庭。 我熟悉一些基本的规范化转换,例如:平方根,对数,用于减少正偏斜的倒数转换,用于减少负偏斜的上述反射形式,平方函数的平方。我听说过反正弦变换和幂变换,尽管我并不真正了解它们。 因此,我对分析师通常使用的其他转换感到好奇吗?

1
为什么我们不能使用
假设我们有一个线性回归模型,其因变量。我们发现它的。现在,我们进行另一个回归,但是这次是在,类似地找到它的。有人告诉我,我无法将两个进行比较,以查看哪种模型更合适。这是为什么?给我的原因是,我们将比较不同数量(不同因变量)的可变性。我不确定这是否是充分的理由。R 2 y log (y )R 2 log (y ) R 2yyyR2yRy2R^2_ylog(y)log⁡(y)\log(y)R2log(y)Rlog⁡(y)2R^2_{\log(y)}R2R2R^2 还有办法使它正式化吗? 任何帮助,将不胜感激。



2
转换订单统计
假设随机变量和是独立的并且是。证明Z_n = n \ log \ frac {\ max(Y _ {(n)},X _ {(n)})} {\ min(Y _ {(n)},X _ {(n)})}的\文本{Exp}(1)分发。X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) 我通过设置\ {X_1,...,X_n,Y_1,... Y_n \} = \ {Z_1,...,Z_n \}开始了这个问题,{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\}然后max(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)}分布为(za)2n(za)2n(\frac{z}{a})^{2n}而min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= Z_{(1)}分布为1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} 可以很容易地找到密度,因为fZ1(z)=(2n)(1−za)2n−11afZ1(z)=(2n)(1−za)2n−11af_{Z_{1}}(z) = (2n)(1-\frac{z}{a})^{2n-1}\frac{1}{a}和fZ(2n)(z)=(2n)(za)2n−11afZ(2n)(z)=(2n)(za)2n−11af_{Z_{(2n)}}(z) = (2n)(\frac{z}{a})^{2n-1} \frac{1}{a} 现在,在计算完这些之后,我很难知道下一步要去哪里。我以为它必须进行某种转换,但是我不确定...

2
回归结果具有意外的上限
我尝试预测平衡得分,并尝试了几种不同的回归方法。我注意到的一件事是,预测值似乎具有某种上限。也就是说,实际余额为,但我的预测顶部约0.8。下图显示了实际余额与预测余额(通过线性回归预测):[ 0.0 ,1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 这是相同数据的两个分布图: 由于我的预测变量非常偏斜(具有幂律分布的用户数据),因此我应用了Box-Cox转换,将结果更改为以下内容: 尽管它改变了预测的分布,但仍然存在上限。所以我的问题是: 预测结果出现上限的可能原因是什么? 如何确定与实际值的分布相对应的预测? 奖励:由于Box-Cox转换后的分布似乎遵循转换后的预测变量的分布,因此这可能直接相关吗?如果是这样,我是否可以应用一种转换以使分布适合实际值? 编辑:我使用了5个预测变量的简单线性回归。

1
使用LDA作为预处理步骤时的功能标准化
如果使用多类线性判别分析(或有时也阅读“多判别分析”)进行降维(或通过PCA进行降维后的变换),则我通常会理解为即使使用完全不同的比例尺测量功能也不需要,对吗?因为LDA包含类似于马哈拉诺比斯距离的术语,已经暗示了标准化的欧几里得距离? 因此,不仅没有必要,而且在LDA上标准化和非标准化功能的结果应该完全相同!

2
帮助我拟合此非线性多元回归方法,该回归方法已经克服了之前的所有努力
编辑:自从发布此帖子以来,我在这里还跟了一个额外的帖子。 以下是本文的摘要:我正在研究一个模型,并尝试了线性回归,Box Cox变换和GAM,但并没有取得太大进展 R目前,我正在使用模型来预测大联盟(MLB)级别的小联盟棒球运动员的成功。因变量,进攻职业生涯胜过替补球员(oWAR),是美国职业棒球大联盟(MLB)级别成功的代名词,用球员在其职业生涯中参与的每场比赛的进攻贡献总和来衡量(详细信息此处-http ://www.fangraphs.com/library/misc/war/)。自变量是z得分的小联盟进攻变量,用于统计数据,被认为是在大联盟级别取得成功的重要预测指标,包括年龄(年轻球员的成功率更高,他们的前景更好),淘汰率[SOPct ],步行率[BBrate]和调整后的产量(进攻性产品的全球量度)。另外,由于次要联赛有多个级别,因此我为次要联赛的比赛水平提供了虚拟变量(双A,高A,低A,新秀和短赛季,三A [主要联赛之前的最高水平]作为参考变量])。注意:我已经将WAR重新缩放为一个从0到1的变量。 变量散点图如下: 作为参考,因变量oWAR具有以下图表: 我从线性回归开始,oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason获得了以下诊断图: 存在明显的问题,即缺乏残差的无偏性和缺乏随机变化。此外,残差不正常。回归结果如下所示: 遵循上一个线程中的建议,我尝试了Box-Cox转换,但没有成功。接下来,我尝试了带有日志链接的GAM,并收到了以下图表: 原版的 新的诊断图 样条曲线似乎有助于拟合数据,但诊断图仍显示拟合差。编辑:我以为我原来是在看残差与拟合值,但我不正确。最初显示的图被标记为“原始”(上方),我后来上传的图被标记为“新诊断图”(也在上方) 的 [R2[R2R^2 模型的数量增加了 但是该命令产生的结果gam.check(myregression, k.rep = 1000)并不令人满意。 谁能建议该模型的下一步?我很高兴提供您认为可能对理解我到目前为止所取得的进步有用的任何其他信息。感谢您的任何帮助,您可以提供。

1
查找统计信息的分布
学习考试。无法回答这个问题。 令是iid随机变量。限定X1,i,X2,i,X3,i,i=1,…,nX1,i,X2,i,X3,i,i=1,…,nX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,nN(0,1)N(0,1)\mathcal{N}(0,1) Wi=(X1,i+X2,iX3,i)/1+X23,i−−−−−−−√,i=1,…,nWi=(X1,i+X2,iX3,i)/1+X3,i2,i=1,…,nW_i = (X_{1,i} + X_{2,i}X_{3,i})/\sqrt{1 + X_{3,i}^2}, i = 1, \ldots, n, 和,W¯¯¯¯¯n=n−1∑ni=1WiW¯n=n−1∑i=1nWi\overline{W}_n = n^{-1}\sum_{i=1}^nW_i S2n=(n−1)−1∑ni=1(Wi−W¯¯¯¯¯n)2,n≥2.Sn2=(n−1)−1∑i=1n(Wi−W¯n)2,n≥2.S_n^2 = (n-1)^{-1}\sum_{i=1}^n(W_i - \overline{W}_n)^2, n \ge 2. ,的分布是什么?W¯¯¯¯¯nW¯n\overline{W}_nS2nSn2S_n^2 当出现这样的问题时,如何获得最佳方法的想法?

4
Box Cox转换以进行回归
我正在尝试仅使用一个预测变量(例如(x,y))将线性模型拟合到某些数据上。数据使得对于较小的x值,y值与直线紧密匹配,但是,随着x值的增加,y值变得更加不稳定。这是此类数据(R代码)的示例 y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 我很想知道是否存在任何幂变换(也许是Box cox?),这使我比简单地进行线性拟合(如下所示)更适合数据。 fit = lm(y ~ x)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.