Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。


4
使用复杂数据进行分析,有什么不同?
假设您正在做线性模型,但是数据很复杂。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon 我的数据集很复杂,因为中的所有数字均为形式。处理此类数据时,在程序上有什么不同吗?yyy(a+bi)(a+bi)(a + bi) 我问是因为,您最终将获得复杂的协方差矩阵,并测试具有复杂价值的统计数据。 做最小二乘时,是否需要使用共轭转置而不是转置?复数值协方差有意义吗?

2
负二项式回归的假设是什么?
我正在使用大型数据集(机密信息,所以我不能分享太多),得出的结论是,负二项式回归是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同? 我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。 谢谢您的帮助!!

3
美白总是好吗?
机器学习算法的常见预处理步骤是数据白化。 进行白化似乎总是一件好事,因为它会使数据不相关,从而简化了建模。 什么时候不建议美白? 注意:我指的是数据的去相关。

2
转换变量以在R中进行多元回归
我正在尝试在中执行多元回归R。但是,我的因变量具有以下曲线: 这是一个散点图矩阵,其中包含我所有的变量(WAR是因变量): 我知道我需要对此变量(可能还有自变量?)执行转换,但是我不确定所需的确切转换。有人可以指出我正确的方向吗?我很高兴提供有关自变量和因变量之间关系的任何其他信息。 通过回归分析得出的诊断图形如下: 编辑 使用Yeo-Johnson转换对因变量和自变量进行转换后,诊断图如下所示: 如果我将GLM与日志链接一起使用,则诊断图形为:

4
在拟合ARIMA模型之前何时记录对时间序列的变换
我以前曾使用Forecast Pro预测单变量时间序列,但将工作流程切换到R。R的预测程序包包含许多有用的功能,但它没有做的一件事是在运行auto之前进行了任何类型的数据转换。 .arima()。在某些情况下,预测专家决定在进行预测之前记录转换数据,但是我还没有弄清楚为什么。 所以我的问题是:在尝试使用ARIMA方法之前,我应该何时对时间序列进行日志转换? / edit:阅读答案后,我将使用类似x的时间序列: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } 这有意义吗?

3
如何为这种奇形分布建模(几乎是反向J型)
下面显示的我的因变量不适合我所知的任何股票分布。线性回归会以某种奇怪的方式生成与预测的Y相关的某种非正态,右偏残差(第二个图)。对转换或以其他方式获得最有效结果和最佳预测准确性的任何建议?如果可能,我希望避免将笨拙的分类分为5个值(例如0,lo%,med%,hi%,1)。


3
R中的列式矩阵归一化
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我想在R中执行矩阵的列式归一化。给定一个矩阵m,我想通过将每个元素除以该列的总和来归一化每个列。一种执行此操作的方法如下: m / t(replicate(nrow(m), colSums(m))) 有没有更简洁/更优雅/更有效的方法来完成相同的任务?

3
为什么在机器学习中电源或对数转换没有被很好地教授?
机器学习(ML)大量使用线性和逻辑回归技术。这也依赖于功能工程技术(feature transform,kernel,等)。 为什么没有任何关于variable transformation(例如power transformation)在ML提到?(例如,我从没听说过使用根或登录要素,它们通常仅使用多项式或RBF。)同样,为什么ML专家不关心因变量的要素转换?(例如,我从没听说过对y进行对数转换;他们只是不对y进行转换。) 编辑:也许不是肯定的问题,我真正的问题是“对变量的幂转换在ML中不重要吗?”

6
高级回归建模示例
我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。

4
转化以增加正常rv的峰度和偏度
我正在研究一种算法,该算法依赖于观测值 s呈正态分布这一事实,并且我想凭经验测试该假设对算法的鲁棒性。YYY 为此,我正在寻找一系列转换,这些转换将逐渐破坏的正态性。例如,如果正常,则其偏度T1(),…,Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY=0=0= 0且峰度=3=3= 3,并且找到一个逐渐增加两者的转换序列会很好。 我的想法是模拟一些近似正态分布的数据YYY并在其上测试算法。在每个变换后的数据集T1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y),使用测试算法,以查看输出变化了多少。 请注意,我不控制模拟YYY的分布,因此无法使用对法线进行一般化的分布(例如“偏斜广义误差分布”)对它们进行模拟。

3
当响应由第四根转换时,如何解释回归系数?
1/4由于异方差性,我在响应变量上使用了四次root()幂转换。但是现在我不确定如何解释回归系数。 我假设我在进行逆变换时需要将系数取四次方(请参见下面的回归输出)。所有变量均以百万美元为单位,但我想知道数十亿美元的变化。 在使另一个自变量保持恒定的同时,平均费用变化10亿美元会导致32收款变化(或32,000美元)。我接受0.000075223 * 1000(达到数十亿美元)^ 4 = 0.000032。现在,我是否将此数字乘以100万或10亿(因变量的原始单位为百万)? lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913


2
转换比例数据:arcsin平方根不足时
对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。 编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.