5 如何在R中的宽和长格式之间更改数据?[关闭] 您可以使用宽格式或长格式的数据。这是非常重要的事情,因为可用的方法因格式而异。我知道您必须使用reshape软件包melt()并cast()从中进行工作,但是似乎有些事情我没有得到。 有人可以简要概述一下您如何执行此操作吗? 32 data-transformation r
4 使用复杂数据进行分析,有什么不同? 假设您正在做线性模型,但是数据很复杂。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon 我的数据集很复杂,因为中的所有数字均为形式。处理此类数据时,在程序上有什么不同吗?yyy(a+bi)(a+bi)(a + bi) 我问是因为,您最终将获得复杂的协方差矩阵,并测试具有复杂价值的统计数据。 做最小二乘时,是否需要使用共轭转置而不是转置?复数值协方差有意义吗? 31 regression anova data-transformation complex-numbers
2 负二项式回归的假设是什么? 我正在使用大型数据集(机密信息,所以我不能分享太多),得出的结论是,负二项式回归是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同? 我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。 谢谢您的帮助!! 30 regression generalized-linear-model data-transformation assumptions negative-binomial
3 美白总是好吗? 机器学习算法的常见预处理步骤是数据白化。 进行白化似乎总是一件好事,因为它会使数据不相关,从而简化了建模。 什么时候不建议美白? 注意:我指的是数据的去相关。 27 data-transformation
2 转换变量以在R中进行多元回归 我正在尝试在中执行多元回归R。但是,我的因变量具有以下曲线: 这是一个散点图矩阵,其中包含我所有的变量(WAR是因变量): 我知道我需要对此变量(可能还有自变量?)执行转换,但是我不确定所需的确切转换。有人可以指出我正确的方向吗?我很高兴提供有关自变量和因变量之间关系的任何其他信息。 通过回归分析得出的诊断图形如下: 编辑 使用Yeo-Johnson转换对因变量和自变量进行转换后,诊断图如下所示: 如果我将GLM与日志链接一起使用,则诊断图形为: 26 r regression multiple-regression data-transformation
4 在拟合ARIMA模型之前何时记录对时间序列的变换 我以前曾使用Forecast Pro预测单变量时间序列,但将工作流程切换到R。R的预测程序包包含许多有用的功能,但它没有做的一件事是在运行auto之前进行了任何类型的数据转换。 .arima()。在某些情况下,预测专家决定在进行预测之前记录转换数据,但是我还没有弄清楚为什么。 所以我的问题是:在尝试使用ARIMA方法之前,我应该何时对时间序列进行日志转换? / edit:阅读答案后,我将使用类似x的时间序列: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } 这有意义吗? 26 r time-series data-transformation forecasting arima
3 如何为这种奇形分布建模(几乎是反向J型) 下面显示的我的因变量不适合我所知的任何股票分布。线性回归会以某种奇怪的方式生成与预测的Y相关的某种非正态,右偏残差(第二个图)。对转换或以其他方式获得最有效结果和最佳预测准确性的任何建议?如果可能,我希望避免将笨拙的分类分为5个值(例如0,lo%,med%,hi%,1)。 25 regression multiple-regression data-transformation censoring
7 例如,为什么通常将性别编码为0/1而不是1/2? 我了解数据分析编码的逻辑。我的以下问题是关于特定代码的使用。 为什么性别经常被编码为女性0和男性1? 为什么将此编码视为“标准”? 将其与Female = 1和Male = 2进行比较。此编码是否存在问题? 25 data-transformation binary-data categorical-encoding units
3 R中的列式矩阵归一化 关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我想在R中执行矩阵的列式归一化。给定一个矩阵m,我想通过将每个元素除以该列的总和来归一化每个列。一种执行此操作的方法如下: m / t(replicate(nrow(m), colSums(m))) 有没有更简洁/更优雅/更有效的方法来完成相同的任务? 25 r data-transformation normalization matrix
3 为什么在机器学习中电源或对数转换没有被很好地教授? 机器学习(ML)大量使用线性和逻辑回归技术。这也依赖于功能工程技术(feature transform,kernel,等)。 为什么没有任何关于variable transformation(例如power transformation)在ML提到?(例如,我从没听说过使用根或登录要素,它们通常仅使用多项式或RBF。)同样,为什么ML专家不关心因变量的要素转换?(例如,我从没听说过对y进行对数转换;他们只是不对y进行转换。) 编辑:也许不是肯定的问题,我真正的问题是“对变量的幂转换在ML中不重要吗?” 24 regression machine-learning data-transformation
6 高级回归建模示例 我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。 22 multiple-regression generalized-linear-model data-transformation splines nonlinear
4 转化以增加正常rv的峰度和偏度 我正在研究一种算法,该算法依赖于观测值 s呈正态分布这一事实,并且我想凭经验测试该假设对算法的鲁棒性。YYY 为此,我正在寻找一系列转换,这些转换将逐渐破坏的正态性。例如,如果正常,则其偏度T1(),…,Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY=0=0= 0且峰度=3=3= 3,并且找到一个逐渐增加两者的转换序列会很好。 我的想法是模拟一些近似正态分布的数据YYY并在其上测试算法。在每个变换后的数据集T1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y),使用测试算法,以查看输出变化了多少。 请注意,我不控制模拟YYY的分布,因此无法使用对法线进行一般化的分布(例如“偏斜广义误差分布”)对它们进行模拟。 20 data-transformation normality-assumption skewness kurtosis
3 当响应由第四根转换时,如何解释回归系数? 1/4由于异方差性,我在响应变量上使用了四次root()幂转换。但是现在我不确定如何解释回归系数。 我假设我在进行逆变换时需要将系数取四次方(请参见下面的回归输出)。所有变量均以百万美元为单位,但我想知道数十亿美元的变化。 在使另一个自变量保持恒定的同时,平均费用变化10亿美元会导致32收款变化(或32,000美元)。我接受0.000075223 * 1000(达到数十亿美元)^ 4 = 0.000032。现在,我是否将此数字乘以100万或10亿(因变量的原始单位为百万)? lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913 20 regression data-transformation
6 将变量的小数位数更改为0-100 我使用PCA技术构建了社会资本指数。该指数包括正值和负值。我想将此索引转换/转换为0-100比例,以便于解释。请建议我这样做的最简单方法。 20 data-transformation scales
2 转换比例数据:arcsin平方根不足时 对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。 编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。 20 data-transformation generalized-linear-model heteroscedasticity