Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。

12
如何转换包含零的非负数据?
如果我偏向正数,我通常会记录日志。但是,对于包含零的高度偏斜的非负数据,我该怎么办?我已经看到使用了两种转换: 日志(X + 1 )log⁡(x+1)\log(x+1)具有巧妙的功能,即0映射到0。 日志(x + c )log⁡(x+c)\log(x+c)其中c被估计或设置为一些非常小的正值。 还有其他方法吗?是否有充分的理由选择一种方法而不是其他方法?

9
如何在R中按组汇总数据?[关闭]
我有这样的R数据框: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 我需要以以下形式获取数据帧: group mean sd 1 34.5 5.6 2 32.3 4.2 ... 组号可能有所不同,但可以通过致电获得其名称和数量 levels(factor(data$group)) 要对数据进行什么操作才能得到结果?

2
什么时候(为什么)应该记录(数字)分布的对数?
假设我有一些历史数据,例如过去的股价,机票价格波动,公司的过去财务数据... 现在有人(或某些公式)出现并说“让我们使用/使用分布的对数”,这就是我为什么要去的地方? 问题: 为什么一个人应该首先获取分发日志? 分配的日志会“给出/简化”原始分配无法/不会的记录吗? 日志转换是否“无损”?即,当转换为对数空间并分析数据时,对于原始分布是否有相同的结论?怎么会? 最后何时获取分发日志?在什么条件下决定这样做? 我真的很想了解基于日志的分布(例如,对数正态),但我从未理解何时/为什么方面-即分布的对数是正态分布,那又如何呢?这甚至告诉我什么,为什么要打扰?因此,这个问题! 更新:根据@whuber的评论,我查看了这些帖子,由于某种原因,我确实了解了对数变换及其在线性回归中的应用,因为您可以在自变量和因变量的对数之间建立关系。但是,从分析分布本身的角度来看,我的问题是通用的-我无法得出结论来帮助理解采用日志来分析分布的原因本身没有关系。我希望我有道理:-/ 在回归分析中,您确实对数据的类型/拟合/分布有限制,您可以对其进行转换并定义自变量和(未经转换的)因变量之间的关系。但是,何时/为什么要对孤立的分布这样做,其中类型/适合/分布的约束不一定适用于框架(如回归)。我希望澄清后的事情比混淆起来更清楚:) 对于“为什么和什么时候”,这个问题应有明确的答案


1
为什么建议对计数数据使用平方根变换?
当您拥有计数数据时,通常建议取平方根。(有关简历一些例子,看看@ HarveyMotulsky的答案在这里,或@ whuber的答案在这里。)另外,装修与分布泊松响应变量广义线性模型时,日志是规范链接。这有点像对响应数据进行对数转换(尽管更准确地说,是对控制响应分布的参数进行对数转换)。因此,这两者之间存在某种张力。 λλ\lambda 您如何调和这种(明显的)差异? 为什么平方根比对数好?

5
应将多少数量加到x上,以避免取零的对数?
我已经分析了我的数据。现在,我想在记录所有变量后查看分析。许多变量包含许多零。因此,我添加少量以避免对数为零。 到目前为止,我确实没有任何理由就添加了10 ^ -10,只是因为我觉得建议添加一个很小的数量以最小化我任意选择的数量的影响。但是某些变量大多包含零,因此在记录时大多数为-23.02。我的变量的范围是1.33-8819.21,零频率也有很大变化。因此,我个人选择的“少量”对变量的影响非常不同。现在很明显,10 ^ -10是完全不可接受的选择,因为所有变量中的大多数方差都来自这个任意的“小数量”。 我想知道什么是更正确的方法。 也许最好从每个变量的单独分布中得出数量?是否有关于“小数量”应该有多大的准则? 我的分析大部分是简单的Cox模型,每个变量和年龄/性别为IV。变量是各种血脂的浓度,通常具有相当大的变异系数。 编辑:添加变量的最小非零值似乎对我的数据很实用。但是也许有一个通用的解决方案? 编辑2:由于零仅表示浓度低于检测极限,也许将它们设置为(检测极限)/ 2是合适的吗?

8
将分类数据视为连续有意义吗?
在回答有关离散数据和连续数据的问题时,我断言,将分类数据视为连续数据很少有意义。 从表面上看,这似乎是不言而喻的,但是直觉通常不是一个很好的统计指南,或者至少是我的。所以现在我在想:这是真的吗?还是已经建立了从分类数据到某个连续体的转换实际上有用的分析?如果数据是序数会有所不同吗?

3
对数刻度何时合适?
我已经读过,在某些情况下(例如时间序列图中的y轴),在作图/作图时使用对数刻度是合适的。但是,我无法找到关于为何如此或何时合适的明确解释。请记住,我不是统计学家,所以我可能会完全忘记这一点,如果是这种情况,我将感谢提供补救资源的方向。


1
Scikit学习中的一键式与虚拟编码
编码分类变量有两种不同的方法。假设一个分类变量具有n个值。一键编码将其转换为n个变量,而伪编码将其转换为n-1个变量。如果我们有k个分类变量,每个分类变量都有n个值。一种热编码以kn个变量结束,而伪编码以kn-k个变量结束。 我听说对于一键编码,拦截会导致共线性问题,这会使模型不可靠。有人称其为“ 虚拟变量陷阱 ”。 我的问题: Scikit-learn的线性回归模型允许用户禁用拦截。因此,对于一键编码,我应该始终设置fit_intercept = False吗?对于虚拟编码,fit_intercept应该始终设置为True吗?我在网站上没有看到任何“警告”。 由于一键编码会生成更多变量,因此它是否比伪编码具有更大的自由度?

1
如果预测是目标,如何将标准化/标准化应用于训练和测试集?
是否同时转换所有数据或折叠(如果应用了简历)?例如 (allData - mean(allData)) / sd(allData) 我是否要分别转换训练集和测试集?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 还是要转换训练集并在测试集中使用计算?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 我相信3是正确的方法。如果3是正确的,我必须担心平均值不为0或范围不在[0; 1]或[-1; 1](规范化)的测试集?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
归一化与缩放
数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然? 请举例说明。

1
回归:转换变量
转换变量时,是否必须使用所有相同的转换?例如,是否可以选择不同的转换变量,例如: 令为年龄,就业时间,居住时间和收入。x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) 或者,您是否必须与转换保持一致并使用所有相同的转换?如: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 我的理解是,转型的目标是解决正常性问题。查看每个变量的直方图,我们可以看到它们呈现出非常不同的分布,这使我相信所需的转换在每个变量的基础上是不同的。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

1
异方差数据的单向方差分析的替代方法
我有3个藻类生物量(,,)的数据,它们包含不相等的样本大小(,,),我想比较一下这两个组是否来自同一种群。AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 单向ANOVA绝对是必经之路,但是在对我的数据进行正态性测试时,异质性似乎是主要问题。我的原始数据未经任何转换就产生了方差比(),该比率远高于临界值(F _ {\ rm crit} = 4.16),因此我无法执行单向方差分析。Fmax=19.1Fmax=19.1F_{\max} = 19.1Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 我还尝试了转换以标准化我的数据。即使经过各种变换(对数,平方根,平方)的试验,使用\ log_ {10}变换进行变换后产生的最低F _ {\ max}也为7.16,与F _ {\ rm crit}相比仍然更高。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} 这里有人可以建议我从这里出发吗?我想不出其他通过数据标准化的转换方法。有单向方差分析的替代方法吗? PS:我的原始数据如下: A: 0.178 0.195 0.225 0.294 0.315 0.341 0.36 0.363 0.371 0.398 0.407 0.409 0.432 0.494 0.719 B: 0.11 0.111 0.204 0.416 0.417 0.441 0.492 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.