Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。

4
如何总结分类数据?
我一直在为以下问题而苦苦挣扎,希望对统计学家来说这是一个简单的问题(我是一个有统计学知识的程序员)。 我需要总结对调查的答复(用于管理)。该调查有100多个问题,分为不同区域(每个区域约5到10个问题)。所有答案都是分类的(按顺序,它们就像“一点也不”,“很少” ...“每天或更频繁”)。 管理层希望获得每个领域的摘要,这是我的问题:如何在相关问题中汇总分类答案?。问题太多了,无法为每个区域绘制图形甚至是格子图。与数字表相比,如果可能的话,我更喜欢采用视觉方法(例如,数字表不会读取)。 我唯一能想到的是计算每个区域中答案的数量,然后绘制直方图。 还有其他可用于分类数据的东西吗? 我使用R,但不确定是否相关,我觉得这更像是一个一般的统计问题。

3
在Box-Cox转换后的数据中以原始单位表示答案
对于某些测量,分析结果会以转换后的比例适当显示。但是,在大多数情况下,最好以原始的度量标准显示结果(否则您的工作或多或少就毫无价值)。 例如,在对数转换的数据的情况下,由于记录值的均值不是均值的对数,因此会出现原始标度解释的问题。在对数刻度上取均值估计值的对数,而在原始刻度上不给出均值估计值。 但是,如果日志转换后的数据具有对称分布,则以下关系成立(因为日志保留顺序): 均值[ log(是)] = 中位数[ log(是)] = 日志[ 中位数(Y)]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (对数值的对数是原始测量范围的中位数)。 因此,我只能对原始度量标准上的中位数差异(或比率)做出推断。 如果总体大致正常且具有大约标准偏差,则两样本t检验和置信区间最为可靠,因此我们可能会倾向于将Box-Cox变换用作正态假设成立(我也认为这也是方差稳定变换)。 但是,如果将t工具应用于Box-Cox转换后的数据,则会推断出转换后的数据在方式上的差异。我们如何以原始的测量尺度来解释那些?(转换后的值的平均值不是转换后的平均值)。换句话说,在转换后的尺度上对均值的估计值进行逆转换,不会在原始尺度上给出均值的估计值。 在这种情况下,我还可以仅推断中位数吗?有没有可以让我回到原始状态的方法的转换? 这个问题最初是在这里发表评论的

5
不同长度时间序列的SVD维数缩减
我正在使用奇异值分解作为降维技术。 给定N维向量D,其思想是表示不相关维的变换空间中的特征,这将以重要性降序将大多数数据信息压缩到该空间的特征向量中。 现在,我正在尝试将此过程应用于时间序列数据。问题在于并非所有序列都具有相同的长度,因此我无法真正构建num-by-dim矩阵并应用SVD。我的第一个想法是通过构建num-by-maxDim矩阵并用零填充空白空间来用零填充矩阵,但是我不确定这是否正确。 我的问题是,如何将SVD降维方法应用于不同长度的时间序列?或者,是否还有其他通常用于时间序列的本征空间表示方法? 下面是一段MATLAB代码来说明这一想法: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

4
回归模型,其响应变量是通常发生年度事件的一年中的一天
在这种情况下,我指的是湖泊结冰的那一天。该“冰上”日期每年仅发生一次,但有时根本不发生(如果冬天温暖的话)。因此,在一年中,湖泊可能在第20天(1月20日)结冰,而在另一年,它可能根本不会结冰。 目的是找出冰冻日期的驱动因素。 预测因素将是每年的秋季/冬季气温。年份可能是长期线性趋势的预测指标。 1)整数“一年中的一天”是否是合理的响应变量(如果不是,则是什么?)? 2)如何处理湖泊永不结冰的年份? 编辑: 我不知道这里的礼节是什么,但我认为我会张贴收到的建议的结果。这是论文,开放获取。感谢@pedrofigueira和@cboettig,我对使用的方法获得了很好的反馈。当然,错误是我自己的。

2
可视化是否足以转换数据?
问题 我想绘制由30个参数中的每个参数解释的方差,例如绘制为每个参数的条形不同的条形图,以及y轴上的方差: 但是,方差强烈偏向较小的值,包括0,如以下直方图中所示: 如果我通过,则比较容易看出较小值之间的差异(下面的直方图和柱状图):log(x+1)log⁡(x+1)\log(x+1) 题 在对数刻度上绘制是很常见的,但是绘制同样合理吗?log(x+1)log⁡(x+1)\log(x+1)

1
是个根本转变建议?
我的同事想在通过将响应变量提高到(即)的幂后,对一些数据进行分析。 ÿ0.1251818\frac18y0.125y0.125y^{0.125} 我对此感到不舒服,但努力阐明原因。我想不出这种转换的任何机械原理。我以前也从未看过它,我担心它可能会夸大I型错误率或某种程度-但我无力支持这些担忧! 另外,我的同事发现,在AIC比较中,这些转换后的模型优于未转换的模型。这本身是否可以证明其用途合理?

1
当比例是自变量时,转换比例的最合适方法是什么?
我以为我理解了这个问题,但是现在我不太确定,我想在继续之前先与其他人核实。 我有两个变量,X和Y。Y是一个比率,并且不受0和1的限制,并且通常呈正态分布。X是一个比例,以0和1为界(从0.0到0.6)。当我运行的线性回归时Y ~ X,我发现,它们X与Y线性关系显着。到现在为止还挺好。 但是后来我进一步调查,开始认为也许X和Y的关系可能比线性关系更曲线。对我来说,它看起来像的关系X,并Y可能接近Y ~ log(X),Y ~ sqrt(X)或者Y ~ X + X^2,或者类似的东西。我有经验上的理由认为该关系可能是曲线关系,但没有理由假设任何一种非线性关系都可能比其他任何一种更好。 我从这里有几个相关的问题。首先,我的X变量采用四个值:0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时,这些值之间的间距会失真,因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式,这就是我想要的吗?我认为不是,因为根据接受的失真程度,我得到的结果非常不同。如果这不是我想要的,应该如何避免? 其次,要对这些数据进行对数转换,我必须在每个X值上加上一些数量,因为您不能采用0的对数。当我增加非常小的数量(例如0.001)时,我会得到非常大的失真。当我添加较大的数量(例如1)时,失真很小。是否有“正确的”数量要添加到X变量中?还是在变量中添加任何内容以X替代选择替代转换(例如,立方根)或模型(例如,逻辑回归)是否不合适? 在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户,此代码将创建一些结构类似于我的数据。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) plot(Y~X)

4
认为问题非常适合线性回归
我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。 我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。 经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。

2
正态分布的X和Y是否更有可能导致正态分布的残差?
这里讨论了线性回归中对正态性假设的误解(“正态性”是指X和/或Y而不是残差),并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。 我的问题是:正态分布的X和Y 更有可能导致正态分布的残差吗?有很多相关的帖子,但是我不相信有人会问这个问题。 我意识到,如果只进行一次回归,那么这也许是微不足道的,但是如果有多个测试,那么就不那么重要了。假设我有100个X变量,且所有变量具有相同的偏斜度,我想测试所有这些变量。如果我将它们全部转换为正态分布,那么由于非正态分布的残差,我可能需要较少的X变量进行重新检验(具有不同/无转换),或者回归前的转换是完全任意的吗?

3
如何将瘦态分布转变为正态分布?
假设我有一个变数变量,我想将其转换为正态分布。哪些转换可以完成此任务?我很清楚,转换数据可能并不总是理想的,但是作为一项学术追求,假设我想将数据“锤击”到正常状态。此外,从图中可以看出,所有值均严格为正。 我已经尝试了各种转换(我以前见过的几乎所有转换,包括等),但是它们都不能很好地工作。是否有使Leptokurtic分布更正常的众所周知的转换?1X,X−−√,asinh(X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) 请参见下面的示例普通QQ图:

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?


1
为什么要使用记录变量?
可能这是一个非常基本的问题,但我似乎无法找到一个可靠的答案。我希望在这里,我可以。 我目前正在阅读论文,以准备自己的硕士学位论文。目前,我正在阅读一篇研究推文与股市特征之间关系的论文。 在他们的假设之一中,他们提出“增加的推文交易量与交易量的增加有关”。 我希望它们以成对相关性tweetVolume与关联tradingVolume,但是相反,它们使用记录的版本进行报告:LN(tweetVolume)和LN(tradingVolume)。 对于我的论文,我复制了他们的论文的这一部分。我收集了大约100个公司的6个月以上的推文(tweetVolume)和同一时间段的股票交易量。如果我将绝对变量相关联,r=.282, p.000则会发现,但是当我使用记录的版本时,会发现r=.488, p=.000。 我不明白为什么研究人员有时会使用变量的记录版本,以及为什么相关性似乎要高得多。这是什么原因,为什么可以使用记录的变量? 非常感谢您的帮助:-)

2
如果某些时间点的响应严重偏斜,而某些时间点没有进行重复测量研究,该怎么办?
通常,当在纵向设计中遇到连续但偏斜的结果度量时(例如,具有一个对象间效应),通常的方法是将结果转换为正态。如果情况极端,例如观察结果被截断,则可能会花哨并使用Tobit生长曲线模型或类似的模型。 但是,当我看到结果通常在某些时间点分布然后在其他时间严重偏斜时,我会感到茫然。转换可能会堵塞一个泄漏,但会引发另一个泄漏。在这种情况下,您有什么建议?我是否不知道混合效果模型的“非参数”版本? 注意:一个应用示例是一系列教育干预措施前后的知识测验分数。分数开始正常,但随后聚集在量表的高端。

2
对数差异时间序列模型是否优于增长率?
我经常看到作者估计“对数差异”模型,例如 log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t 我同意这是恰当的关联在变化的百分比而为。xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) 但是对数差异是一个近似值,似乎无需对数转换也可以估算一个模型,例如 yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t 此外,增长率将精确地描述百分比变化,而对数差异将仅近似于百分比变化。 但是,我发现对数差异法的使用频率更高。实际上,使用增长率似乎与解决第一个差异一样适合解决平稳性问题。实际上,我发现将对数变量转换回级别数据时,预测会变得有偏差(在文献中有时称为重新转换问题)。yt/yt−1yt/yt−1y_t/y_{t-1} 与增长率相比,使用对数差异有什么好处?增长率转换是否存在任何固有问题?我猜想我遗漏了一些东西,否则更频繁地使用该方法似乎很明显。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.