统计和大数据 data-transformation

4

我一直在为以下问题而苦苦挣扎，希望对统计学家来说这是一个简单的问题（我是一个有统计学知识的程序员）。我需要总结对调查的答复（用于管理）。该调查有100多个问题，分为不同区域（每个区域约5到10个问题）。所有答案都是分类的（按顺序，它们就像“一点也不”，“很少” ...“每天或更频繁”）。管理层希望获得每个领域的摘要，这是我的问题：如何在相关问题中汇总分类答案？。问题太多了，无法为每个区域绘制图形甚至是格子图。与数字表相比，如果可能的话，我更喜欢采用视觉方法（例如，数字表不会读取）。我唯一能想到的是计算每个区域中答案的数量，然后绘制直方图。还有其他可用于分类数据的东西吗？我使用R，但不确定是否相关，我觉得这更像是一个一般的统计问题。

13 categorical-data data-transformation descriptive-statistics

3

在Box-Cox转换后的数据中以原始单位表示答案

对于某些测量，分析结果会以转换后的比例适当显示。但是，在大多数情况下，最好以原始的度量标准显示结果（否则您的工作或多或少就毫无价值）。例如，在对数转换的数据的情况下，由于记录值的均值不是均值的对数，因此会出现原始标度解释的问题。在对数刻度上取均值估计值的对数，而在原始刻度上不给出均值估计值。但是，如果日志转换后的数据具有对称分布，则以下关系成立（因为日志保留顺序）：均值[ log（是）] = 中位数[ log（是）] = 日志[ 中位数（Y）]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] （对数值的对数是原始测量范围的中位数）。因此，我只能对原始度量标准上的中位数差异（或比率）做出推断。如果总体大致正常且具有大约标准偏差，则两样本t检验和置信区间最为可靠，因此我们可能会倾向于将Box-Cox变换用作正态假设成立（我也认为这也是方差稳定变换）。但是，如果将t工具应用于Box-Cox转换后的数据，则会推断出转换后的数据在方式上的差异。我们如何以原始的测量尺度来解释那些？（转换后的值的平均值不是转换后的平均值）。换句话说，在转换后的尺度上对均值的估计值进行逆转换，不会在原始尺度上给出均值的估计值。在这种情况下，我还可以仅推断中位数吗？有没有可以让我回到原始状态的方法的转换？这个问题最初是在这里发表评论的

13 data-transformation confidence-interval t-test interpretation

5

不同长度时间序列的SVD维数缩减

我正在使用奇异值分解作为降维技术。给定N维向量D，其思想是表示不相关维的变换空间中的特征，这将以重要性降序将大多数数据信息压缩到该空间的特征向量中。现在，我正在尝试将此过程应用于时间序列数据。问题在于并非所有序列都具有相同的长度，因此我无法真正构建num-by-dim矩阵并应用SVD。我的第一个想法是通过构建num-by-maxDim矩阵并用零填充空白空间来用零填充矩阵，但是我不确定这是否正确。我的问题是，如何将SVD降维方法应用于不同长度的时间序列？或者，是否还有其他通常用于时间序列的本征空间表示方法？下面是一段MATLAB代码来说明这一想法： X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

13 time-series machine-learning pca data-transformation multivariate-analysis

4

回归模型，其响应变量是通常发生年度事件的一年中的一天

在这种情况下，我指的是湖泊结冰的那一天。该“冰上”日期每年仅发生一次，但有时根本不发生（如果冬天温暖的话）。因此，在一年中，湖泊可能在第20天（1月20日）结冰，而在另一年，它可能根本不会结冰。目的是找出冰冻日期的驱动因素。预测因素将是每年的秋季/冬季气温。年份可能是长期线性趋势的预测指标。 1）整数“一年中的一天”是否是合理的响应变量（如果不是，则是什么？）？ 2）如何处理湖泊永不结冰的年份？编辑：我不知道这里的礼节是什么，但我认为我会张贴收到的建议的结果。这是论文，开放获取。感谢@pedrofigueira和@cboettig，我对使用的方法获得了很好的反馈。当然，错误是我自己的。

13 regression time-series survival data-transformation recurrent-events

2

可视化是否足以转换数据？

问题我想绘制由30个参数中的每个参数解释的方差，例如绘制为每个参数的条形不同的条形图，以及y轴上的方差：但是，方差强烈偏向较小的值，包括0，如以下直方图中所示：如果我通过，则比较容易看出较小值之间的差异（下面的直方图和柱状图）：log(x+1)log⁡(x+1)\log(x+1) 题在对数刻度上绘制是很常见的，但是绘制同样合理吗？log(x+1)log⁡(x+1)\log(x+1)

13 data-visualization data-transformation histogram

1

是个根本转变建议？

我的同事想在通过将响应变量提高到（即）的幂后，对一些数据进行分析。 ÿ0.1251818\frac18y0.125y0.125y^{0.125} 我对此感到不舒服，但努力阐明原因。我想不出这种转换的任何机械原理。我以前也从未看过它，我担心它可能会夸大I型错误率或某种程度-但我无力支持这些担忧！另外，我的同事发现，在AIC比较中，这些转换后的模型优于未转换的模型。这本身是否可以证明其用途合理？

12 regression data-transformation aic

1

当比例是自变量时，转换比例的最合适方法是什么？

我以为我理解了这个问题，但是现在我不太确定，我想在继续之前先与其他人核实。我有两个变量，X和Y。Y是一个比率，并且不受0和1的限制，并且通常呈正态分布。X是一个比例，以0和1为界（从0.0到0.6）。当我运行的线性回归时Y ~ X，我发现，它们X与Y线性关系显着。到现在为止还挺好。但是后来我进一步调查，开始认为也许X和Y的关系可能比线性关系更曲线。对我来说，它看起来像的关系X，并Y可能接近Y ~ log(X)，Y ~ sqrt(X)或者Y ~ X + X^2，或者类似的东西。我有经验上的理由认为该关系可能是曲线关系，但没有理由假设任何一种非线性关系都可能比其他任何一种更好。我从这里有几个相关的问题。首先，我的X变量采用四个值：0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时，这些值之间的间距会失真，因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式，这就是我想要的吗？我认为不是，因为根据接受的失真程度，我得到的结果非常不同。如果这不是我想要的，应该如何避免？其次，要对这些数据进行对数转换，我必须在每个X值上加上一些数量，因为您不能采用0的对数。当我增加非常小的数量（例如0.001）时，我会得到非常大的失真。当我添加较大的数量（例如1）时，失真很小。是否有“正确的”数量要添加到X变量中？还是在变量中添加任何内容以X替代选择替代转换（例如，立方根）或模型（例如，逻辑回归）是否不合适？在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户，此代码将创建一些结构类似于我的数据。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) plot(Y~X)

12 r regression data-transformation nonlinear-regression proportion

4

认为问题非常适合线性回归

我正在使用Montgomery，Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。我天真地认为，仅当人们怀疑解释变量和响应变量之间存在线性函数关系时，线性回归才合适。但是，现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。经验丰富的统计学家会在考虑项目的哪些方面，如果它们适合我，那么他们会寻找非常适合线性回归的问题和数据。

12 regression data-transformation model linear regression-strategies

2

正态分布的X和Y是否更有可能导致正态分布的残差？

这里讨论了线性回归中对正态性假设的误解（“正态性”是指X和/或Y而不是残差），并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。我的问题是：正态分布的X和Y 更有可能导致正态分布的残差吗？有很多相关的帖子，但是我不相信有人会问这个问题。我意识到，如果只进行一次回归，那么这也许是微不足道的，但是如果有多个测试，那么就不那么重要了。假设我有100个X变量，且所有变量具有相同的偏斜度，我想测试所有这些变量。如果我将它们全部转换为正态分布，那么由于非正态分布的残差，我可能需要较少的X变量进行重新检验（具有不同/无转换），或者回归前的转换是完全任意的吗？

12 regression normal-distribution data-transformation residuals assumptions

3

如何将瘦态分布转变为正态分布？

假设我有一个变数变量，我想将其转换为正态分布。哪些转换可以完成此任务？我很清楚，转换数据可能并不总是理想的，但是作为一项学术追求，假设我想将数据“锤击”到正常状态。此外，从图中可以看出，所有值均严格为正。我已经尝试了各种转换（我以前见过的几乎所有转换，包括等），但是它们都不能很好地工作。是否有使Leptokurtic分布更正常的众所周知的转换？1X,X−−√,asinh(X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) 请参见下面的示例普通QQ图：

12 normal-distribution data-transformation kurtosis qq-plot

1

在隐马尔可夫模型中选择“最佳”模型的标准

我有一个时间序列数据集，试图将其拟合隐马尔可夫模型（HMM），以便估计数据中的潜在状态数。我的伪代码是这样的： for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在，在通常的回归模型中，BIC倾向于支持最简约的模型，但对于HMM，我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM？我也能够获得AIC和似然值。由于我试图推断出真实的州总数，因此其中一个标准是否比另一个标准“更好”？

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

2

转换后的随机变量的协方差

我有两个随机变量X>0X>0X > 0和Y>0Y>0Y > 0。鉴于我可以估计Cov(X,Y),Cov(X,Y),\text{Cov}(X, Y),我如何估计Cov(log(X),log(Y))?Cov(log⁡(X),log⁡(Y))?\text{Cov}(\log(X), \log(Y))?

12 data-transformation covariance random-variable

1

为什么要使用记录变量？

可能这是一个非常基本的问题，但我似乎无法找到一个可靠的答案。我希望在这里，我可以。我目前正在阅读论文，以准备自己的硕士学位论文。目前，我正在阅读一篇研究推文与股市特征之间关系的论文。在他们的假设之一中，他们提出“增加的推文交易量与交易量的增加有关”。我希望它们以成对相关性tweetVolume与关联tradingVolume，但是相反，它们使用记录的版本进行报告：LN(tweetVolume)和LN(tradingVolume)。对于我的论文，我复制了他们的论文的这一部分。我收集了大约100个公司的6个月以上的推文（tweetVolume）和同一时间段的股票交易量。如果我将绝对变量相关联，r=.282, p.000则会发现，但是当我使用记录的版本时，会发现r=.488, p=.000。我不明白为什么研究人员有时会使用变量的记录版本，以及为什么相关性似乎要高得多。这是什么原因，为什么可以使用记录的变量？非常感谢您的帮助:-)

12 correlation data-transformation logarithm

2

如果某些时间点的响应严重偏斜，而某些时间点没有进行重复测量研究，该怎么办？

通常，当在纵向设计中遇到连续但偏斜的结果度量时（例如，具有一个对象间效应），通常的方法是将结果转换为正态。如果情况极端，例如观察结果被截断，则可能会花哨并使用Tobit生长曲线模型或类似的模型。但是，当我看到结果通常在某些时间点分布然后在其他时间严重偏斜时，我会感到茫然。转换可能会堵塞一个泄漏，但会引发另一个泄漏。在这种情况下，您有什么建议？我是否不知道混合效果模型的“非参数”版本？注意：一个应用示例是一系列教育干预措施前后的知识测验分数。分数开始正常，但随后聚集在量表的高端。

12 repeated-measures data-transformation skewness

2

对数差异时间序列模型是否优于增长率？

我经常看到作者估计“对数差异”模型，例如 log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t 我同意这是恰当的关联在变化的百分比而为。xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) 但是对数差异是一个近似值，似乎无需对数转换也可以估算一个模型，例如 yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t 此外，增长率将精确地描述百分比变化，而对数差异将仅近似于百分比变化。但是，我发现对数差异法的使用频率更高。实际上，使用增长率似乎与解决第一个差异一样适合解决平稳性问题。实际上，我发现将对数变量转换回级别数据时，预测会变得有偏差（在文献中有时称为重新转换问题）。yt/yt−1yt/yt−1y_t/y_{t-1} 与增长率相比，使用对数差异有什么好处？增长率转换是否存在任何固有问题？我猜想我遗漏了一些东西，否则更频繁地使用该方法似乎很明显。

12 time-series forecasting data-transformation econometrics logarithm

Questions tagged «data-transformation»