Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。

2
选择季节性分解方法
季节性调整是预处理数据以进行进一步研究的关键步骤。但是,研究人员对于趋势周期-季节分解有多种选择。最常见的季节性分解方法(根据经验文献中的引用次数)是X-11(12)-ARIMA,Tramo / Seats(均在Demetra +中实现)和的stl。试图避免在上述分解技术(或其他简单方法,如季节性虚拟变量)之间随机选择,我想知道一种可以有效选择季节性分解方法的基本策略。[R[RR 几个重要的子问题(也欢迎进入讨论链接)可能是: 这些方法有什么异同,优点和缺点?在某些情况下,一种方法比其他方法更可取吗? 您能否提供有关不同分解方法黑匣子内部内容的一般指南? 是否有一些特殊的技巧为方法选择参数(我并不总是对默认值感到满意,stl例如,有许多参数需要处理,有时我觉得我不知道如何正确选择这些参数)。 是否有可能提出一些(统计)标准来对时间序列进行季节性有效调整(相关图分析,频谱密度,小样本量标准或鲁棒性?)。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


2
对数转换后计算标准误差
考虑一个正态分布的随机数字集: x <- rnorm(n=1000, mean=10) 我们想知道平均值和平均值的标准误差,因此我们执行以下操作: se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units 大! 但是,假设我们不一定知道我们的原始分布服从正态分布。我们对数据进行对数转换,并执行相同的标准误差计算。 z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units 太酷了,但是现在我们需要进行逆变换才能以非日志单位显示我们的答案。 10^mean(z) # something near 10.0 …

2
日志转换是否是对非正常数据进行t测试的有效技术?
在审查一篇论文时,作者指出:“在进行t检验以满足正态性的前提假设之前,使用自然对数对表现出偏态分布的连续结果变量进行了转换。” 这是分析非正态数据的可接受方法,尤其是在基础分布不一定是对数正态的情况下吗? 这可能是一个非常愚蠢的问题,但我之前从未见过。

3
如何执行等距对数比转换
我的运动行为(睡眠,久坐和进行体育锻炼所花费的时间)数据总计约为24(以每天的小时数表示)。我想创建一个变量,以捕获在每种行为中花费的相对时间-有人告诉我,等距对数比转换可以完成此任务。 看来我应该在R中使用ilr函数,但是找不到任何带有代码的实际示例。我从哪里开始? 我的变量是睡眠时间,平均久坐时间,平均平均轻度运动,平均中等强度的运动和平均剧烈运动。睡眠是自我报告的,而其他睡眠则是加速度计数据有效天的平均值。因此,对于这些变量,情况不等于24。 我的猜测:我正在SAS中工作,但是看起来R在这部分将更容易使用。因此,首先仅导入感兴趣变量的数据。然后使用acomp()函数。然后我无法弄清楚ilr()函数的语法。任何帮助将非常感激。


3
“标准化”是什么意思,以及如何验证样本或分布是否已标准化?
我有一个问题要询问是否验证均匀分布(Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b))是否规范化。 首先,对任何分布进行规范化意味着什么? 第二,我们如何验证分布是否规范化? 我通过计算X理解 - 意思是X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 我们得到归一化的数据,但是这里要求验证分布是否被归一化。

2
比较模型及其对数转换版本的AIC
我的问题的实质是: 让Y∈RnY∈RnY \in \mathbb{R}^n与平均值的多元正态随机变量μμ\mu和协方差矩阵ΣΣ\Sigma。让Z:=log(Y)Z:=log⁡(Y)Z := \log(Y),即Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}。如何比较适合观察到的实现模型的AIC YYY与适合观察到的实现模型的AIC ZZZ? 我最初的问题和稍长的问题: 让Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)是一个多变量正态随机变量。如果我想比较适合于YYY的模型与适合对的模型log(Y)log⁡(Y)\log(Y),可以看看它们的对数似然性。但是,由于这些模型不是嵌套的,因此我无法直接比较对数可能性(以及诸如AIC之类的东西),但必须对其进行转换。 我知道如果X1,…,XnX1,…,XnX_1,\ldots,X_n是具有联合pdf 随机变量,g(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)并且Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)进行一对一转换titit_i和i∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\},则PDF的Y1,…,YnY1,…,YnY_1,\ldots,Y_n其中 J是与变换关联的雅可比行列式。f(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 我是否只需要使用转换规则进行比较 到 l (log (Y ))= log (n ∏ i = 1 ϕ (log (y i); μ ,Σ ))l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma))l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) 还是我还能做些什么? [edit]忘记将对数放在最后两个表达式中。

4
SVD / PCA的“规范化”变量
假设我们有NNN可测量的变量(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N),我们进行了M>NM>NM > N个测量,然后希望对结果进行奇异值分解,以找到最大方差轴。N维空间中的MMM个点。(注意:假设的装置一个我已经减去,所以⟨ 一个我 ⟩ = 0对于所有我)。NNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii 现在假设一个(或多个)变量的特征量级与其余变量具有显着不同的特征量级。例如a1a1a_1可具有值的范围在10−10010−10010-100其余的可能约为0.1−10.1−10.1-1。这将扭曲向最高方差的轴a1a1a_1的轴非常多。 大小上的差异可能仅仅是由于不幸地选择了度量单位(如果我们谈论的是物理数据,例如公里与米),但是实际上不同的变量可能具有完全不同的尺寸(例如重量与体积),因此可能没有任何明显的方法为它们选择“可比较”的单位。 问题: 我想知道是否存在任何标准/通用方法来规范化数据以避免这种问题。我更感兴趣的是产生了相当的幅度标准技术a1−aNa1−aNa_1 - a_N为了这个目的,而不是想出一些新的东西。 编辑: 一种可能性是通过其标准偏差或类似的东西标准化每个变量。但是,随后出现以下问题:让我们将数据解释为NNN维空间中的点云。该点云可以旋转,并且这种类型的归一化将根据旋转给出不同的最终结果(在SVD之后)。(例如,在最极端的情况下,想象精确地旋转数据以使主轴与主轴对齐。) 我希望不会有任何旋转不变的方法,但是如果有人能指出我对文献中有关此问题的某些讨论,特别是关于结果解释中的注意事项,我将不胜感激。

2
回归系数的逆变换
我正在使用转换后的因变量进行线性回归。进行了以下转换,以使残差的正态性假设成立。未转换的因变量产生负偏斜,以下转换使其接近正常值: Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} 其中YorigYorigY_{orig}是原始量表上的因变量。 我认为在ββ\beta系数上使用一些转换以使其回到原始比例是有意义的。使用以下回归方程, Y=50−Yorig−−−−−−−−√=α+β⋅XY=50−Yorig=α+β⋅XY=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X 通过固定,我们有X=0X=0X=0 α=50−Yorig−−−−−−−−√=50−αorig−−−−−−−−√α=50−Yorig=50−αorig\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}} 最后, αorig=50−α2αorig=50−α2\alpha_{orig}=50-\alpha^2 使用相同的逻辑,我发现 βorig=α (α−2β)+β2+αorig−50βorig=α (α−2β)+β2+αorig−50\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50 现在,对于具有1个或2个预测变量的模型来说,一切工作都很好。逆变换后的系数类似于原始系数,只有现在我可以相信标准误差。问题包括交互项,例如 Y=α+X1βX1+X2βX2+X1X2βX1X2Y=α+X1βX1+X2βX2+X1X2βX1X2Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2} 然后的逆变换与原始比例的逆变换不太接近,我不确定为什么会发生这种情况。我也不确定用于反向转换beta系数的公式是否可以像第三(用于交互项)那样使用。在进入疯狂的代数之前,我想我会寻求建议...βββ\betaββ\beta

2
为什么在执行主成分分析之前先对数据进行日志转换?
我在这里遵循教程:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/以更好地了解PCA。 本教程使用Iris数据集,并在PCA之前应用对数转换: 注意,在下面的代码中,我们按照[1]的建议对连续变量应用了对数转换,center并在调用中设置和scale等于,以在应用PCA之前标准化变量。TRUEprcomp 有人可以用简单的英文给我解释为什么您首先在Iris数据集的前四列上使用log函数。我知道它与使数据相对有关,但对日志,中心和刻度的确切功能感到困惑。 上面的参考文献[1]涉及Venables和Ripley,S-PLUS的Modern Applied Statistics,第11.1节,其中简要说明: 数据是物理测量,因此合理的初始策略是按对数比例工作。贯穿整个过程。

2
为什么GLM与带有转换变量的LM不同
如本课程讲义(第1页)中所述,线性模型可以用以下形式编写: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中是响应变量, 是第说明变量。yyyxixix_{i}ithithi^{th} 通常以满足测试假设为目标,可以转换响应变量。例如,我们在每个上应用log函数。转换响应变量并不等同于执行GLM。yiyiy_i 可以采用以下形式编写GLM(再次从课程讲义中(第3页)) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中仅仅是另一个符号Ÿ当我从第2页,课程讲义理解。g()称为链接函数。uuuyyyg()g()g() 在课程中,我不太了解GLM和带有转换后的变量的LM之间的区别。你能帮我吗?

2
GLM的归一化变换的推导
\newcommand{\E}{\mathbb{E}}如何是A(⋅)=∫duV1/3(μ)A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)}正火变换为指数族衍生? XXXh(X)h(X)h(X)κiκi\kappa _iithithi^{th}κ3(h(X¯))≈h′(μ)3κ3(X¯)N2+3h′(μ)2h′′(μ)σ4N+O(N−3),κ3(h(X¯))≈h′(μ)3κ3(X¯)N2+3h′(μ)2h″(μ)σ4N+O(N−3), \kappa _3(h(\bar{X})) \approx h'(\mu)^3\frac{\kappa _3(\bar{X})}{N^2} + 3h'(\mu)^2h''(\mu)\frac{\sigma^4}{N} + O(N^{-3}), h(X)h(X)h(X) 我的第一个问题是关于算术的:我的泰勒展开式具有不同的系数,我不能证明他们放弃了许多项。 Since h(x)h(X¯)−h(u)E(h(X¯)−h(u))3≈h(μ)+h′(μ)(x−μ)+h′′(x)2(x−μ)2, we have:≈h′(u))(X¯−μ)+h′′(x)2(X¯−μ)2≈h′(μ)3E(X¯−μ)3+32h′(μ)2h′′(μ)E(X¯−μ)4+34h′(μ)h′′(μ)2E(X¯−μ)5+18h′′(μ)3E(X¯−μ)6.Since h(x)≈h(μ)+h′(μ)(x−μ)+h″(x)2(x−μ)2, we have:h(X¯)−h(u)≈h′(u))(X¯−μ)+h″(x)2(X¯−μ)2E(h(X¯)−h(u))3≈h′(μ)3E(X¯−μ)3+32h′(μ)2h″(μ)E(X¯−μ)4+34h′(μ)h″(μ)2E(X¯−μ)5+18h″(μ)3E(X¯−μ)6.\begin{align} \text{Since }h(x) &\approx h(\mu) + h'(\mu)(x - \mu) + \frac{h''(x)}{2}(x - \mu)^2\text{, we have:} \\ h(\bar{X}) - h(u) &\approx h'(u))(\bar{X} - \mu) + \frac{h''(x)}{2}(\bar{X} - \mu)^2 \\ …

4
转换数据时要避免的陷阱?
双重转换响应后,在XXX和YÿY变量之间实现了很强的线性关系。该模型是 Y∼Xÿ〜XY\sim X ,但我把它转化为 YX−−√∼X−−√ÿX〜X\sqrt{\frac{Y}{X}}\sim \sqrt{X} 将R2[R2R^2从.19提高到.76。 显然,我对这种关系做了一些体面的手术。谁能讨论这样做的陷阱,例如过度转换的危险或可能违反统计原则的危险?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.