Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。

4
在统计中使用分贝
我正在从事一个涉及读取RFID标签并比较读者在更改天线配置(天线数量,位置等)时看到的信号强度的项目。作为项目的一部分,我需要比较设置以查看最有效的设置。 理想情况下,我将能够在两个天线位置(或多个天线位置)之间执行未配对t检验或ANOVA。但是,由于响应是以对数为分贝,所以我想知道最好的方法是什么? 最好将结果转换成线性比例,然后使用我提到的一种方法进行比较,还是应该使用分贝(按原样)以及其他统计检验来进行比较?

2
巴特利特测试vs莱文测试
我目前正在尝试解决违反方差分析假设的问题。我曾用Shapiro-Wilk检验正态性,并涉猎了Levene检验和Bartlett检验方差相等。从那以后,我用对数转换了我的数据,以尝试纠正不平等的差异。我对经过对数转换的数据重新进行了Bartlett检验,但仍然收到了显着的p值,出于好奇,我也进行了Levene检验,得到了不重要的p值。我应该依靠哪个测试?

1
比较模型与已转换和未转换响应的拟合度
我想比较三个不同组之间的比例数据,例如: ID Group Prop.Nitrogen 1 A 0.89 2 A 0.85 3 B 0.92 4 B 0.97 跟随沃顿商学院(Wharton and Hui)(doi:10.1890 / 10-0340.1 1),虽然我会看看使用转换后的logit是否可以更好地处理这些数据。 当我查看已转换和未转换数据上线性模型的诊断图时,它们看起来非常相似,没有明显的问题,并且估计参数只有很小的差异。但是,我仍然想对模型适合数据转换和未转换版本的方式说些什么-我知道我无法直接比较AIC值。有没有更正,我可以检查一下?还是应该采用其他方法?

3
难道这些公式转换P,LSD,MSD,HSD,CI,以SE作为一个确切的或夸大/保守估计
背景 我正在进行一项荟萃分析,其中包括以前发布的数据。通常,用P值,最小显着差异(LSD)和其他统计数据报告处理之间的差异,但无法直接估算出差异。 在我使用的模型的上下文中,可以高估方差。 问题 这里是变换来的列表其中(萨维尔2003) ,我考虑,反馈理解; 下面,我假定α = 0.05所以1 - α / 2 = 0.975 和变量是正态分布的,除非另有说明:SESESESE=MSE/n−−−−−−−√SE=MSE/nSE=\sqrt{MSE/n} α = 0.05α=0.05\alpha=0.051 -α/2= 0.9751个-α/2=0.9751-^{\alpha}/_2=0.975 问题: 给定的,Ñ,和治疗手段ˉ X 1和ˉ X 2小号Ë = ˉ X 1 - ˉ X 2PPPññnX¯1个X¯1个\bar X_1X¯2X¯2\bar X_2 小号Ë= X¯1个- X¯2Ť(1 − P2,2 n − 2 )2 / n---√小号Ë=X¯1个-X¯2Ť(1个-P2,2ñ-2)2/ñSE=\frac{\bar X_1-\bar X_2}{t_{(1-\frac{P}{2},2n-2)}\sqrt{2/n}} …


1
逆变换的置信区间
遇到此讨论后,我提出了关于逆变换后的置信区间约定的问题。 根据本文,对数正态随机变量的均值的标称覆盖率逆变换CI为: LCL(X)=exp(Y+var(Y) üC大号(X)= exp(是+ var (Y)2+ zVAR (ÿ)ñ+ var (Y)22 (n − 1 )------------√) UCL(X)=exp⁡(Y+var(Y)2+zvar(Y)n+var(Y)22(n−1))\ UCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}+z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) L C大号(X)= exp(是+ var (Y)2− zVAR (ÿ)ñ+ var (Y)22 (n − 1 )------------√) LCL(X)=exp⁡(Y+var(Y)2−zvar(Y)n+var(Y)22(n−1))\ LCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}-z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) /而不是朴素的 /经验值((是)+ zVAR (ÿ)------√)exp⁡((Y)+zvar(Y))\exp((Y)+z\sqrt{\text{var}(Y)}) 现在,用于以下转换的配置项是什么? X--√x\sqrt{x}和X1 / 3x1/3x^{1/3} 反正弦(x--√)arcsin(x)\text{arcsin}(\sqrt{x}) 日志(x1 − x)log⁡(x1−x)\log(\frac{x}{1-x}) 1 / x1/x1/x 随机变量本身的公差区间如何(我的意思是从总体中随机抽取一个样本值)?逆变换的间隔是否存在相同的问题,或者它们具有名义覆盖率?

1
处理异常有限的响应变量的回归
我正在尝试对理论上限制在-225和+225之间的响应变量进行建模。变量是受试者在玩游戏时获得的总分。尽管从理论上讲,受试者有可能得分+225。尽管如此,这是因为得分不仅取决于对象的动作,而且还取决于其他动作的动作,任何人得分最多为125(这是两个互相玩的最高玩家都可以得分),这种情况的发生频率很高。最低分数是+35。 125的边界导致线性回归困难。我唯一想做的就是将响应重新缩放为0到1之间并使用beta回归。如果我这样做,虽然不确定,我真的可以说125是最高边界(或转换后的1),因为它有可能得分+225。此外,如果我这样做了,我的下界35是什么? 谢谢, 乔纳森

2
转换连续变量以进行逻辑回归
我有大量调查数据,一个二进制结果变量和许多解释性变量,包括二进制和连续变量。我正在建立模型集(使用GLM和混合GLM进行实验),并使用信息理论方法来选择顶级模型。我仔细检查了说明(连续的和分类的)之间的相关性,而我只使用在同一模型中Pearson或Phicorr系数小于0.3的那些。我想给我所有的连续变量一个竞争顶级模型的机会。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低AIC)。 我的第一个问题是:由于变换提高了logit的线性度,所以此改进是否在进行?还是通过使数据更加对称,校正偏斜以某种方式改善了解释变量的平衡?我希望我能理解其背后的数学原因,但就目前而言,如果有人可以轻松地解释这一点,那就太好了。如果您有任何我可以使用的参考,我将不胜感激。 许多互联网网站都说,由于正常性不是二进制逻辑回归的假设,因此请勿变换变量。但是我觉得,通过不对变量进行转换,与其他变量相比,我处于不利地位,这可能会影响顶级模型,并改变推理(好吧,通常不会,但是在某些数据集中会)。我的一些变量在对数转换时性能更好,一些在平方时(偏斜的不同方向),另一些未转换时。 有人可以给我一个指导原则,在为逻辑回归转换解释变量时要注意些什么,如果不这样做,为什么不这样做呢?

2
在R中从因子转换为数值变量时遇到问题[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 7年前关闭。 我想将因子变量转换为数字变量,但as.numeric没有达到我期望的效果。 下面,我将基于原始变量获取该变量的数字版本的摘要统计信息。均值以1递增。...(他推测)因子的水平同时具有名称和数字,并且我希望新变量的值来自于何时as.numeric使用该数字的名称? > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 var n mean sd median trimmed mad min max range …

2
非常偏斜的群集,计数数据:有什么建议(转换等)?
基本问题 这是我的基本问题:我正在尝试将包含一些非常偏斜的变量与计数的数据集聚类。变量包含许多零,因此对于我的聚类过程不是很有帮助-这很可能是k-means算法。 很好,您说的是,只需使用平方根,Box Cox或对数转换变量即可。但是由于我的变量是基于分类变量的,所以我担心我可能会通过处理一个变量(基于分类变量的一个值)而使其他变量(基于分类变量的其他值)而产生偏差。 。 让我们更详细些。 数据集 我的数据集代表物品的购买。这些项目具有不同的类别,例如颜色:蓝色,红色和绿色。然后,例如由顾客将购买分组在一起。这些客户中的每一个都由我的数据集的一行代表,因此我必须以某种方式汇总客户的购买量。 我这样做的方式是通过计算购买次数,其中该商品是某种颜色。因此,而不是一个变量color,我结束了三个变量count_red,count_blue和count_green。 这是一个示例说明: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 …

4
为什么不对数转换所有不重要的变量呢?
书籍和讨论经常指出,当遇到预测变量的问题(其中有几个)时,有可能对数转换。现在,我知道这取决于预测变量的分布和正态性,并不是回归的假设;但是对数转换确实会使数据更加统一,不受异常值的影响等。 我考虑过对数转换所有不是主要变量的连续变量,即我仅调整的变量。 错了吗 好?无用?

2
具有逆自变量的回归
假设我有一个因变量的向量和一个自变量的向量当相对绘制时,我发现两者之间存在线性关系(上升趋势)。现在,这也意味着和之间存在线性下降趋势。Y N X Y 1ñNNÿYYñNNXXXÿYY YX1个X1X\frac{1}{X}ÿYYXXX 现在,如果我运行回归: 并获得拟合值ÿ = β Xÿ= β* X+ ϵY=β∗X+ϵY = \beta * X + \epsilonÿ^= β^XY^=β^X\hat{Y} = \hat{\beta}X 然后运行回归:并获得拟合值 〜Ŷ = α 1ÿ= α * 1X+ ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonÿ〜= α^1个XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} 和这两个预测值大约相等吗? 〜ÿÿ^Y^\hat{Y}ÿ〜Y~\tilde{Y}

3
重新加权美国社区调查多样性数据将如何影响其误差范围?
背景:我的组织目前根据美国社区调查(美国人口普查局的一项调查项目),将其劳动力多样性统计数据(例如,残疾人百分比,妇女百分比,退伍军人百分比)与这些群体的劳动力总数进行比较。这是一个不准确的基准,因为我们有一组非常具体的工作,这些工作的人口统计学与整体劳动力不同。例如,假设我的组织主要是工程师。在我所在的州,工程学只有大约20%的女性。如果我们将自己与总劳动力基准进行比较(该基准更像是50%的女性),则会引起恐慌:“我们只有20%的女性,这是一场灾难!” 实际上,我们应该期望达到20%,因为这就是劳动力状况。 我的目标:我想做的是获取《美国社区调查》的职业数据(按多样性类别),然后根据我的工作岗位构成对其进行加权。这是社会和社区服务工作者的样本数据集。我想将这些工作代码加在一起(因为我们的人行横道是工作组,而不是特定的工作代码),然后我要根据该类别中的人数(例如我们的3,000个社交网络和社区服务工作者),那么我想对所有其他工作组执行相同的操作,将这些数字加在一起,然后除以我们的工作者总数。这将为我提供一种新的重新加权的多样性衡量指标(例如,从6%的残疾人到2%的残疾人)。 我的问题:如何使误差范围适合此最终汇总基准?我没有原始的人口普查数据集(显然),但是您可以通过将表格顶部的“估计”字段切换为“误差范围”,在我提供的链接中查看每个数字的误差范围。我与这些数据一起工作的其他同事完全打算忽略误差范围,但我担心我们正在为自己创建一个无统计学意义的基准。经过上述操作后,该数据是否仍然仍然可用?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
我对转换后的因变量进行日志记录,可以将GLM正态分布与LOG链接功能一起使用吗?
我有一个关于广义线性模型(GLM)的问题。我的因变量(DV)是连续的并且不正常。因此,我对其进行了日志转换(仍然不正常,但对其进行了改进)。 我想将DV与两个类别变量和一个连续协变量相关联。为此,我想进行GLM(我正在使用SPSS),但是我不确定如何决定要选择的分布和功能。 我已经进行了Levene的非参数检验,并且我具有方差均匀性,因此我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正态的,残差也可以。因此,我从每个GLM分别打印了标准化的Pearson残差和线性预测变量的预测值(GLM正常标识函数和正常对数函数)。我已经进行了正态性检验(直方图和Shapiro-Wilk),并分别针对两个预测值绘制了残差与预测值(以检查随机性和方差)。来自身份函数的残差不正常,但来自对数函数的残差正常。我倾向于选择具有对数链接功能的正态,因为Pearson残差呈正态分布。 所以我的问题是: 可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗? 方差同质性检验是否足以证明使用正态分布是合理的? 残差检查程序是否正确以证明选择链接功能模型是正确的? 左侧是DV分布图,右侧是对数链接功能,是GLM法线的残差。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.