Questions tagged «data-transformation»

数据值的数学重新表达,通常是非线性的。经常对数据进行转换以符合统计模型的假设或使分析结果更易于解释。


2
具有秩相关的典范相关分析
典型相关分析(CCA)旨在最大化两个数据集的线性组合的通常Pearson乘积矩相关(即线性相关系数)。 现在,考虑该相关系数仅测量线性关联这一事实-这就是为什么我们也使用Spearman- 或Kendall- τ(秩)相关系数来测量之间的任意单调(不一定是线性)联系的原因。变量。ρρ\rhoττ\tau 因此,我想到了以下几点:CCA的一个局限性在于,由于其目标函数,它仅试图捕获所形成的线性组合之间的线性关联。通过最大化Spearman- 而不是Pearson- r在某种意义上扩展CCA是否可行?ρρ\rhorrr 这样的程序会导致任何统计学上可解释和有意义的事情吗?(例如,对等级执行CCA有意义吗??)我想知道当我们处理非常规数据时是否有帮助...


3
CDF举足轻重?
如果FZFZF_Z是CDF,则看起来FZ(z)αFZ(z)αF_Z(z)^\alpha()也是CDF。α>0α>0\alpha \gt 0 问:这是标准结果吗? Q:有一个很好的方法找到一个函数与 ST,其中gggX≡g(Z)X≡g(Z)X \equiv g(Z)FX(x)=FZ(z)αFX(x)=FZ(z)αF_X(x) = F_Z(z)^\alphax≡g(z)x≡g(z) x \equiv g(z) 基本上,我手头还有另一个CDF。从某种程度上讲,我想描述产生该CDF的随机变量的特征。FZ(z)αFZ(z)αF_Z(z)^\alpha 编辑:如果能得到特殊情况的分析结果,我会很高兴。或者至少知道这样的结果很棘手。Z∼N(0,1)Z∼N(0,1)Z \sim N(0,1)

1
将数据转换为期望的均值和标准偏差
我正在寻找一种将数据集从当前均值和标准差转换为目标均值和目标标准差的方法。基本上,我想缩小/扩展离散度并将所有数字缩放为均值。 进行两个单独的线性转换是不起作用的,一个用于标准偏差,然后一个用于均值。我应该使用哪种方法? 当我将数据集的平均值调整为0.5且SD调整为0.1667时,是否可以将该解决方案应用于一个示例,该示例将SD.4的数据集中的点1.02和平均值0.88转换?该点的新价值是什么?

2
转换数据:所有变量还是非常规变量?
在Andy Field的《使用SPSS发现统计信息》中,他指出必须对所有变量进行转换。 但是,在出版物:“使用地理加权回归研究土地利用与水质之间的空间变化关系I:模型设计和评估”中,他们特别指出,只有非正态变量才被转换。 这种分析具体吗?例如,在均值比较中,将日志与原始数据进行比较显然会产生显着差异,而当使用类似回归的方法来调查变量之间的关系时,它就变得不那么重要了。 编辑:这是“数据转换”部分中的全文页面: 这是论文的链接:http : //www.sciencedirect.com/science/article/pii/S0048969708009121

1
如何处理神经网络中二进制和连续输入的混合?
我正在R中使用nnet软件包来尝试构建ANN以预测公寓(个人项目)的房地产价格。我是新来的,没有数学背景,所以请和我一起裸露。 我有二进制和连续输入变量。例如,对于神经网络,一些最初为是/否的二进制变量被转换为1/0。其他变量是连续的,如Sqft。 输入数据样本 我已将所有值标准化为0-1比例。也许Bedrooms并且Bathrooms不应该归一化,因为它们的范围仅为0-4? 这些混合输入是否给ANN带来了问题?我已经取得了不错的结果,但是仔细检查一下ANN为某些变量选择的权重似乎没有任何意义。我的代码在下面,有什么建议吗? ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + Terrace + Washer.Dryer + Doorman + Exercise.Room + New.York.View,data[1:700,], size=3, maxit=5000, linout=TRUE, decay=.0001) 更新: 基于以下有关将二进制输入分成每个值类的单独字段的注释,我的代码现在看起来像: ANN <- nnet(Price ~ Sqft + Studio + X1BR + X2BR + X3BR + …


3
如何为纵向大数据建模?
传统上,我们使用混合模型来建模纵向数据,例如: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 我们可以假设不同人的随机截距或斜率。但是,我要解决的问题将涉及庞大的数据集(数百万人,每天进行1个月的观测,即每个人将进行30次观测),目前我不知道是否有软件包可以完成此级别的数据。 我可以使用spark / mahout,但它们不提供混合模型,我的问题是,是否仍然可以修改数据以便可以使用RandomForest或SVM对此数据集进行建模? 我可以利用任何功能工程技术来帮助RF / SVM解决自相关问题吗? 非常感谢! 一些潜在的方法,但我没有时间把它们写成火花 如何将随机效果纳入randomForest 具有纵向数据的SVM回归

1
熵如何取决于位置和尺度?
密度函数为f的连续分布的熵定义为log (f )期望值的负值,因此等于Fff日志(f),log⁡(f),\log(f), HF= - ∫∞- ∞日志(f(x ))f(x )d x 。Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. 我们还说,任何分布具有密度f的随机变量XXX都有熵H f。 (即使f为零,该积分也是明确定义的,因为在这样的值下log (f (x ())f (x )可以等于零。)FffHF。Hf.H_f.Fff日志(f(x ))f(x )log⁡(f(x))f(x)\log(f(x))f(x) 当XXX和ÿYY是ÿ= X+ μY=X+μY = X+\mu(μμ\mu为常数)的随机变量时,ÿYY被称为是XXX 移位μ 。μ.\mu. 类似地,当ÿ= XσY=XσY = X\sigma(σσ\sigma是正的常数),ÿYY被说成是一个版本XXX 缩放由σ。σ.\sigma.组合秤与换档给出Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. 这些关系经常发生。例如,更改XXX的度量单位将对其进行缩放和缩放。 如何的熵Y=Xσ+μY=Xσ+μY = X\sigma + \mu涉及于的X?X?X?

3
对中和缩放虚拟变量
我有一个包含分类变量和连续变量的数据集。建议我将分类变量转换为每个级别的二进制变量(即A_level1:{0,1},A_level2:{0,1})-我认为有些人将其称为“虚拟变量”。 话虽这么说,然后使用新变量对整个数据集进行居中和缩放会产生误导吗?似乎我将失去变量的“开/关”含义。 如果产生误导,是否意味着我应该分别对连续变量进行居中和缩放,然后将其重新添加到我的数据集中? TIA。

3
改变偏斜的分布
假设我有一个变量,它的分布正偏斜到很高的程度,这样取对数将不足以使它在正态分布的偏斜范围内。目前我有什么选择?如何将变量转换为正态分布?

4
与重尾分布相对应的Boxplot吗?
对于近似正态分布的数据,箱形图是快速可视化数据的中值和散布以及任何异常值的好方法。 但是,对于更重尾的分布,很多点显示为离群值,因为离群被定义为不在IQR的固定因子范围内,而对于重尾分布,这种情况当然会更频繁地发生。 那么人们使用什么可视化此类数据呢?还有更适应的东西吗?如果重要的话,我在R上使用ggplot。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.