Questions tagged «standardization»

通常指“ z标准化”,它是对数据进行移位和重新缩放以确保它们的均值和单位方差为零。其他“标准化”也是可能的。


5
标准化和标准化之间有什么区别?
在工作中,我们正在讨论此问题,因为我的老板从未听说过标准化。在线性代数中,归一化似乎是指矢量除以其长度。在统计中,标准化似乎是指减去均值再除以其SD。但是它们似乎也可以与其他可能性互换。 创建某种通用分数时,它由不同的指标组成,它们具有不同的平均值和不同的SD,您是否会进行标准化,标准化或其他?有人告诉我,这只是采取每个指标并将其分别除以SD的问题。然后将两者相加。这将导致可用于判断两个指标的通用评分。222 例如,假设您有乘地铁上班的人数(在纽约市)和有开车上班的人数(在纽约市)。 车⟶ ÿ火车⟶ XTrain⟶x\text{Train} \longrightarrow x 汽车⟶ ÿCar⟶y\text{Car} \longrightarrow y 如果您想创建一个通用分数来快速报告交通波动,则不能只添加和因为会有更多的人乘坐火车。纽约有800万人居住,还有游客。每天有数百万人乘火车,数十万人乘汽车。因此,需要将它们转换为相似的规模才能进行比较。均值(y )均值(x )mean(x)\text{mean}(x)平均(ÿ)mean(y)\text{mean}(y) 如果均值(x )= 8 ,000 ,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 和平均(ÿ) = 800 ,000mean(y)=800,000\text{mean}(y) = 800,000 您可以将&归一化然后求和吗?您会标准化和然后求和吗?还是将它们除以各自的SD然后求和?为了得到一个数字,当波动时,表示总流量波动。y x yXxxÿyyXxxÿyy 任何供参考的文章或章节,将不胜感激。谢谢! 这也是我正在尝试做的另一个例子。 假设您是一名大学院长,并且您正在讨论入学要求。您可能希望学生具有至少一定的GPA和一定的考试分数。如果两者的规模相同,那就太好了,因为您可以将两者加在一起,然后说:“至少7.0的任何人都可以被录取。” 这样,如果一个预期的学生的GPA为4.0,他们可能会低至3.0的测试分数并仍然被录取。相反,如果某人的GPA为3.0,则仍然可以以4.0的测试分数被录取。 但这不是那样。ACT是36分制,大多数GPA是4.0(有些是4.3,很烦)。由于我不能仅仅添加ACT和GPA来获得某种通用分数,因此我该如何对其进行转换以便将它们添加进去,从而创建通用分数。然后作为院长,我可以自动接受分数超过特定阈值的任何人。甚至自动接受分数在前95%以内的所有人。 可以归一化吗?标准化?或只是将它们除以SD然后求和?


3
在模型验证之前或之内进行特征归一化?
机器学习中的一种常见的良好做法是对预测变量进行特征归一化或数据标准化,即将减去均值的数据居中并将其除以方差(或标准差)进行归一化。为了自我控制并据我所知,我们这样做是为了实现两个主要目标: 为了数字稳定,请避免使用较小的模型权重。 确保优化算法(例如共轭梯度)的快速收敛,以使一个预测变量维的数量级过大而不会导致缓慢收敛。 我们通常将数据分为训练集,验证集和测试集。在文献中,我们通常会看到,要进行特征归一化,它们会在整个预测变量集上取均值和方差(或标准差)。我在这里看到的最大缺陷是,如果这样做,实际上是在将未来信息引入训练预测变量中,即均值和方差中包含的未来信息。 因此,我对训练数据进行了归一化处理,并保存了均值和方差。然后,使用训练均值和方差将特征归一化应用于验证和测试数据集的预测变量。这有根本的缺陷吗?谁能推荐一个更好的选择?

1
如果预测是目标,如何将标准化/标准化应用于训练和测试集?
是否同时转换所有数据或折叠(如果应用了简历)?例如 (allData - mean(allData)) / sd(allData) 我是否要分别转换训练集和测试集?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 还是要转换训练集并在测试集中使用计算?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 我相信3是正确的方法。如果3是正确的,我必须担心平均值不为0或范围不在[0; 1]或[-1; 1](规范化)的测试集?

3
在进行逻辑回归之前需要标准化吗?
我的问题是,在拟合逻辑回归之前,我们是否需要标准化数据集以确保所有变量在[0,1]之间具有相同的标度。公式为: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 我的数据集有2个变量,它们针对两个通道描述相同的事物,但是数量不同。假设这是两家商店的顾客拜访次数,这里是顾客是否购物。因为客户可以在购物之前访问两个商店,或者两次访问第一家商店,所以第二次访问一次。但是第一家商店的客户访问总次数是第二家商店的10倍。当我适合这个逻辑回归,没有标准化, coef(store1)=37, coef(store2)=13; 如果我将数据标准化,则coef(store1)=133, coef(store2)=11。这样的事情。哪种方法更有意义? 如果我适合决策树模型怎么办?我知道树结构模型不需要标准化,因为模型本身会以某种方式对其进行调整。但是请与大家一起检查。


3
是否为LASSO重新调整指标/二进制/虚拟预测值
对于LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循的一般 建议 是对连续变量使用0均值,1标准差归一化。但是假人有什么关系呢? 例如,来自同一所(优秀)暑期学校的一些应用示例,我将其连续变量的比例调整为0到1(尽管离群值并不大),可能与假人相当。但是,即使那样也不能保证系数应该在相同的数量级上,并因此受到类似的惩罚,这是重新缩放的主要原因,不是吗?

2
拉索之前的标准化真的有必要吗?
我已经了解了在进行诸如Lasso回归之类的操作之前标准化变量的三个主要原因: 1)系数的可解释性。 2)能够根据收缩后系数估计值的相对大小对系数重要性进行排名。 3)无需拦截。 但是我想知道最重要的一点。我们是否有理由认为标准化会改善模型的样本外推广?而且我不在乎我是否不需要模型中的拦截器。加一个不会伤害我。


3
“标准化”是什么意思,以及如何验证样本或分布是否已标准化?
我有一个问题要询问是否验证均匀分布(Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b))是否规范化。 首先,对任何分布进行规范化意味着什么? 第二,我们如何验证分布是否规范化? 我通过计算X理解 - 意思是X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 我们得到归一化的数据,但是这里要求验证分布是否被归一化。

2
有关标准化岭回归的问题
大家好,我发现了一两篇使用山脊回归的论文(用于篮球数据)。如果运行ridge回归,总是被告知要标准化我的变量,但是却被告知要这样做,因为ridge是比例变量(ridge回归并不是我们课程的真正组成部分,因此我们的讲师会略过它)。 我读过的这些论文并未对它们的变量进行标准化,这让我感到有些惊讶。他们还通过交叉验证最终获得了很大的lambda值(大约在2000-4000水平),并且我被告知这是由于未对变量进行标准化。 不标准化变量到底会如何导致较高的lambda值,并且,一般而言,不标准化变量会有什么后果?真的有什么大不了的吗? 任何帮助深表感谢。

2
用面板/纵向数据对回归数据进行标准化是否是一种好习惯?
通常,为了标准化比较系数,我在回归中对独立变量进行了标准化(这样,它们具有相同的单位:标准偏差)。但是,对于面板/纵向数据,我不确定如何标准化我的数据,特别是如果我估计一个层次模型。 要了解为什么这可能是一个潜在问题,请假设您有i=1,…,ni=1,…,ni = 1, \ldots, n个沿着t=1,…,Tt=1,…,Tt=1,\ldots, T周期测量的个体,并且测量了因变量yi,tyi,ty_{i,t}和一个自变量xi,txi,tx_{i,t}。如果运行完整的池回归,则可以通过以下方式标准化数据:x.z=(x−mean(x))/sd(x)x.z=(x−mean(x))/sd(x)x.z = (x- \text{mean}(x))/\text{sd}(x),因为它不会更改t统计量。另一方面,如果您适合一个非池化回归,即每个个体的一个回归,那么您应该仅按个体而不是整个数据集(在R代码中)对数据进行标准化: for (i in 1:n) { for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,]) } 但是,如果您将简单的层次模型拟合为具有不同个体截距的模型,那么您将使用收缩估计量,即,您正在估计池回归和非池回归之间的模型。我应该如何标准化我的数据?像汇总回归一样使用整个数据?只使用个人,例如在不公开的情况下?

1
需要回归中的数据居中和标准化
考虑采用某种正则化的线性回归:例如,找到使| |最小的。| A x − b | | 2 + λ | | x | | 1个xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常,将A的列标准化为具有零均值和单位范数,而的中心为具有零均值。我想确定我对标准化和居中原因的理解是否正确。bbb 通过使和b列的均值为零,我们不再需要拦截项。否则,目标将是| | A x − x 0 1 − b | | 2 + λ | | x | | 1。通过使A的列的范数等于1,我们消除了仅由于A的一列具有很高的范数而在x中获得较低系数的情况的可能性,这可能导致我们错误地得出结论: A不能很好地“解释” x。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx 这种推理并不严格,而是凭直觉,这是正确的思维方式吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.