Questions tagged «normalization»

通常,“规范化”是指重新表达数据以使值位于指定范围内。


5
标准化和标准化之间有什么区别?
在工作中,我们正在讨论此问题,因为我的老板从未听说过标准化。在线性代数中,归一化似乎是指矢量除以其长度。在统计中,标准化似乎是指减去均值再除以其SD。但是它们似乎也可以与其他可能性互换。 创建某种通用分数时,它由不同的指标组成,它们具有不同的平均值和不同的SD,您是否会进行标准化,标准化或其他?有人告诉我,这只是采取每个指标并将其分别除以SD的问题。然后将两者相加。这将导致可用于判断两个指标的通用评分。222 例如,假设您有乘地铁上班的人数(在纽约市)和有开车上班的人数(在纽约市)。 车⟶ ÿ火车⟶ XTrain⟶x\text{Train} \longrightarrow x 汽车⟶ ÿCar⟶y\text{Car} \longrightarrow y 如果您想创建一个通用分数来快速报告交通波动,则不能只添加和因为会有更多的人乘坐火车。纽约有800万人居住,还有游客。每天有数百万人乘火车,数十万人乘汽车。因此,需要将它们转换为相似的规模才能进行比较。均值(y )均值(x )mean(x)\text{mean}(x)平均(ÿ)mean(y)\text{mean}(y) 如果均值(x )= 8 ,000 ,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 和平均(ÿ) = 800 ,000mean(y)=800,000\text{mean}(y) = 800,000 您可以将&归一化然后求和吗?您会标准化和然后求和吗?还是将它们除以各自的SD然后求和?为了得到一个数字,当波动时,表示总流量波动。y x yXxxÿyyXxxÿyy 任何供参考的文章或章节,将不胜感激。谢谢! 这也是我正在尝试做的另一个例子。 假设您是一名大学院长,并且您正在讨论入学要求。您可能希望学生具有至少一定的GPA和一定的考试分数。如果两者的规模相同,那就太好了,因为您可以将两者加在一起,然后说:“至少7.0的任何人都可以被录取。” 这样,如果一个预期的学生的GPA为4.0,他们可能会低至3.0的测试分数并仍然被录取。相反,如果某人的GPA为3.0,则仍然可以以4.0的测试分数被录取。 但这不是那样。ACT是36分制,大多数GPA是4.0(有些是4.3,很烦)。由于我不能仅仅添加ACT和GPA来获得某种通用分数,因此我该如何对其进行转换以便将它们添加进去,从而创建通用分数。然后作为院长,我可以自动接受分数超过特定阈值的任何人。甚至自动接受分数在前95%以内的所有人。 可以归一化吗?标准化?或只是将它们除以SD然后求和?

6
神经网络中好的初始权重是什么?
我刚刚听说,从范围选择神经网络的初始权重是一个好主意,其中是给定神经元的输入数量。假设对这些集合进行了归一化-均值0,方差1(不知道这是否重要)。d(−1d√,1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd 为什么这是个好主意?


3
在模型验证之前或之内进行特征归一化?
机器学习中的一种常见的良好做法是对预测变量进行特征归一化或数据标准化,即将减去均值的数据居中并将其除以方差(或标准差)进行归一化。为了自我控制并据我所知,我们这样做是为了实现两个主要目标: 为了数字稳定,请避免使用较小的模型权重。 确保优化算法(例如共轭梯度)的快速收敛,以使一个预测变量维的数量级过大而不会导致缓慢收敛。 我们通常将数据分为训练集,验证集和测试集。在文献中,我们通常会看到,要进行特征归一化,它们会在整个预测变量集上取均值和方差(或标准差)。我在这里看到的最大缺陷是,如果这样做,实际上是在将未来信息引入训练预测变量中,即均值和方差中包含的未来信息。 因此,我对训练数据进行了归一化处理,并保存了均值和方差。然后,使用训练均值和方差将特征归一化应用于验证和测试数据集的预测变量。这有根本的缺陷吗?谁能推荐一个更好的选择?

1
如果预测是目标,如何将标准化/标准化应用于训练和测试集?
是否同时转换所有数据或折叠(如果应用了简历)?例如 (allData - mean(allData)) / sd(allData) 我是否要分别转换训练集和测试集?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 还是要转换训练集并在测试集中使用计算?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 我相信3是正确的方法。如果3是正确的,我必须担心平均值不为0或范围不在[0; 1]或[-1; 1](规范化)的测试集?

4
归一化与缩放
数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然? 请举例说明。




8
如何将无界变量表示为0到1之间的数字
我想将变量表示为0到1之间的数字。该变量是一个非负整数,没有固有界限。我将0映射到0,但是我可以映射到1或0到1之间的数字呢? 我可以使用该变量的历史记录来提供限制。这意味着如果最大值增加,我必须重述旧的统计信息。我需要这样做还是应该知道其他技巧?

2
拉索之前的标准化真的有必要吗?
我已经了解了在进行诸如Lasso回归之类的操作之前标准化变量的三个主要原因: 1)系数的可解释性。 2)能够根据收缩后系数估计值的相对大小对系数重要性进行排名。 3)无需拦截。 但是我想知道最重要的一点。我们是否有理由认为标准化会改善模型的样本外推广?而且我不在乎我是否不需要模型中的拦截器。加一个不会伤害我。

2
余弦相似度是否等于12归一化的欧式距离?
相同的含义是,对于向量u和向量V的集合之间的相似性排名,它将产生相同的结果。 我有一个向量空间模型,该模型具有距离度量(欧式距离,余弦相似度)和归一化技术(none,l1,l2)作为参数。根据我的理解,设置[余弦,无]的结果应该与[euclidean,l2]相同或至少真的非常相似,但事实并非如此。 实际上,系统仍然有可能出现故障,或者向量是否存在严重错误? 编辑:我忘了提到向量是基于语料库文档中的单词计数。给定一个查询文档(我也将其转换为单词计数向量),我想从我的语料库中找到与其最相似的文档。 仅计算它们的欧几里得距离是一个简单的方法,但是在我从事的任务中,余弦相似度通常被用作相似度指示符,因为仅长度不同的向量仍被视为相等。距离/余弦相似度最小的文档被认为是最相似的。

5
您是否应该标准化二进制变量?
我有一个具有一组功能的数据集。其中一些是二进制的活动或已发射,非活动或处于休眠状态),其余为实际值,例如。0 = 4564.342(1 =(1个=(1=0 =0=0=4564.3424564.3424564.342 我想这个数据馈送到机器学习算法,所以我 -score所有的实值的功能。我大约在到之间。现在二进制值也为得分,因此零变为而其变为。3 − 2 z − 0.222 0.5555žžz333− 2-2-2žžz− 0.222-0.222-0.2220.55550.55550.5555 这样标准化二进制变量有意义吗?

1
行和列长度受限制的随机矩阵
我需要生成带有行和列的随机非平方矩阵,这些元素的均值= 0随机分布,并且受约束,使得每行的长度(L2范数)为,每列的长度为。等效地,每行的平方和为1,每列的。Ç 1 √RRRCCC111 [R[RC--√RC\sqrt{\frac{R}{C}}[RCRC\frac{R}{C} 到目前为止,我已经找到一种实现此目的的方法:简单地随机初始化矩阵元素(例如,从均值为零且具有任意方差的均匀分布,正态分布或拉普拉斯分布),然后将行和列交替归一化为,以行规范化结束。这似乎可以相当快地收敛到所需的结果(例如,对于和,列长度的变异通常在次迭代后),但是我不确定是否可以依靠这种快速收敛速度通常(针对各种矩阵尺寸和初始元素分布)。- [R = 40 Ç = 80 0.00001 2升Ë Ñ 克吨ħ =1length=1{\rm length} = 1R = 40R=40R=40C= 80C=80C=80 0.00001 0.00001~0.00001222 我的问题是:是否有一种方法可以直接获得所需的结果(,,而无需在行/列归一化?例如,类似用于对随机向量进行归一化的算法(随机初始化元素,测量平方值的总和,然后按通用标量缩放每个元素)。如果不是,是否存在上述迭代方法的收敛速度(例如,迭代次数直到错误)的简单表征?c o l u m n l e n g t h s = √row lengths=1row lengths=1{\rm row \ lengths} = 1 <ϵcolumn lengths=RC−−√column lengths=RC{\rm …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.