Questions tagged «normalization»

通常,“规范化”是指重新表达数据以使值位于指定范围内。

3
R中的列式矩阵归一化
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我想在R中执行矩阵的列式归一化。给定一个矩阵m,我想通过将每个元素除以该列的总和来归一化每个列。一种执行此操作的方法如下: m / t(replicate(nrow(m), colSums(m))) 有没有更简洁/更优雅/更有效的方法来完成相同的任务?

1
将很小的似然值转换(归一化)为概率
我正在编写一种算法,在给定模型的情况下,我计算一组数据集的似然度,然后需要对每种似然度进行标准化(以概率表示)。因此[0.00043,0.00004,0.00321]之类的内容可能会转换为[0.2,0.03,0.77]之类的内容。 我的问题是,我正在使用的对数可能性很小(例如,在对数空间中,值类似于-269647.432,-231444.981等)。在我的C ++代码中,当我尝试添加两个(通过采用它们的指数)时,得到的答案是“ Inf”。我试图将它们添加到日志空间(日志的加法/减法)中,但是再次遇到相同的问题。 谁能对此发表自己的见解?



3
“标准化”是什么意思,以及如何验证样本或分布是否已标准化?
我有一个问题要询问是否验证均匀分布(Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b))是否规范化。 首先,对任何分布进行规范化意味着什么? 第二,我们如何验证分布是否规范化? 我通过计算X理解 - 意思是X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 我们得到归一化的数据,但是这里要求验证分布是否被归一化。

4
SVD / PCA的“规范化”变量
假设我们有NNN可测量的变量(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N),我们进行了M>NM>NM > N个测量,然后希望对结果进行奇异值分解,以找到最大方差轴。N维空间中的MMM个点。(注意:假设的装置一个我已经减去,所以⟨ 一个我 ⟩ = 0对于所有我)。NNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii 现在假设一个(或多个)变量的特征量级与其余变量具有显着不同的特征量级。例如a1a1a_1可具有值的范围在10−10010−10010-100其余的可能约为0.1−10.1−10.1-1。这将扭曲向最高方差的轴a1a1a_1的轴非常多。 大小上的差异可能仅仅是由于不幸地选择了度量单位(如果我们谈论的是物理数据,例如公里与米),但是实际上不同的变量可能具有完全不同的尺寸(例如重量与体积),因此可能没有任何明显的方法为它们选择“可比较”的单位。 问题: 我想知道是否存在任何标准/通用方法来规范化数据以避免这种问题。我更感兴趣的是产生了相当的幅度标准技术a1−aNa1−aNa_1 - a_N为了这个目的,而不是想出一些新的东西。 编辑: 一种可能性是通过其标准偏差或类似的东西标准化每个变量。但是,随后出现以下问题:让我们将数据解释为NNN维空间中的点云。该点云可以旋转,并且这种类型的归一化将根据旋转给出不同的最终结果(在SVD之后)。(例如,在最极端的情况下,想象精确地旋转数据以使主轴与主轴对齐。) 我希望不会有任何旋转不变的方法,但是如果有人能指出我对文献中有关此问题的某些讨论,特别是关于结果解释中的注意事项,我将不胜感激。

4
交叉验证之前的归一化
在执行重复的k倍交叉验证之前,对数据进行归一化处理(均值为零,统一标准差为零)是否会产生诸如过度拟合之类的负面后果? 注意:这是针对#cases> total #features的情况 我正在使用对数转换来转换部分数据,然后如上所述对所有数据进行规范化。然后执行功能选择。接下来,我将选定的特征和标准化数据应用于重复的10倍交叉验证,以尝试估计广义分类器的性能,并担心使用所有数据进行标准化可能不合适。我是否应该使用从该折叠训练数据中获得的归一化数据对每个折叠的测试数据进行归一化? 任何意见表示感谢!很抱歉,这个问题似乎很明显。 编辑: 在对此进行测试(符合以下建议)时,我发现CV之前的规范化与CV中的规范化相比在性能方面没有太大差异。

1
分位数归一化如何工作?
在使用微阵列的基因表达研究中,必须对强度数据进行标准化,以便可以比较个体之间,基因之间的强度。从概念上和算法上,“分位数规范化”如何工作,您将如何向非统计学家解释?

3
在线学习中的正则化和功能扩展?
假设我有一个逻辑回归分类器。在正常的批处理学习中,我会使用正则化项来防止过度拟合并保持较小的体重。我还将规范化和缩放我的功能。 在在线学习环境中,我获得了连续的数据流。我对每个示例都进行了梯度下降更新,然后将其丢弃。我应该在在线学习中使用特征缩放和正则化术语吗?如果是,我该怎么办?例如,我没有一组可用于扩展的训练数据。我也没有设置验证来调整我的正则化参数。如果没有,为什么不呢? 在我的在线学习中,我不断获得大量示例。对于每个新示例,我都会做一个预测。然后在下一个时间步骤中,我得到了实际目标并进行了梯度下降更新。

4
特征缩放和均值归一化
我正在上学的吴安德(Andrew Ng)的机器学习课程,经过几次尝试都无法正确回答这个问题。请帮助解决此问题,尽管我已经通过了该级别。 假设学生参加了某堂课,并且该班进行了期中考试和期末考试。您已经收集了两次考试的分数数据集,如下所示:m=4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 您想使用多项式回归来根据学生的期中考试成绩来预测学生的期末考试成绩。具体而言,假设您要拟合以下形式的模型:,其中是中期得分,是(中期得分)^ 2。此外,您计划同时使用特征缩放(除以特征的“最大-最小”或范围)和均值归一化。X 1 X 2hθ(x)=θ0+θ1x1+θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2x1x1x_1x2x2x_2 什么是归一化特征?(提示:中期= 89,最终= 96是培训示例1。)请在下面的文本框中输入答案。如果适用,请在小数点后至少提供两位数字。x(4)2x2(4)x_2^{(4)}

2
我可以使用CLR(中心对数比转换)为PCA准备数据吗?
我正在使用脚本。它用于核心记录。我有一个数据框,该数据框显示了给定深度(第一列)中各列的不同元素组成。我想用它来执行PCA,我对必须选择的标准化方法感到困惑。 你们中有没有人使用clr()来准备的数据prcomp()?还是将我的解决方案掺假了?除了在中使用属性scale之外,我还尝试clr()在使用prcomp()函数之前对数据使用on prcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html 描述scale是为了缩放数据,因此它们具有单位差异。我想我的数据规模与我想要的完全不同。问题是,当我使用上面的代码或跳过时clr()(这会产生更想要的结果),我收到了不同的解决方案。但是我想知道为什么clr()在这种情况下令人不安?

4
行规范化的目的是什么
我理解列归一化背后的原因,因为即使没有按相同的比例尺对特征进行加权,也可以使特征得到相等的加权-但是,在最近的相邻文献中,列和行均被归一化。什么是行归一化/为什么要对行进行归一化?具体来说,行归一化的结果如何影响行向量之间的相似度/距离?

3
如何规范未知分布的数据
我试图找到某种类型的重复测量数据的最合适的特征分布。 本质上,在我所在的地质学领域,我们经常使用放射线测定样品中的矿物(岩石块)的年代,以查明事件发生多久了(岩石冷却到阈值温度以下)。通常,将对每个样本进行几次(3-10)次测量。然后,取平均值和标准偏差。这是地质,因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9μμ\muσσ\sigma10510510^510910910^9 不过,我有理由相信,测量不高斯:“离群”,要么宣布随意,或者通过一些标准,比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森,1951年],是相当这很常见(例如30分之一),而且这些数据几乎总是比较旧,这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。 因此,如果我能找到一个更好的分布,包括肥尾和偏斜,我认为我们可以构造更有意义的位置和比例参数,而不必如此迅速地分配离群值。也就是说,如果可以证明这些类型的测量是对数正态或对数拉普拉斯等,则可以使用比和更合适的最大似然性度量,它们是非稳健的,在这种情况下可能会有偏差系统右偏的数据。σμμ\muσσ\sigma 我想知道这样做的最好方法是什么。到目前为止,我有一个大约有600个样本的数据库,每个样本有2-10个(或大约)重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化,然后查看归一化数据的直方图。这会产生合理的结果,并且似乎表明该数据具有典型的对数拉普拉斯算式: 但是,我不确定这是否是解决问题的适当方法,或者不确定我是否意识到有一些警告可能会影响我的结果,所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
时间序列数据的实时归一化算法?
我正在研究一种算法,该算法将从多个传感器流中获取最新数据点的向量,并将欧几里德距离与以前的向量进行比较。问题在于,不同的数据流来自完全不同的传感器,因此采用简单的欧几里德距离将大大过分强调某些值。显然,我需要某种方式来规范化数据。但是,由于该算法是设计为实时运行的,因此在规范化过程中,我无法整体使用有关任何数据流的任何信息。到目前为止,我一直在跟踪每个传感器在启动阶段看到的最大值(前500个数据向量),然后将来自该传感器的所有将来数据除以该值。这工作出奇地好,但是感觉很不雅致。 我并没有为找到一个预先存在的算法而感到幸运,但是也许我只是没有在正确的地方寻找。有人知道吗?或有什么想法?我看到一个建议使用移动平均值(可能是由Wellford的算法计算得出的),但是如果我这样做了,那么相同值的多个读数将不会显示为相同,这似乎是一个很大的问题,除非我缺少一些东西。任何想法表示赞赏!谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.