Questions tagged «normalization»

通常,“规范化”是指重新表达数据以使值位于指定范围内。

6
健壮的(非参数)度量,例如变异系数— IQR /中位数,还是替代方法?
对于给定的一组数据,通常将扩散作为标准偏差或IQR(四分位数间距)进行计算。 尽管a standard deviation是归一化的(z得分等),因此可以用来比较两个不同总体的传播,但IQR情况并非如此,因为来自两个不同总体的样本可能具有两个完全不同的尺度值, e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 我需要的是一种可靠的(非参数)度量,可以用来比较不同总体中的差异。 选择1: IQR / Median-类似于变异系数,即。σμσμ \frac{\sigma}{\mu} 选择2: Range / IQR 问题:比较人群之间的差异,哪种方法更有意义?如果选择1是选择2是否对任何事情都有意义/有意义,还是从根本上存在缺陷的措施?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
随机矩阵的稀疏诱导正则化
众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量→ b)f A ,→ b(→ X)= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0,我们很可能为很多选择甲,→ bL1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b},和在结果→ x中具有许多完全为零的条目。λλ\lambdax⃗ x→\vec{x} 但是,如果我们最小化受该的条目的状态→ X为正,而总和到1,然后将大号1术语不具有任何影响(因为‖ → X ‖ 1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的→ x稀疏?fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥ X⃗ ∥1个= 1‖x→‖1=1\|\vec{x}\|_1=1大号1个L1L_1X⃗ x→\vec{x}


1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


1
ReLU神经元的输入归一化
根据LeCun等(1998)的“ Efficient Backprop”,优良作法是对所有输入进行归一化,使它们以0为中心并在最大二阶导数范围内。因此,例如,对于“ Tanh”功能,我们将使用[-0.5,0.5]。随着黑森州变得更稳定,这将有助于反向传播进程。 但是,我不确定如何处理max(0,x)的整流神经元。(从那时起,还使用逻辑函数,我们想要类似[0.1,0.9]的东西,但是它并不以0为中心)

1
使用LDA作为预处理步骤时的功能标准化
如果使用多类线性判别分析(或有时也阅读“多判别分析”)进行降维(或通过PCA进行降维后的变换),则我通常会理解为即使使用完全不同的比例尺测量功能也不需要,对吗?因为LDA包含类似于马哈拉诺比斯距离的术语,已经暗示了标准化的欧几里得距离? 因此,不仅没有必要,而且在LDA上标准化和非标准化功能的结果应该完全相同!


1
动态时间规整和规范化
我正在使用动态时间规整来匹配“查询”和“模板”曲线,到目前为止取得了一定的成功,但是我有一些基本问题: 我正在通过评估DTW结果是否小于我启发式得出的某个阈值来评估“匹配”。这是使用DTW确定“匹配”的一般方法吗?如果没有,请说明... 假设(1)的答案是“是”,那么我感到困惑,因为DTW结果对a)曲线幅度的差异和b)查询向量的长度以及“模板”矢量。 我正在使用对称步长函数,因此对于(b),我通过除以M + N(DTW矩阵的宽度+高度)来归一化我的DTW结果。这似乎有些有效,但是似乎会惩罚距离对角线更远的DTW匹配(即,通过DTW矩阵的路径更长)。对于“规范化”方法来说,这似乎是任意的。除以通过矩阵的步数似乎有直觉的意义,但根据文献,这似乎并不是解决问题的方法。 那么,是否有更好的方法来针对查询和模板矢量的大小调整DTW结果? 最后,如何针对查询和模板向量之间的幅度差异归一化DTW结果? 实际上,由于缺乏可靠的归一化技术(或我缺乏理解),在处理样本数据以识别用于定义“匹配”的最佳阈值水平时,似乎需要大量的人工工作。我想念什么吗?

1
我应该如何标准化加速度传感器的数据?
我正在处理大量加速度计数据,这些数据是由许多对象佩戴的多个传感器收集的。不幸的是,这里似乎没有人知道设备的技术规格,而且我认为它们从未进行过校准。我没有关于设备的大量信息。我正在研究硕士学位论文,加速度计是从另一所大学借来的,所以情况有点不透明。那么,在设备上进行预处理?没有线索。 我所知道的是它们是具有20Hz采样率的三轴加速度计。数字的,大概是MEMS。我对非语言行为和手​​势感兴趣,根据我的消息来源,这些行为和手势通常会在0.3-3.5Hz的范围内产生活动。 规范化数据似乎很有必要,但是我不确定该使用什么。数据的很大一部分接近于其余值(从重力开始,原始值约为1000),但有些极端,例如某些日志中的最大值为8000,而另一些日志中的最大值为29000。请参见下图。我认为用max或stdev进行归一化是一个坏主意。 在这种情况下,通常的做法是什么?除以中位数?百分位数值?还有吗 作为附带问题,我也不确定是否应该限制极端值。 感谢您的任何建议! 编辑:这是大约16分钟的数据(20000个样本)的图表,可让您大致了解数据的分布方式。

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
如何为频率差异很大的点过程构造四边形?
我想对几个点过程(或一个标记点​​过程)执行平方计数分析,然后应用一些降维技术。 这些标记分布不均,即某些标记经常出现,而有些则很少。因此,我不能简单地将2D空间划分为规则的网格,因为频率较高的标记将“淹没”频率较低的标记,从而掩盖了它们的外观。 因此,我尝试构建网格,以使每个像元中最多包含N个点(为此,我将每个像元简单地递归地划分为四个较小(大小相同)的像元,直到每个像元中不超过N个点为止。它)。 您如何看待这种“规范化”技术?有没有做这种事情的标准方法?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.