Questions tagged «standardization»

通常指“ z标准化”,它是对数据进行移位和重新缩放以确保它们的均值和单位方差为零。其他“标准化”也是可能的。


1
将标准化的beta转换回原始变量
我意识到这可能是一个非常简单的问题,但是在搜索后找不到所需的答案。 我有一个需要标准化变量的问题,需要运行(岭回归)来计算beta的岭估计。 然后,我需要将它们转换回原始变量比例。 但是我该怎么做呢? 我找到了双变量情况的公式 β∗= β^小号X小号ÿ。β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. 这在D. Gujarati的《基本计量经济学》第175页,公式(6.3.8)中给出。 凡是在标准化的变量从回归运行的估计和是一样的估计转换回原来的规模,是因变量的样本标准差,以及是样本标准差。* β小号ÿ 小号Xβ∗β∗\beta^*β^β^\hat\beta小号ÿSyS_y小号XSxS_x 不幸的是,这本书没有涵盖多元回归的类似结果。 另外我不确定我是否理解双变量情况?简单的代数运算以原始比例给出的公式:β^β^\hat\beta β^=β∗小号ÿ小号Xβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 在我看来,对已经由放气的变量计算的必须再次由放气才能转换回去吗?(加上为什么不重新添加平均值?)小号X小号Xβ^β^\hat\beta小号XSxS_x小号XSxS_x 因此,有人可以在理想情况下通过推导解释多变量案例的处理方法,以便我可以理解结果吗?

1
面板数据模型中一组内的标准化因变量?
在识别组中对因变量进行标准化是否有意义? 以下工作文件(法律亚马逊地区的森林砍伐放缓;价格或政策?,pdf)使用标准化的因变量来分析巴西总体政策变化对森林砍伐的影响。 标准化按如下方式完成: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 作者认为,这是为了“考虑市政当局内森林砍伐增量的相对变化”。作者特此使用面板数据的有限元估计(第12页)。新法律出台后的每一年都应包括一个后政策假人。 如果以这种方式标准化因变量,应该如何解释系数? 标准化不是非正统的吗,因为它为群体/市镇随时间变化较小的观测值提供了更高的价值?

4
我可以对偏斜和非正常数据使用Z分数吗?[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 5年前关闭。 我一直在处理一些过程周期时间数据,并使用标准的z分数进行缩放,以便在整个周期时间的各个部分之间进行比较。 由于数据严重右偏/非正常,我是否应该使用其他转换?(“异常值”永远不会花费消极时间,并且通常比“平均”花费更长的时间) 使用z分数似乎仍然“有效” ... ############### # R code ############### mydata <- rweibull(1000,1,1.5) hist(mydata) hist(scale(mydata))

5
标准化自变量是否会降低共线性?
我在Bayes / MCMC上看到了一篇很好的文章。IT建议您对自变量进行标准化将使MCMC(Metropolis)算法更有效,但也可能会降低(多重)共线性。可以吗?这是我应该做的标准工作吗(抱歉)。 Kruschke,2011年,《进行贝叶斯数据分析》。(美联社) 编辑:例如 > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6187113 0.3489766 sample estimates: cor -0.1774206 > standardise <- function(x) {(x-mean(x))/sd(x)} …


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


1
标准化变量的协方差是否具有相关性?
我有一个基本问题。说我有两个随机变量,和。我可以通过减去平均值并除以标准偏差来对它们进行标准化,即。XXXYYYXstandardized=(X−E(X))(SD(X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} 是的相关和,,一样的标准版本的协方差和?也就是说,吗?ÿ Ç ø - [R (X ,ÿ )X ý Ç ø - [R (X ,ÿ )= c ^ Ö v (X 小号吨一个Ñ ð 一个[R d 我Ž ë d,ÿ 小号吨一个Ñ d 一- [R d 我ž e d)XXXYYYCor(X,Y)Cor(X,Y)Cor(X, Y)XXXÿÿYCØr(X,Y)=Co v (X小号Ťand一个rdizË d,Y小号Ť 一nd一个rd一世zË d)Co[R(X,ÿ)=CØv(XsŤ一个ñd一个[Rd一世žËd,ÿsŤ一个ñd一个[Rd一世žËd)Cor(X, Y) = Cov(X_{standardized}, …


1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
使用LDA作为预处理步骤时的功能标准化
如果使用多类线性判别分析(或有时也阅读“多判别分析”)进行降维(或通过PCA进行降维后的变换),则我通常会理解为即使使用完全不同的比例尺测量功能也不需要,对吗?因为LDA包含类似于马哈拉诺比斯距离的术语,已经暗示了标准化的欧几里得距离? 因此,不仅没有必要,而且在LDA上标准化和非标准化功能的结果应该完全相同!

6
如何在R中对变量进行分组居中/标准化?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我熟悉的功能包括R的缩放比例和ARM的缩放比例。 也许最好的方法是使用apply的某种变体,指定一个或多个变量用作分组变量。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.