Questions tagged «centering»

居中涉及从原始分数中减去总体样本平均分数;标准化后,除以总体样品标准偏差即可。



1
居中如何使PCA有所不同(对于SVD和本征分解)?
将数据居中(或取消定义)对PCA有什么区别?我听说它可以简化数学运算,也可以防止第一台PC被变量的均值控制,但是我觉得我还不能完全掌握这个概念。 例如,此处的最佳答案是如何使数据居中摆脱回归和PCA中的截距?描述了不居中如何将第一个PCA拉过原点,而不是点云的主轴。基于我对如何从协方差矩阵的特征向量中获得PC的理解,我不明白为什么会发生这种情况。 而且,我自己进行的有无居中的计算似乎毫无意义。 考虑irisR 中的数据集中的setosa花。我按如下方式计算了样本协方差矩阵的特征向量和特征值。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 如果我首先对数据集进行居中,则会得到完全相同的结果。这似乎很明显,因为居中根本不会改变协方差矩阵。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 

3
为什么居中的自变量可以适度改变主效应?
受这个CV线程的启发,我有一个与多元回归和交互相关的问题:使用中心变量分层回归分析的交互项?我们应该集中哪些变量? 在检查调节效果时,我将我的自变量居中并乘以居中的变量,以计算出交互项。然后,我进行回归分析,并检查主要影响和相互作用影响,这可能表明存在中度影响。 如果我重做分析而没有居中,则确定系数(R2R2R^2)显然不会改变,而回归系数(ββ\beta)会改变。这似乎很清楚而且合乎逻辑。 我不了解的是:主要效果的p值会随着居中而发生实质性变化,尽管交互作用并没有(正确)。因此,我对主要影响的解释可能会发生巨大变化-取决于是否居中。(在两次分析中,它仍然是相同的数据!) 有人可以澄清吗?-因为那将意味着使变量居中的选项是强制性的,因此每个人都应该这样做以使用相同的数据获得相同的结果。 非常感谢您分发该问题以及您的全面解释。请放心,非常感谢您的帮助! 对我来说,居中的最大优势是避免多重共线性。建立规则是否居中仍然令人困惑。我的印象是,尽管这样做有一些“风险”,但大多数资源都建议以中心为中心。我再次想指出一个事实,两位处理相同材料和数据的研究人员可能得出不同的结果,因为一个人居中而另一个人居中。我刚刚读过Bortz(他曾是德国和欧洲的教授,并且是统计之星)的书的一部分,他甚至没有提到这种技术。只是指出在涉及变量时要特别注意解释变量的主要作用。 毕竟,当您使用一个IV,一个主持人(或第二个IV)和DV进行回归时,您是否建议居中?


1
将标准化的beta转换回原始变量
我意识到这可能是一个非常简单的问题,但是在搜索后找不到所需的答案。 我有一个需要标准化变量的问题,需要运行(岭回归)来计算beta的岭估计。 然后,我需要将它们转换回原始变量比例。 但是我该怎么做呢? 我找到了双变量情况的公式 β∗= β^小号X小号ÿ。β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. 这在D. Gujarati的《基本计量经济学》第175页,公式(6.3.8)中给出。 凡是在标准化的变量从回归运行的估计和是一样的估计转换回原来的规模,是因变量的样本标准差,以及是样本标准差。* β小号ÿ 小号Xβ∗β∗\beta^*β^β^\hat\beta小号ÿSyS_y小号XSxS_x 不幸的是,这本书没有涵盖多元回归的类似结果。 另外我不确定我是否理解双变量情况?简单的代数运算以原始比例给出的公式:β^β^\hat\beta β^=β∗小号ÿ小号Xβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 在我看来,对已经由放气的变量计算的必须再次由放气才能转换回去吗?(加上为什么不重新添加平均值?)小号X小号Xβ^β^\hat\beta小号XSxS_x小号XSxS_x 因此,有人可以在理想情况下通过推导解释多变量案例的处理方法,以便我可以理解结果吗?

3
对中和缩放虚拟变量
我有一个包含分类变量和连续变量的数据集。建议我将分类变量转换为每个级别的二进制变量(即A_level1:{0,1},A_level2:{0,1})-我认为有些人将其称为“虚拟变量”。 话虽这么说,然后使用新变量对整个数据集进行居中和缩放会产生误导吗?似乎我将失去变量的“开/关”含义。 如果产生误导,是否意味着我应该分别对连续变量进行居中和缩放,然后将其重新添加到我的数据集中? TIA。

1
自举样本均值时是否需要居中?
当阅读有关如何近似估计样本均值的分布时,我遇到了非参数自举方法。显然,可以通过的分布来近似的分布,其中表示样本均值引导程序样本。X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* 然后我的问题是:我需要居中吗?做什么的? 我不能只用近似吗?P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P(X¯∗n≤x)P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

3
如何将和包括在回归中,以及是否将它们居中?
我想将项及其平方(预测变量)包括在回归中,因为我假设低值对因变量有积极影响,而高值则有负面影响。在应该捕获更高价值的作用。因此,我期望的系数为正,的系数为负。除了,我还包括其他预测变量。xxxx2x2x^2xxxx2x2x^2xxxx2x2x^2xxx 我在这里读过一些文章,在这种情况下,最好将变量居中以避免多重共线性。 进行多元回归时,何时应将预测变量居中以及何时应对其进行标准化? 我应该分别将两个变量居中(平均)还是应该仅居中然后取平方,还是应该仅居中并包含原始?xxxx2x2x^2xxx 如果是一个计数变量,是否有问题?xxx 为了避免成为计数变量,我考虑过将其除以理论上定义的面积,例如5平方公里。这应该有点类似于点密度计算。xxx 但是,恐怕在这种情况下,如和x²= 4时,我对系数符号的最初假设将不再成立。x=2x=2x=2x²=4x²=4x²=4 x=2/5 km2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 km20.4 km20.4 \text{ km}^2 但是x2x2x^2会更小,因为 x2=(2/5)2=0.16x2=(2/5)2=0.16x^2= (2/5)^2= 0.16。

1
交互项是否使用中心变量分层回归分析?我们应该集中哪些变量?
我正在运行分层回归分析,但我有一些疑问: 我们是否使用居中变量计算交互作用项? 除了因变量外,我们是否必须将数据集中所有连续变量居中? 当我们必须记录一些变量时(因为它们的sd远远高于平均值),我们是否应该将刚刚记录的变量或初始变量居中? 例如:变量“ Turnover” --->记录的成交量(因为sd相对于平均值而言过高)---> Centered_Turnover? 或直接是营业额-> Centered_Turnover(我们一起工作) 谢谢!!

6
如何在R中对变量进行分组居中/标准化?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我熟悉的功能包括R的缩放比例和ARM的缩放比例。 也许最好的方法是使用apply的某种变体,指定一个或多个变量用作分组变量。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.