Questions tagged «terminology»

统计中特定技术用语/概念的用法和含义。

1
PCA和PLS中的“负荷”和“相关负荷”有什么区别?
做主成分分析(PCA)时,要做的一件事是相互绘制两个载荷以研究变量之间的关系。在随附的用于进行主成分回归和PLS回归的PLS R软件包的论文中,有一个不同的图,称为相关负荷图(请参见本文中的图7和第15页)。的相关性装载,因为它是解释的,是分数之间和实际观察到的数据的相关性(从PCA或PLS)。 在我看来,加载和相关加载非常相似,只是它们的缩放比例有所不同。使用内置数据集mtcars的R中的可重现示例如下: data(mtcars) pca <- prcomp(mtcars, center=TRUE, scale=TRUE) #loading plot plot(pca$rotation[,1], pca$rotation[,2], xlim=c(-1,1), ylim=c(-1,1), main='Loadings for PC1 vs. PC2') #correlation loading plot correlationloadings <- cor(mtcars, pca$x) plot(correlationloadings[,1], correlationloadings[,2], xlim=c(-1,1), ylim=c(-1,1), main='Correlation Loadings for PC1 vs. PC2') 这些图的解释有什么区别?哪种曲线图(如果有的话)最适合在实践中使用?


2
为什么Neyman-Pearson引理是引理而不是定理?
这更多是历史问题,而不是技术问题。 为什么``Neyman-Pearson引理''是引理而不是定理? 链接至Wiki:https : //zh.wikipedia.org/wiki/内曼(Neyman)% E2%80%93Pearson_lemma 注意:问题不是关于什么是引理以及如何使用引理证明定理,而是关于内曼-皮尔森引理的历史。它曾经用来证明一个定理,然后碰巧更有用吗?是否有任何证据证明这是事实?

4
严格来说,“随机投影”不是投影吗?
随机投影算法的当前实现方式是使用投影矩阵将数据样本从映射到从而降低了数据样本的维数,该矩阵的条目来自适当的分布(例如来自):RdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR 方便地,存在理论证明,表明该映射近似保留了成对的距离。 但是,最近我发现了这些注释,其中作者声称该单词与严格矩阵的线性代数意义上的投影并不是严格意义上的投影(第6页)。根据此处给出的说明,这是因为当的列从中独立选择时,它们的列并非严格正交。因此,可以将强制执行列的正交性的RP的早期版本视为投影。RRRN(0,1)N(0,1)\mathcal N(0,1)RRR 您能否提供以下更详细的解释:(1)从严格意义上讲,投影的定义是什么;(2)为什么在这种定义下RP不是投影?



2
偏差是估计器的属性还是特定估计的属性?
例如,我经常遇到一些学生,他们知道“观察到的是“人口有偏估计。然后,在撰写报告时,他们会说:R 2[R2[R2R^2[R2[R2R^2 “我计算了观察到的和调整后的,它们非常相似,这表明我们获得的观察到的值仅有少量偏差。”R 2 R 2[R2[R2R^2[R2[R2R^2[R2[R2R^2 我通常会在谈论偏见时谈论的是估算器的属性,而不是特定的估算。但是,上面引用的语句是否滥用了术语,或者可以吗?

1
超出方差,偏度和峰度的高阶累积量和矩名称
在物理学或数学力学中,从基于时间的位置,可以通过导数获得相对于时间的变化率:速度,加速度,加加速度(3阶),抖动(4阶)。x (t )X(Ť)x(t) 一些人已经提出 了对七阶导数的捕捉,破裂,爆破。 受到机械物理学和弹性理论启发的矩在统计中也很重要,请参阅概率分布的“矩”有什么“矩”?早在K. Pearson的著作中提到过。 前滞后累积量(有时被归一化或居中),经典地称为方差(2阶),偏度 (3阶)和峰度或平坦度 (4阶)。000 尽管五阶或六阶累积量/矩的估计在有限样本中可能会很麻烦,但是否存在普遍接受或采用的五阶或六阶累积量/矩以及其他名称(“高阶矩”除外)? 引用《数字食谱》第3版:《科学计算的艺术》,第1页。723: 偏度(或第三时刻)和峰度(或第四时刻)应谨慎使用,或者更好的是,根本不使用 《对冲基金合规性和风险管理指南》的Armelle Guizot认为,显然可以在投资组合的风险分析中使用高达7或8阶的矩来证实这一点: 补充笔记: SE.maths:是否有过度偏斜的解释? 尾巴与中心(模式,肩膀)在造成偏斜方面的相对重要性

3
“学习模型”一词从何而来
我经常听到这里的数据挖掘者使用这个术语。作为从事分类问题的统计学家,我熟悉术语“训练分类器”,并且我认为“学习模型”的意思是相同的。我不介意“训练分类器”。这似乎描绘了拟合模型的想法,因为训练数据用于获得模型参数的良好或“改进的”估计。但是,学习会获得知识。用简单的英语来说,“学习模型”就是要知道它是什么。但是实际上,我们从不“知道”模型。模型近似于现实,但没有模型是正确的。就像Box所说的:“没有正确的模型,但有些有用。” 我想听听数据挖掘者的回应。该术语是如何产生的?如果使用它,为什么喜欢它?

1
回归模型中的左侧和右侧命名法
y=β0+β1x1+ε0y=β0+β1x1+ε0y = \beta_{0} + \beta_{1}x_{1} + \varepsilon_{0} 描述回归模型的语言(例如上面指定的非常简单的线性回归)通常会发生变化,并且这种变化通常会在含义上产生细微的变化。例如,方程式左侧的模型部分可以用括号(包括我不知道的其他术语)来表示: 因变量(因果关系提示) 预测变量(暗示模型预测/进行预测) 响应变量(暗示因果关系,或至少是时间顺序) 结果变量(暗示因果关系) 命名法的变化在等式的右侧也是正确的(相同的免责声明是我对其他术语不了解): 自变量(暗示因果优先级,暗示实验设计) 预测变量(暗示预测,意味着该变量具有与之关联的非零参数估计) 在提议审查或交流研究的过程中,我不仅有机会使用一个或另一个术语来称呼它,而且后来又以我选择用它代替的术语来称呼它。虽然打电话的人当然是学徒的(注:我是专业的学徒,所以我很同情),但是由于我们所有人都知道所传达的内容,我仍然想知道: 回归模型中是否存在左,右变量的常用术语,这些术语与(a)模型的外部用途,(b)变量之间的因果关系以及(c)研究方面无关用来产生变量的设计本身? 注意:我不是在问正确建模和正确解释的重要问题(即,我非常在意因果关系,研究设计等),而是对一种语言进行一般讨论更感兴趣。 (我想我认为“左手变量”和“右手变量”可能被解释为一个可靠的答案,但是这些术语似乎很笨拙……也许这是一个笨拙的问题。:)

1
是lm模型中的学生化残差v / s标准化残差
回归模型中的“学生残差”和“标准化残差”是否相同?我在R中建立了线性回归模型,并想绘制学生化残差v / s拟合值的图表,但没有找到在R中执行此操作的自动方法。 假设我有一个模型 library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 则使用plot(lm.fit)不会提供学生化残差与拟合值的任何关系图,但会提供标准化残差与拟合值的关系图。 我用过了plot(lm.fit$fitted.values,studres(lm.fit),它将绘制出想要的图形,所以只想确认我走的路正确,并且学生化和标准化残差不是一回事。如果它们不同,则请提供一些指南以计算它们及其定义。我在网上搜索,发现它有点混乱。


3
计算“实际覆盖概率”是否与计算“可信区间”相同?
我正在阅读入门级统计教科书。在关于二项式分布数据中成功比例的最大似然估计一章中,它给出了计算置信区间的公式,然后毫无保留地提及 考虑其实际覆盖率,即该方法产生捕获真实参数值的间隔的概率。这可能比标称值小很多。 并建议构建一个替代的“置信区间”,该区间可能包含实际的覆盖概率。 我第一次遇到标称覆盖率和实际覆盖率的想法。通过这里的旧问题,我想我已经理解了:有两个不同的概念,我们称为概率,第一个是尚未发生的事件将产生给定结果的可能性,第二个是观察者对已经发生的事件的结果的猜测是多么真实。似乎置信区间只测量第一种类型的概率,而所谓的“可信区间”则测量第二种类型的概率。我概括地说,置信区间是计算“名义覆盖率”的区间,可信区间是覆盖“实际覆盖率”的区间。 但是也许我对这本书有误解(尚不清楚它提供的不同计算方法是针对置信区间和可信区间,还是针对两种不同类型的置信区间),或者我曾经使用过其他资料我目前的理解。特别是我对另一个问题的评论, 置信区间为常客,贝叶斯可信 我怀疑我的结论,因为这本书没有在该章中描述贝叶斯方法。 因此,请澄清我的理解是正确的,还是我在途中犯了逻辑错误。


2
偏差方差分解:期望平方预测误差的项减去不可约误差
Hastie等。“统计学习的要素”(2009年)考虑了数据生成过程 其中和。È(ε )= 0 无功(ε )= σ 2 εÿ= f(X)+ εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} 他们对点(第223页,公式7.9)处的期望平方预测误差进行了以下偏差方差分解: 在我的自己的工作我没有指定而是取一个任意的预测(如果相关)。问题:我正在寻找 或更确切地说 的术语 错误(x 0)x0x0x_0˚F(⋅) ÿErr(x0)=E([y−f^(x0)]2|X=x0)=…=σ2ε+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.Err(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.