Questions tagged «terminology»

统计中特定技术用语/概念的用法和含义。

1
假设PCA始终旋转坐标轴,那么“旋转”和“未旋转”的主要成分是什么?
据我了解,主要成分是通过旋转坐标轴使其与最大方差方向对齐来获得的。 不过,我一直在阅读有关“未旋转的主成分”的信息,而我的统计软件(SAS)为我提供了varimax旋转的主成分以及未旋转的主成分。在这里,我很困惑:当我们计算主成分时,轴已经旋转了。那为什么还需要轮换呢?“未旋转的主要成分”是什么意思?

1
机器学习社区是否在滥用“以……为条件”和“以……为参数”?
假设取决于。严格来说,αXXXαα\alpha 如果和都是随机变量,我们可以写 ;α p (X | α )XXXαα\alphap (X| α )p(X∣α)p(X\mid\alpha) 但是,如果是一个随机变量,是一个参数,我们必须编写。α p (X ; α )XXXαα\alphap (X; α )p(X;α)p(X; \alpha) 我几次注意到机器学习社区似乎忽略了差异并滥用了这些术语。 例如,在著名的LDA模型中,是Dirichlet参数而不是随机变量。αα\alpha 它不应该是吗?我看到很多人,包括LDA论文的原始作者,都将其写为。p (θ | α )p (θ ; α )p(θ;α)p(\theta;\alpha)p (θ | α )p(θ∣α)p(\theta\mid\alpha)




4
人口的任何数量特性是“参数”吗?
我对术语统计和参数之间的区别比较熟悉。我认为统计量是通过将函数应用于样本数据而获得的值。但是,参数的大多数示例都与定义参数分布有关。一个常见的例子是均值和标准差,以参数化正态分布;系数和误差方差,以参数化线性回归。 但是,还有许多其他的人口分布值不是典型值(例如,最小回归,最大值,多元回归中的r平方,0.25分位数,中位数,系数非零的预测变量数量,偏度,数量大于0.3的相关性矩阵中的相关性等)。 因此,我的问题是: 人口的任何数量特性是否应标记为“参数”? 如果是,那为什么呢? 如果否,哪些特征不应标记为参数?它们应贴上什么标签?又为什么呢? 阐述混乱 维基百科有关估算器的文章指出: “估计器”或“点估计”是用于推断统计模型中未知参数值的统计信息(即数据的函数)。 但是我可以将未知值定义为.25分位数,并且可以为该未知数开发一个估算器。即,并非所有种群的定量特性都是以均值和sd为正态分布参数的相同方式作为参数,但是试图估算任何定量种群特性是合理的。

1
权变表中的权变是什么?
该韦氏字典定义一个偶然事件或情况为 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use in circumstances not completely foreseen 4 : …



7
黄金标准的含义是什么?
在阅读几篇论文时,我遇到了“黄金套装”或“黄金标准”一词。我不明白是什么使数据集成为黄金标准?同行的接受程度,引用次数以及研究人员的自由和与他所攻击问题的相关性?

2
随机变量和随机样本有什么区别?
当我学习统计学时,这两个表达使我很困惑。在我看来,它们是完全不同的东西。 甲随机样本是从群体中随机取一个样品,而随机变量是这样一组的实验的所有可能结果的映射到实数的函数。 但是,假设我画了一些样本,,和,其中和未知,那么,,随机样本还是随机变量?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3

2
什么是规则和正则化?
在学习机器学习时,我越来越多地听到这些话。实际上,有人在方程正则性方面获得了菲尔兹奖。因此,我想这是一个从统计物理/数学到机器学习的术语。当然,我问的很多人都无法直观地解释它。 我知道诸如dropout之类的方法有助于正则化(=>他们说它减少了过度拟合,但是我真的不明白这是什么:如果仅减少过度拟合,为什么不只称其为anti-overfit方法=>我想的更多,因此这个问题)。 如果您能解释一下,我将非常感激(我想天真的ML社区也将如此!) 您如何定义规律性?什么是规律性? 正则化是确保规律性的一种方法吗?即捕获规律? 为什么像dropout这样的集合方法,归一化方法都声称要进行正则化? 为什么这些(正则性/正则化)出现在机器学习中? 非常感谢你的帮助。


3
具有良好的常客属性意味着什么?
我经常听到这个短语,但从未完全理解它的意思。短语“良好的常客属性”目前在Google上有2750笔点击,在Scholar.google.com 上有 536笔,在stats.stackexchange.com上有4笔。 我发现一个明确的定义最接近来自最终幻灯片在这个斯坦福大学演讲,其状态 报告95%置信区间的意思是,即使在不同的估计问题之间,您也可以将“真实”参数“圈住”在您提出的95%的索赔中。这是具有良好的频繁性的估计程序的定义特征:它们在重复使用时经过仔细检查。 对此进行一点思考,我认为“良好的频率特性”一词意味着对贝叶斯方法,特别是区间构造的贝叶斯方法的某种评估。我知道贝叶斯区间意味着包含概率为的参数的真实值。频率间隔的构造应使得,如果间隔构造的过程被重复了很多次,则大约p * 100 %pppp * 100 %p∗100%p*100\%的间隔将包含参数的真实值。贝叶斯间隔通常不会保证间隔的百分比将覆盖参数的真实值。但是,某些贝叶斯方法也碰巧具有这样的性质:如果重复很多次,它们将覆盖大约的真实值。当他们拥有该属性时,我们就说它们具有“良好的常客属性”。p * 100 %p∗100%p*100\% 是对的吗?我认为这还不止于此,因为该短语是指良好的常客属性,而不是具有良好的常客属性。

1
“计数比例”和“连续比例”有什么区别?
在对另一个问题的评论中,要求澄清所讨论的主题是“计数比例”还是“连续比例”,并且后续调查表明差异是关键信息(逻辑/二项式与beta回归主题)。 两者之间的区别是什么,区别在哪里重要?使用“计数比例”与使用“连续比例”时要记住的重要事项是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.