Questions tagged «terminology»

统计中特定技术用语/概念的用法和含义。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
名义/分类数据的“虚拟变量”与“指标变量”
“虚拟变量”和“指示变量”是标签常用术语,用于描述使用0/1编码的类别中的成员资格;通常为0:不属于类别成员; 1:属于类别成员。 2014年11月26日,对Scholar.google.com(带引号)进行了快速搜索,发现约有318,000篇文章使用了“虚拟变量”,而约112,000篇文章中使用了“指标变量”。术语“虚拟变量”在“ 绑定变量 ”的非统计数学中也具有含义,这很可能有助于在索引文章中更多地使用“虚拟变量”。 我的局部关联问题: 这些术语是否始终是同义词(在统计范围内)? 这些术语中的任何一个是否曾经被接受地应用于其他形式的分类编码(例如,效果编码,Helmert编码等)? 有什么统计学或学科原因比一个术语更喜欢一个术语?

1
统计和机器学习术语词典
是否存在统计和机器学习术语的参考词库?我知道Wikipedia文章通常包含同义词,但是我只想有一个同义词库,我可以轻松地通过它(相对于完整的百科全书)来确保我知道所有的术语。

1
随机检验和置换检验之间的区别
在文献中,术语“随机化”和“置换”可互换使用。许多作者都说“置换(aka随机化)测试”,反之亦然。 充其量我相信差异是微妙的,这取决于他们对数据的假设以及可以得出的结论。我只需要检查我的理解是否正确,或者我是否缺少更深的区别。 排列检验假设数据是从基础总体分布(总体模型)中随机抽取的。这意味着从置换检验得出的结论通常适用于来自总体的其他数据[3]。 随机化检验(随机化模型)“使我们能够放弃典型心理学研究的令人难以置信的假设-从指定分布中随机抽样” [2]。但是,这意味着得出的结论仅适用于测试中使用的样品[3]。 当然,区别仅在于人口的定义。如果我们将人群定义为“所有患有疾病且适合治疗的患者”,则排列检验对该人群有效。但是,由于我们将人群限制在适合治疗的人群中,因此它实际上是一项随机检验。 参考文献: [1] Philip Good,置换检验:关于检验假设的重采样方法的实用指南。 [2] Eugene Edgington和Patric Onghena,随机检验。 [3] Michael Ernst,置换方法:精确推断的基础



2
什么是机器学习中的贝叶斯错误?
http://www.deeplearningbook.org/contents/ml.html第116页说明了贝叶斯错误,如下所示 理想的模型是一个预言家,它仅知道生成数据的真实概率分布。即使这样的模型在许多问题上仍然会产生一些错误,因为分布中可能仍然存在一些噪音。在监督学习的情况下,从x到y的映射可能是内在随机的,或者y可能是确定性函数,除了x中包括的变量之外,还涉及其他变量。预言家根据真实分布p(x,y)进行预测而引起的错误称为贝叶斯错误。 问题 请直观地解释贝叶斯错误? 它与不可减少的误差有何不同? 我可以说总误差=偏差+方差+贝叶斯误差吗? “ y可能固有地是随机的”是什么意思?


2
Wolfram Mathworld是否会错误地描述具有概率密度函数的离散概率分布?
通常,使用概率质量函数(PMF)描述离散变量的概率分布: 当使用连续随机变量时,我们使用概率密度函数(PDF)而不是概率质量函数来描述概率分布。 - 深度学习的古德费洛,Bengio和库维尔 但是,Wolfram Mathworld使用PDF来描述离散变量的概率分布: 这是一个错误吗?还是没关系?

6
细读“相关”的主动/被动用法
我犹豫是在统计StackExchange中还是在语言学/英语中问这个问题,但我认为这里可能比其他论坛中精通统计的用户更多选择语言的用户;) 我经常阅读一些报告,其中提到相关性是主动语态中的动词,如“我们然后将A与B相关联并找到...”。对我而言,该动词仅在被动语态中才有意义,例如说“我们发现A和B显着相关”时。我可能会错,因为这实际上在语法上构成了主动语音与被动语音,但是我所描述的是对A和B进行某种操作(使它们最终都改变)与从中计算出第三个变量(例如R coeff)之间的区别。 当然,可以主动取消两个变量的关联,但在我看来,“关联”它们(而不是引用活动的变量)只是用作检查是否存在重要的此类关联的简写! 我错了吗?从统计学上讲,您将A与B相关联是否有意义?

3
分配家庭的定义?
分布族对统计的定义是否不同于其他学科? 通常,曲线族是一组曲线,每条曲线由一个函数或参数化给定,其中一个或多个参数发生变化。这样的族例如用于表征电子部件。 为了进行统计,根据形状来源的一个族是改变形状参数的结果。那么,我们如何才能理解伽玛分布具有形状和比例参数,并且只有广义伽玛分布才具有位置参数?这是否会使家庭成为改变位置参数的结果?根据@whuber一个家庭的意义是隐式A中的家庭的“参数化”是从ℝ的一个子集的连续映射Ñ,以其平常的拓扑结构,为分布的空间,其图像是家庭。n^n 用简单的语言来说,统计分布族是什么? 关于同一个家庭的分布的统计属性之间的关系的一个问题已经为另一个问题引起了很大的争议,因此似乎值得探讨其含义。 不一定是一个简单的问题,是因为它在指数族这一短语中的使用而产生的,它与曲线族无关,但与通过重新参数化(不仅是参数)改变分布的PDF的形式有关。 ,还可以替换独立随机变量的功能。



1
“因子分析的基本定理”如何应用于PCA,或如何定义PCA载荷?
我目前正在查看用于“因子分析”(据我所知的PCA)的幻灯片集。 其中,得出了“因子分析的基本定理”,它声称可以使用因子加载矩阵()恢复进入分析的数据的相关矩阵():RR\bf RAA\bf A R=AA⊤R=AA⊤\bf R = AA^\top 但是,这使我感到困惑。在PCA中,“因子负载”矩阵由数据协方差/相关矩阵的特征向量矩阵给出(因为我们假设数据已经标准化,所以它们是相同的),每个特征向量都按比例缩放为具有长度一。此矩阵是正交的,从而这是在一般不等于。AA⊤=IAA⊤=I\bf AA^\top = IRR\bf R


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.