Questions tagged «definition»

该标签指示有关统计术语定义的问题。对于统计用语中与定义无关的问题,请使用更通用的标签[术语]。

3
分布到底是什么?
我对概率统计不了解,并且希望学习。我看到“分布”一词在不同的上下文中到处使用。 例如,离散随机变量具有“概率分布”。我知道这是什么 连续随机变量具有概率密度函数,则对于,概率密度函数从到的积分是在评估的累积分布函数。x∈Rx∈Rx\in\mathbb{R}−∞−∞-\inftyxxxxxx 显然,至少在谈论连续随机变量时,“分布函数”与“累积分布函数”同义(问题:它们是否总是同义词?)。 然后是许多著名的发行。 分布分布,等等。但是分布到底是什么?它是Γ随机变量的累积分布函数吗?还是Γ随机变量的概率密度函数?ΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma 但是,有限数据集的频率分布似乎是直方图。 长话短说:在概率统计中,“分布”一词的定义是什么? 我知道数学中的分布定义(配备归纳极限拓扑的测试函数集合的对偶空间的一个元素),而不是概率和统计。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


1
“ Heywood Case”的确切定义是什么?
我一直在非正式地使用术语“ Heywood Case”来指代由于数值精度问题在线,有限响应迭代更新的方差估计变为负数的情况。(我使用的是Welford方法的一种变体来添加数据并删除较旧的数据。)我的印象是,它适用于因数值误差或建模误差而使方差估计值变为负数的任何情况,但同事我对这个术语的用法感到困惑。除了在因子分析中使用的Google搜索之外,它的搜索量很少,并且似乎是指负方差估计的结果。确切的定义是什么?最初的海伍德是谁?

2
不独立于样本分布的统计示例?
这是维基百科上统计的定义 更正式地说,统计理论将统计量定义为样本的函数,其中函数本身与样本的分布无关。也就是说,可以在实现数据之前说明功能。统计信息一词既用于函数,也用于给定样本上的函数值。 我想我对这个定义大体上了解,但是我不能弄清函数独立于样本分布的那部分。 我到目前为止对统计的理解 一个样本是一组的一些数目的独立的实现中的,同分布与分布F(iid)的随机变量(10层的实现一个20面公平骰子,一个六面公平骰子的5个辊100米的实现的一个辊,从人口中随机抽取100个人)。 一个函数,其域就是该集合,其范围是实数(或者它可以产生其他事物,例如矢量或其他数学对象……)将被视为统计信息。 当我想到示例时,均值,中位数,方差在这种情况下都是有意义的。它们是一组实现的函数(来自随机样本的血压测量)。我还可以看到如何将线性回归模型视为统计yi=α+β⋅xiyi=α+β⋅xiy_{i} = \alpha + \beta \cdot x_{i} -这不仅是一组实现上的函数吗? 我感到困惑的地方 假设我从上面的理解是正确的,那么我将无法理解某个函数可能与样本分布无关的地方。我一直在想一个例子来理解它,但是没有运气。任何见解将不胜感激!

1
“因子分析的基本定理”如何应用于PCA,或如何定义PCA载荷?
我目前正在查看用于“因子分析”(据我所知的PCA)的幻灯片集。 其中,得出了“因子分析的基本定理”,它声称可以使用因子加载矩阵()恢复进入分析的数据的相关矩阵():RR\bf RAA\bf A R=AA⊤R=AA⊤\bf R = AA^\top 但是,这使我感到困惑。在PCA中,“因子负载”矩阵由数据协方差/相关矩阵的特征向量矩阵给出(因为我们假设数据已经标准化,所以它们是相同的),每个特征向量都按比例缩放为具有长度一。此矩阵是正交的,从而这是在一般不等于。AA⊤=IAA⊤=I\bf AA^\top = IRR\bf R

1
混杂因素-定义
根据卡茨(M. Katz)在其《多变量分析》(第1.2节,第6页)中的说法,“ 混杂因素与风险因素相关,并且与结果有因果关系。 ”为什么混杂因素必须与结果有因果关系?将混杂因素与结果关联起来就足够了吗?


6
确定状况“ B”对治疗“ A”的益处时,有效性和功效之间有何区别?
这个问题的背景是在健康框架内,即在疾病治疗中寻找一种或多种疗法。看起来,即使是受人尊敬的研究人员也可以将术语功效和效力混淆使用,这两个术语可以互换使用。 如何以一种有助于消除困惑的方式来考虑功效与功效? 哪种类型的研究设计最适合确定两种类型的结果? 有什么权威的期刊出版物,书籍或网络词典对我有帮助吗?

2
do(x)运算符的含义?
在关于因果关系的一些文献评论中,我到处都可以看到运算符(例如,参见此Wikipedia条目)。但是,我找不到该运算符的正式定义。do (x )do(x)do(x) 有人可以为此指出我一个很好的参考吗?我对一般定义感兴趣,而不是对特定实验中的解释感兴趣。



3
回归模型的定义和定界
一个令人尴尬的简单问题-但似乎之前尚未在Cross Validated上问过: 回归模型的定义是什么? 还有一个支持问题 什么不是回归模型? 关于后者,我对棘手的示例感兴趣,这些示例的答案不是立即显而易见的,例如ARIMA或GARCH。

2
什么是规则和正则化?
在学习机器学习时,我越来越多地听到这些话。实际上,有人在方程正则性方面获得了菲尔兹奖。因此,我想这是一个从统计物理/数学到机器学习的术语。当然,我问的很多人都无法直观地解释它。 我知道诸如dropout之类的方法有助于正则化(=>他们说它减少了过度拟合,但是我真的不明白这是什么:如果仅减少过度拟合,为什么不只称其为anti-overfit方法=>我想的更多,因此这个问题)。 如果您能解释一下,我将非常感激(我想天真的ML社区也将如此!) 您如何定义规律性?什么是规律性? 正则化是确保规律性的一种方法吗?即捕获规律? 为什么像dropout这样的集合方法,归一化方法都声称要进行正则化? 为什么这些(正则性/正则化)出现在机器学习中? 非常感谢你的帮助。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.