Questions tagged «intuition»

寻求对统计数据进行概念或非数学理解的问题。

1
用于集群验证的信息(VI)指标变化背后的直觉是什么?
对于像我这样的非统计学家来说,VI即使阅读了Marina Melia的相关论文“ Comparing clusters-an based based distance ”(多变量分析杂志,2007年),也很难把握度量(信息的变化)的概念。实际上,我不熟悉许多集群的术语。 以下是MWE,我想知道在使用的不同指标中输出的含义。我在R中具有这两个群集,并且具有相同的id顺序: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, …

3
直觉和变异系数的用途
我目前正在Coursera.org上参加“ 运营管理入门”课程。在课程的某个时候,教授开始处理手术时间的变化。 他使用的度量是变异系数,即标准偏差和平均值之间的比率: Cv= σμCv=σμc_v = \frac{\sigma}{\mu} 为什么要使用此度量?除了使用标准偏差外,使用CV还有哪些优缺点?这种测量背后的直觉是什么?

2
如何理解卷积深度信念网络进行音频​​分类?
Lee等人在“ 用于分层表示的可扩展无监督学习的卷积深度信念网络 ”中。(PDF)提出了卷积DBN。还对该方法进行了图像分类评估。这听起来很合逻辑,因为具有自然的局部图像特征,例如小角和边缘等。 Lee等人在“ 使用卷积深度置信网络进行音频​​分类的无监督特征学习 ”中。等 此方法适用于不同类别的音频。说话者识别,性别识别,电话分类以及一些音乐流派/艺术家分类。 如何将网络的卷积部分解释为音频,就像将图像解释为边缘一样?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
长短期记忆(LSTM)递归神经网络背后的直觉是什么?
循环神经网络(RNN)背后的想法对我很清楚。我以以下方式理解它:我们有一系列观察()(或换句话说,多元时间序列)。每个单个观测是一个维数值向量。在RNN模型中,我们假定下一个观测值是先前观测值以及先前的“隐藏状态”,其中隐藏状态也由数字表示向量(观察状态和隐藏状态的尺寸可以不同)。还假定隐藏状态本身取决于先前的观察和隐藏状态:o⃗ 1,o⃗ 2,…,o⃗ nØ→1个,Ø→2,…,Ø→ñ\vec o_1, \vec o_2, \dots, \vec o_no⃗ iØ→一世\vec o_iNñNo⃗ i+1Ø→一世+1个\vec o_{i+1}o⃗ iØ→一世\vec o_{i}h⃗ iH→一世\vec h_i Ø⃗ 一世,小时⃗ 一世= F(o⃗ i − 1,小时⃗ i − 1)Ø→一世,H→一世=F(Ø→一世-1个,H→一世-1个)\vec o_i, \vec h_i = F (\vec o_{i-1}, \vec h_{i-1}) 最后,在RNN模型中,函数FFF被假定为神经网络。我们使用可用数据(观察序列)训练(拟合)神经网络。我们训练的目标是能够使用先前的观察结果尽可能准确地预测下一个观察结果。 现在,LSTM网络是对RNN网络的修改。据我了解,LSTM背后的动机是解决RNN特有的短存储问题(常规RNN在相关事件之间存在时间间隔过长的问题)。 我了解LSTM网络是如何工作的。这是我发现的LSTM的最佳解释。基本思想如下: 除了隐藏状态向量之外,我们还引入了一种所谓的“单元状态”向量,该向量具有与隐藏状态向量(C⃗ 一世C→一世\vec c_i)相同的大小(维数)。我认为引入了“细胞状态”向量来建模长期记忆。与常规RNN一样,LSTM网络将观察到的和隐藏的状态作为输入。使用此输入,我们可以通过以下方式计算新的“单元状态”: C⃗ 我+ 1= ω⃗ 1个(o⃗ 一世,小时⃗ 一世)⋅ …


3
两个变量之和的方差公式的直觉
我从以前的研究中知道 V一个- [R (甲+ 乙)= V一个- [R (甲)+ Va r (B )+ 2 Co v (A ,B )V一个[R(一个+乙)=V一个[R(一个)+V一个[R(乙)+2CØv(一个,乙)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) 但是,我不明白为什么。我可以看到,当A和B高度变化时,其效果将是“推高”方差。这是有道理的,当您从两个高度相关的变量创建一个合成时,您倾向于将A的高观测值与B的高观测值相加,A的低观测值与B的低观测值相加。在复合变量中创建极高和极低的值,从而增加复合变量的方差。 但为什么它的工作原理通过乘以协方差恰好 2?

1
倾向评分权重中治疗权重(IPTW)的逆概率的直观解释?
我了解使用倾向得分计算权重的机制: ,然后将权重应用于回归分析,并且权重用于“控制”治疗组和对照组人群中协变量的作用或使结果与结果变量无关。p(xi)p(xi)p(x_i)wi,j=treatwi,j=control=1p(xi)=11−p(xi)wi,j=treat=1p(xi)wi,j=control=11−p(xi)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} 但是,在直觉上,我不了解权重是如何实现的,以及为什么方程式如此构造。

2
两个样本的Kullback-Leibler散度
我尝试对两个样本实施Kullback-Leibler散度的数值估计。要调试的执行从两个正态分布绘制样品N(0,1)N(0,1)\mathcal N (0,1)和N(1,2)N(1,2)\mathcal N (1,2)。 为了进行简单的估算,我生成了两个直方图,并尝试在数值上近似积分。我不得不处理直方图的那些部分,其中直方图之一的bin为零,这样我要么以零除或以零的对数结束。我该如何处理? 我想到一个相关的问题:如何精确计算两个不同均匀分布之间的KL散度?我是否必须将积分限制为两个分布的支持的并集?

1
为什么(对进行审查)
在一个问题集中,我证明了这个“引理”,其结果对我而言并不直观。是审查模型中的标准正态分布。ZZZ 形式上, 和。然后, 因此,截断域上的期望公式与截断点处的密度之间存在某种联系。谁能解释这背后的直觉?Z∗∼Norm(0,σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2)Z=max(Z∗,c)Z=max(Z∗,c)Z = max(Z^*, c)E[Z|Z>c]=∫∞cziϕ(zi)dzi=12π−−√∫∞cziexp(−12z2i)dzi=12π−−√exp(−12c2) (Integration by substitution)=ϕ(c)E[Z|Z>c]=∫c∞ziϕ(zi)dzi=12π∫c∞ziexp(−12zi2)dzi=12πexp(−12c2) (Integration by substitution)=ϕ(c)\begin{align} E[Z|Z>c] &= \int_c^\infty z_i \phi({z_i})\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}}\int_c^\infty z_i \exp\!\bigg(\frac{-1}{2}z_i^2\bigg)\mathrm{d}z_i \\ &= \frac{1}{\sqrt{2\pi}} \exp\!\bigg(\frac{-1}{2}c^2\bigg) \quad\quad\quad\quad\text{ (Integration by substitution)}\\ &= \phi(c) \end{align}(c)(c)(c)

2
找出最小协方差矩阵的适当方法
在我读的教科书中,他们使用正定性(半正定性)来比较两个协方差矩阵。这个想法是,如果是Pd然后小于。但是我很难理解这种关系吗?A − BA−BA-B乙BB一个AA 这里有一个类似的线程: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 使用确定性比较矩阵的直觉是什么? 尽管答案很好,但它们并不能真正解决直觉。 这是一个令人困惑的示例: [ 1612129] - [ 1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} 现在这里的差异的决定因素是-25,因此该关系不是pd甚至psd,因此第一个矩阵不大于第一个矩阵? 我只想比较两个3 * 3协方差矩阵,看看哪个最小?在我看来,使用欧几里得范数之类的东西进行比较会更直观吗?但是,这将意味着上面的第一个矩阵大于第二个矩阵。而且,我只见过用于比较协方差矩阵的pd / psd准则。 有人可以解释为什么pd / psd比使用其他方法(例如欧几里得范数)更好吗? 我也已经在数学论坛上发布了这个问题(不确定什么是最好的),希望这不违反任何规则。 /math/628135/comparing-two-covariance-matrices

3
为什么对于给定的n,比例的标准误差最大为0.5?
当所讨论的比例为0.5时,对于给定的N,比例的标准误差将是最大的,并且该比例的标准误差从0.5开始越小。当查看比例的标准误差的方程式时,我可以看到为什么会这样,但是我无法进一步解释。 除了公式的数学性质之外,还有其他解释吗?如果是这样,为什么估计比例(对于给定的N)在接近0或1时为何不确定性较小?

1
对数损失的直观解释
在几次kaggle比赛中,得分基于“ logloss”。这与分类错误有关。 这是一个技术性的答案,但我正在寻找一个直观的答案。我真的很喜欢答案这个有关马氏距离的问题,但PCA并不是logloss。 我可以使用分类软件提供的价值,但我不太了解。为什么用它代替真实/错误的阳性/阴性率?您能帮我,以便我可以向外婆或该领域的新手解释吗? 我也喜欢并同意以下报价: 除非您可以向祖母解释 - 否则您不会真正理解某些东西 在发布到这里之前,我尝试自行回答。 我没有发现直观或真正有用的链接包括: http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss 这些信息丰富,准确。它们是为技术读者准备的。他们没有画简单的图画,也没有给出简单易用的例子。他们不是为我祖母写的。

3
中心极限定理和帕累托分布
有人可以提供有关帕累托分布和中心极限定理之间关系的简单解释(例如,适用吗?为什么/为什么不呢?)?我试图理解以下陈述: “中心极限定理不适用于所有分布。这是由于一个偷偷摸摸的事实-样本均值聚集在基础分布的均值周围(如果存在的话)。但是分布如何没有均值呢?帕累托分布没有任何意义。如果您尝试使用通常的方法进行计算,则它会发散到无穷大。”

13
如果“ B更有可能给定A”,那么“ A更有可能给定B”
我试图获得更清晰的直觉:“如果使更有可能,那么使更有可能”一个AA乙BB乙BB一个AA 令表示和所在的空间的大小,然后Ñ (小号)n(S)n(S)一个AA乙BB 要求:使得P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) 所以n(AB)/n(B)>n(A)/n(S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) 这是P(A|B)>P(一)P(A|B)>P(A)P(A|B)>P(A) 我理解数学,但是为什么这很直观?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.