统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

7
两个序数变量之间的关系图
什么是合适的图来说明两个序数变量之间的关系? 我能想到的几种选择: 散点图,添加了随机抖动以使停止点彼此隐藏。显然是标准图形-Minitab将其称为“个体值图”。在我看来,这可能会产生误导,因为它在视觉上鼓励在序数级别之间进行线性插值,就好像数据来自间隔刻度。 调整散点图,以便点的大小(面积)代表级别组合的频率,而不是为每个采样单位绘制一个点。我偶尔在实践中看到过这样的情节。它们可能很难阅读,但是这些点位于规则排列的点阵上,这在一定程度上克服了对抖动分散图的批评,即它在视觉上“使数据间隔”。 特别是,如果将变量之一视为因变量,则按独立变量级别分组的箱形图。如果因变量的级别数不够高(非常“平坦”,缺少晶须或什至更糟的四分位数塌陷,使得无法通过视觉识别中位数),则可能看起来很糟糕,但是至少引起了人们对中位数和四分位数的关注序数变量的相关描述统计量。 带有热图以指示频率的单元格值表或空白网格。视觉上与散点图不同,但从概念上讲类似于散点图,点区域显示频率。 还有其他想法,或关于哪种情节更可取的想法?是否有某些研究领域将某些序数对纵坐标图视为标准?(我似乎还记得频率热图在基因组学中很普遍,但我怀疑频率相对于标称值与标称值更常见。)我也很希望从Agresti那里获得有关好的标准参考的建议。 如果有人想用图解来说明,则可以使用伪造样本数据的R代码。 “锻炼对您有多重要?” 1 =一点都不重要,2 =一点都不重要,3 =既不重要也不重要,4 =有点重要,5 =非常重要。 “您多长时间定期跑步10分钟或更长时间?” 1 =永不,2 =每两周少于一次,3 =每1或2周一次,4 =每周2或3次,5 =每周4次或更多。 如果将“经常”视为一个因变量而将“重要性”视为一个自变量是很自然的话,则可以用图来区分两者。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

8
时间序列分析中的陷阱
我只是在时间序列分析中开始自我学习。我注意到,存在许多潜在的陷阱,不适用于一般统计数据。因此,基于什么是常见的统计罪过?, 我想问一下: 时间序列分析中常见的陷阱或统计错误是什么? 这旨在作为社区Wiki,每个答案一个概念,请不要重复(或应该)列在“ 什么是常见的统计错误”上的更一般的统计陷阱?

2
为什么斯坦因悖论只适用于尺寸直觉
Stein的示例显示,如果均值且方差为则正态分布变量的最大似然估计是不允许的(在平方损失函数下)iff。有关精巧的证明,请参见Bradley Effron撰写的《大规模推理:估计,测试和预测的经验贝叶斯方法》的第一章。nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 一开始这对我来说是非常令人惊讶的,但是背后有一些直觉,为什么人们可能会期望标准估计值是不可接受的(最明显的是,如果,那么,如Stein的原始论文所述(链接到下面)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 我的问题是:缺少\ mathbb {R} ^ 2的nnn维空间(对于n≥3n≥3n\ge 3)具有什么特性,这有助于Stein的示例?可能的答案可能是关于n球的曲率,或者是完全不同的东西。R2R2\mathbb{R}^2nnn 换句话说,为什么在\ mathbb {R} ^ 2中允许MLE R2R2\mathbb{R}^2? 编辑1:响应@mpiktas对1.30之后的1.31的关注: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i所以Eμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).因此,我们有: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 编辑2:在本文中,斯坦因证明了MLE对于N = 2是可接受的N=2N=2N=2。


5
如何根据R的logistic回归计算伪?
克里斯托弗·曼宁(Christopher Manning)关于R中逻辑回归的文章显示,R中的逻辑回归如下: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) 一些输出: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.31827 0.12221 …

5
了解回归-模型的作用
如果您不知道要为其获取参数的函数,那么回归模型有什么用? 我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对约1000名母亲的调查,并控制了其他因素,并使用了对数线性模型。 现在这是否意味着他们认为确定糖尿病可能性的所有因素都符合一个很好的功能(可能是指数形式),可以很好地转化为具有对数的线性模型,并且证明母乳喂养的女性是否具有统计学意义? 我肯定会丢失一些东西,但是,他们到底怎么知道这个模型的?

4
什么是对比度矩阵?
什么究竟是对比矩阵(一个术语,关于与分类预测分析),以及如何准确地进行对比矩阵指定?即什么是列,什么是行,对该矩阵的约束是什么,列j和行中的数字i是什么意思?我试图研究文档和网络,但似乎每个人都在使用它,但任何地方都没有定义。我可以对可用的预定义对比进行后向工程,但是我认为没有该定义就应该可用。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …


1
两个多元高斯之间的KL散度
假设两个多元正态分布,我在推导KL散度公式时遇到麻烦。我已经很轻松地完成了单变量案例。但是,自从我获得数学统计数据以来已经有一段时间了,因此在将其扩展到多元案例时遇到了一些麻烦。我确定我只是缺少一些简单的东西。 这就是我所拥有的... 假设二者和q是正态分布的与装置的PDF文件μ 1和μ 2和方差Σ 1和Σ 2分别。从q到p的Kullback-Leibler距离为:pppqqqμ1个μ1\mu_1μ2μ2\mu_2Σ1个Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp ,对于两个多元法线为:∫[ 日志(p (x ))- 对数(q((x ))] p (x )d X∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) - \log( q(x)) \right]\ p(x)\ dx 12[log|Σ2||Σ1|−d+Tr(Σ−12Σ1)+(μ2−μ1)TΣ−12(μ2−μ1)]12[log⁡|Σ2||Σ1|−d+Tr(Σ2−1Σ1)+(μ2−μ1)TΣ2−1(μ2−μ1)]\frac{1}{2}\left[\log\frac{|\Sigma_2|}{|\Sigma_1|} - d + Tr(\Sigma_2^{-1}\Sigma_1) + (\mu_2 - \mu_1)^T \Sigma_2^{-1}(\mu_2 - \mu_1)\right] 遵循与此证明相同的逻辑,在陷入困境之前,请先到达此处: =∫[d2log|Σ2||Σ1|+12((x−μ2)TΣ−12(x−μ2)−(x−μ1)TΣ−12(x−μ1))]×p(x)dx=∫[d2log⁡|Σ2||Σ1|+12((x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ2−1(x−μ1))]×p(x)dx=\int \left[ \frac{d}{2} \log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2} \left((x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_2^{-1}(x-\mu_1) \right) …




3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Y必须服从正态分布的误解来自何处?
看似有信誉的消息来源声称因变量必须正态分布: 模型假设:是正态分布,误差是正态分布,,并且是独立的,并且是固定的,并且是恒定方差。YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 宾夕法尼亚州立大学,STAT 504离散数据分析 其次,线性回归分析要求所有变量均为多元正态。 统计解决方案,线性回归假设 当响应变量具有正态分布时,这是适当的 维基百科,广义线性模型 对于这种误解如何或为何蔓延,有很好的解释吗?它的起源已知吗? 有关 线性回归和关于响应变量的假设

1
GradientDescentOptimizer和AdamOptimizer(TensorFlow)之间的区别?
我已经在TensorFlow中编写了一个简单的MLP,它正在对XOR-Gate进行建模。 因此对于: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 它应该产生以下内容: output_data = [[0.], [1.], [1.], [0.]] 该网络具有一个输入层,一个隐藏层和一个输出层,每个层具有2、5和1个神经元。 目前,我有以下交叉熵: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 我也尝试过这种更简单的选择: cross_entropy = tf.square(n_output - output) 以及其他一些尝试。 但是,无论我的设置是什么,的错误GradientDescentOptimizer减少的速度都比的慢得多AdamOptimizer。 实际上tf.train.AdamOptimizer(0.01),经过400-800个学习步骤(取决于学习率,在哪里0.01获得最好的结果)后产生了非常好的结果,而tf.train.GradientDescentOptimizer无论使用哪种交叉熵计算或学习率,始终需要超过2000个学习步骤。 为什么会这样呢?看来AdamOptimizer永远是更好的选择?!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.