统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


1
经验贝叶斯如何有效?
因此,我刚读完一本很棒的书《经验贝叶斯简介》。我以为这本书很棒,但是根据数据建立先验感觉是错误的。我们接受过培训,要求您提出分析计划,然后收集数据,然后测试您先前在分析计划中确定的假设。在对已经收集的数据进行分析时,这将使您进入选择性后推断,在此之后您必须对所谓的“重要”更为严格,请参见此处。我认为机器学习有一个类似的东西,叫做“樱桃采摘”,意思是在建立测试和训练集之前选出预测变量(《统计学习入门》)。 鉴于我以前学到的知识,在我看来,经验贝叶斯基于薄弱的基础。人们是否仅在被动生成数据的环境中使用它?如果是这样,这可能是合理的,但是在进行严格的实验设计时使用它似乎并不正确,但是我知道Brad Efron确实使用了专门针对生物统计学的经验贝叶斯方法,而贝叶斯通常是一个非常重要的NHST领域。 我的问题是: 经验贝叶斯如何有效? 在什么情况下使用? 在什么情况下应该避免使用经验贝叶斯方法?为什么? 人们是否在生物统计学之外的其他领域使用它?如果是,他们在什么情况下使用它?

2
分位数回归:损失函数
我试图理解分位数回归,但是让我受苦的一件事是损失函数的选择。 ρτ(u )= u (τ− 1{ u &lt; 0 })ρτ(ü)=ü(τ-1个{ü&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) 我知道的期望最小值等于位数,但是从此功能开始的直观原因是什么?我看不到最小化此功能与分位数之间的关系。有人可以向我解释吗?ρτ(y− u )ρτ(ÿ-ü)\rho_\tau(y-u)τ%τ%\tau\%

2
谁发明了决策树?
我试图追踪谁发明了决策树数据结构和算法。 在维基百科上有关决策树学习的条目中,有一种说法是“ ID3和CART是在大约同一时间(1970年至1980年之间)独立发明的”。稍后在以下位置介绍ID3: 昆兰,JR 1986年。决策树的归纳。马赫 学习。1,1(1986年3月),81-106 所以我不确定这个说法是否正确。 我发现使用Google的书籍是对1959年的《统计决策系列》和1958年的工作论文集的引用。上下文不清楚,他们似乎没有提出算法。但是,他们没有定义数据结构并将其视为众所周知的结构。 使用Google Scholar,我发现了可以追溯到1853年的引文,但这些引文是解析错误,而不是从那时起的实际引文。
24 cart  history 

2
混合模型是否可用作预测模型?
我对混合模型在预测建模方面的优势感到困惑。由于预测模型通常是用来预测先前未知观测值的,因此对我而言显而易见的是,混合模型可能有用的唯一方法是通过其提供总体水平的预测的能力(即不增加任何随机效应)。但是,问题在于,到目前为止,根据我的经验,基于混合模型的人口水平预测要比仅基于固定效应的标准回归模型的预测差得多。 那么关于预测问题的混合模型有什么意义呢? 编辑。问题如下:我拟合了混合模型(具有固定和随机效应)和仅具有固定效应的标准线性模型。当我进行交叉验证时,我得到以下预测精度层次:1)使用固定效应和随机效应进行预测时的混合模型(但这当然仅适用于具有已知随机效应变量水平的观察结果,因此这种预测方法似乎无法适合真正的预测应用!);2)标准线性模型;3)使用人口水平的预测时的混合模型(因此排除了随机影响)。因此,由于估计方法不同,标准线性模型和混合模型之间的唯一区别是系数的值有所不同(即,两个模型中的效果/预测因子相同,但相关系数不同)。 因此,我的困惑归结为一个问题,为什么我会使用混合模型作为预测模型,因为与标准线性模型相比,使用混合模型来生成总体水平的预测似乎是一种劣等策略。


2
负二项分布的连续推广
负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.是否有意义考虑对非负实数的连续分布由相同的公式定义(替换ķ ∈ Ñ0ķ∈ñ0k\in \mathbb N_0通过X ∈ ř≥ 0X∈[R≥0x\in\mathbb R_{\ge 0})?可以将二项式系数重写为(k + 1)\ cdot \ ldots \ cdot(k + r-1)的乘积,该乘积(k + 1 )⋅ … ⋅ (k + r − 1 )(ķ+1个)⋅…⋅(ķ+[R-1个)(k+1)\cdot\ldots\cdot(k+r-1)对于任何实数k都是定义明确的ķķk。因此,我们将得到一个PDF F(X ; - [R ,p )α Π我= 1r − 1(X + 我)⋅ pX(1 − p )[R。F(X;[R,p)∝∏一世=1个[R-1个(X+一世)⋅pX(1个-p)[R。f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. 更一般而言,我们可以用Gamma函数替换二项式系数,从而允许r的非整数值[R[Rr: F(X …

3
亚当优化器被认为对其超参数值具有鲁棒性的原因是什么?
我正在阅读有关深度学习的Adam优化器的内容,并在Bengio,Goodfellow和Courville撰写的新书《深度学习》中遇到了以下句子: 尽管有时需要将学习速率从建议的默认值更改,但通常认为Adam对超级参数的选择相当可靠。 如果确实如此,那么这很重要,因为超参数搜索对于深度学习系统的统计性能非常重要(至少以我的经验)。因此,我的问题是,为什么亚当·鲁伯特(Adam Robust)拥有如此重要的参数?特别是和β 2?β1β1\beta_1β2β2\beta_2 我已经阅读了Adam的论文,但没有提供任何解释说明为什么它可以与这些参数一起使用,或者其坚固性为何。他们有其他理由吗? 另外,因为我读的文件,似乎中超参数的数量,他们试图在那里非常小,只2和β 2只有3个。这怎么可能彻底的实证研究,如果它仅适用于2×3超参数?β1β1\beta_1β2β2\beta_2

1
半柯西分布的性质是什么?
我目前正在研究一个问题,我需要为状态空间模型开发马尔可夫链蒙特卡罗(MCMC)算法。 为了能够解决该问题,我给了以下概率:p()= 2I( &gt; 0)/(1+)。是的标准偏差。ττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauxxx 所以现在我知道这是一个半Cauchy分布,因为我从查看示例中就知道了它,并且因为有人告诉我。但是我不完全理解为什么它是一个“半Cauchy”发行版以及附带的属性。 在属性方面,我不确定我想要什么。我对这种计量经济学理论还很陌生。因此,对我而言,更多的是了解分布以及如何在状态空间模型上下文中使用它。模型本身看起来像这样: ytxt+1at+1p(σ2)p(τ)=xt+et=xt+at + 1∼ N(0 ,τ2)∝ 1 /σ2=2I(τ&gt; 0)π(1 + τ2)yŤ=XŤ+ËŤXŤ+1个=XŤ+一种Ť+1个一种Ť+1个〜 ñ(0,τ2)p(σ2)∝1个/σ2p(τ)=2一世(τ&gt;0)π(1个+τ2)\begin{align} y_t &= x_t + e_t \\ x_{t+1} &= x_t + a_{t+1} \\[10pt] a_{t+1} &\sim ~ N(0, \tau^2) \\ p(\sigma^2) &\propto 1/\sigma^2 \\[3pt] p(\tau) &= \frac{2I(\tau>0)}{\pi(1+\tau^2)} \end{align} 编辑:我在p()中包含。感谢您指出这一点。ππ\piττ\tau

3
无知先验理论的历史
我正在为贝叶斯统计课程(经济学硕士)写一则关于非先验先验的简短理论文章,并且试图理解发展该理论的步骤。 到目前为止,我的时间轴分为三个主要步骤:拉普拉斯的冷漠原则(1812),非不变先验(Jeffreys(1946)),伯纳多参考先验(1979)。 从我的文献综述中,我了解到,冷漠原理(Laplace)是用来表示缺乏先验信息的第一个工具,但是由于缺少不变性的要求,导致这种放弃一直到40年代,杰弗里斯(Jeffreys)提出了他的方法,该方法具有不变性的期望性质。由于在70年代不小心使用了不当先验而导致的边缘化悖论的出现促使贝尔纳多(Bernardo)阐述了他的先验先验理论以解决这个问题。 阅读文献时,每个作者都引用了不同的贡献:Jaynes的最大熵,Box和Tiao的数据翻译的可能性,Zellner,... 您认为我缺少哪些关键步骤? 编辑:如果有人需要,我添加我的(主要)引用: 1)通过正式规则选择先验者,卡斯,瓦瑟曼 2)无信息先验的目录,Yang,Berger 3)非信息贝叶斯先验解释以及构造和应用问题

3
当算术平均值非常接近几何平均值时,可以对数据得出什么结论?
几何平均值和算术平均值相差很远,例如〜0.1%,有什么重要意义吗?对于这样的数据集可以做出什么推测? 我一直在分析数据集,但我发现具有讽刺意味的是,这些值非常非常接近。不精确,但接近。此外,对算术平均数几何平均数不等式的快速理智检查以及对数据采集的回顾显示,就我如何得出这些值而言,我的数据集的完整性没有任何困扰。

7
针对非技术性但深度统计文章的建议
这个问题的灵感来自于已故的Leo-Breiman著名的文章《统计模型:两种文化》(开放获取)。作者将他认为是两种截然不同的数据分析方法进行了比较,涉及经典统计和机器学习中的关键思想。但是,无论读者是在博士级别上从事统计学研究还是仅参加入门课程,对广大读者来说,这篇文章都是可以理解的。而且,这篇文章令人振奋。也就是说,它很容易引起讨论(正如同一期发表的一系列生动评论所证明的那样)。 我很好奇,发现更多具有这些品质的文章。也就是说,以下文章: 触及统计/数据分析中的基本概念 在研究重点和正式统计培训方面存在差异,因此可以被广大受众理解 通过洞察力或争议激发讨论
24 references 


3
自从黎明以来,为什么不对所有实验进行多重假设校正?
我们知道,为了控制错误发现率,我们必须对基于单个数据集的实验应用类似于Benjamini Hochberg的校正来进行多个假设检验,否则所有给出阳性结果的实验​​都可能是错误的。 但是,为什么自开始以来我们不对所有实验都应用相同的原理,而不管数据来自何处? 毕竟,现在已知超过一半的被发表为“重要”的科学成果是虚假且不可复制的,没有理由不能如此轻易地做到100%。由于科学家只倾向于发表阳性结果,因此我们不知道阴性结果的数量,因此我们也不知道我们发表的内容是否只是假阳性-在零假设下纯正的随机机会产生的阳性结果。同时,没什么可说的是,多个假设检验校正的数学运算仅应适用于同一数据集的结果,而不适用于随时间推移获得的所有实验数据的结果。 似乎整个科学已经成为基于错误或虚假假设的一项大型捕鱼活动,那么我们如何才能对此进行控制? 如果我们曾经发布的所有结果都是独立的结果而没有对迄今为止进行的所有实验的多个假设检验进行任何校正,那么我们如何控制错误发现率呢? 是否可以在不进行此类纠正的情况下控制错误发现率?

3
评估Hosmer-Lemeshow拟合优度的逻辑回归和解释
众所周知,有两种评估逻辑回归模型的方法,它们正在测试非常不同的事物 预测能力: 获取一个统计数据,该统计数据可衡量您可以基于自变量预测因变量的程度。众所周知的伪R ^ 2是McFadden(1974)和Cox and Snell(1989)。 拟合优度统计 该测试告诉您是否可以通过使模型更复杂来做得更好,实际上是在测试是否存在任何非线性或相互作用。 我在模型上实施了两个测试, 已经添加了二次和交互: &gt;summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) 0.955431 8.838584 0.108 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.