统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


3
为什么要分解贝叶斯定理中的分母?
(我是统计工作的新手。我是数学家和程序员,我正在尝试构建类似朴素的贝叶斯垃圾邮件过滤器的工具。) 我注意到许多地方人们倾向于分解贝叶斯定理方程中的分母。所以代替这个: P(A|B)⋅P(B)P(A)P(A|B)⋅P(B)P(A)\frac{P(A|B)\cdot P(B)}{P(A)} 我们看到了这个: P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)} 您可以看到此约定在本Wikipedia文章和Tim Peters的这篇有深刻见解的帖子中使用。 我对此感到困惑。为什么分母会这样分解?这对一切有什么帮助?计算有何复杂之处?对于垃圾邮件过滤器而言,这将是什么?P(A)P(A)P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
23 bayesian 

7
根据三个百分点估算分布
如果我只知道三个百分点,可以使用哪些方法来推断分布? 例如,我知道在某个数据集中,第五个百分位数是8,135,第50个百分位数是11,259,第95个百分位数是23,611。我希望能够从任何其他数字提高到其百分位数。 这不是我的数据,而这些都是我的全部统计数据。很明显,分布不正常。我仅有的其他信息是,该数据代表政府为不同学区提供的人均经费。 我对统计数据了解得足够多,无法知道这个问题没有确定的解决方案,但是对于知道如何找到正确的猜测还不够。 对数正态分布是否合适?我可以使用哪些工具执行回归(或者我需要自己进行回归)?


2
在弹性净回归中,为什么lambda“与最小值之间的标准误差之内”是lambda的推荐值?
我了解lambda在弹性净回归中扮演什么角色。而且我可以理解为什么要选择lambda.min,即将交叉验证错误最小化的lambda值。 我的问题是在统计资料中建议在哪里使用lambda.1se,即lambda的值可将CV误差加一个标准误差减到最小?我似乎找不到正式的引文,甚至找不到为什么这通常很有价值的原因。我知道这是一个限制性更强的正则化方法,会将参数进一步缩小为零,但我并不总是确定lambda.1se比lambda.min更好的选择。有人可以帮忙解释一下吗?

4
估计学生t分布的参数
学生t分布参数的最大似然估计是什么?它们是否以封闭形式存在?快速的Google搜索没有给我任何结果。 今天,我对单变量情况很感兴趣,但是可能我将不得不将模型扩展到多个维度。 编辑:我实际上对位置和比例参数最感兴趣。现在,我可以假设自由度参数是固定的,并且可能以后使用某种数字方案来找到最佳值。




3
自相关的目的是什么?
为什么自相关如此重要?我已经理解了它的原理(我想..),但是也有没有自相关发生的例子,我想知道:自然界中的所有事物难道不是自相关的吗?最后一个方面的目的更多是对自相关本身的一般理解,因为,正如我提到的那样,宇宙中的每个状态不是都依赖于前一个状态吗?

1
我必须掷骰子几次来自信地评估其公平性?
(事先对使用非专业语言而非统计语言的道歉。) 如果我想以合理的确定性来衡量将特定的物理六面模具的每一侧滚动到大约+/- 2%以内的几率,那么需要多少个示例模具卷? 即我需要掷骰子多少次,计算每个结果,以确保98%确保骰子掷出骰子的几率在14.6%-18.7%之内?(或一些类似的标准,其中大约98%的人会确保骰子的公平性在2%以内。) (这是使用骰子的模拟游戏的现实世界关注点,希望确保某些骰子设计的滚动数字接近1/6的可能性可以接受。有人声称,许多常见的骰子设计被测量为滚动29%1)。每次将几个这样的骰子滚动1000次。)

4
为什么在不同样本中均值趋于比中位数更稳定?
安迪·菲尔兹(Andy Fields)等人在使用R发现统计信息的第1.7.2节中列出了均值与中位数的优点,同时指出: ...平均值在不同样本中趋于稳定。 在解释了中位数的许多优点之后,例如 ...中位数不受分布两端的极端得分的影响... 鉴于中位数相对不受极端得分的影响,我认为它在各个样本中都更加稳定。因此,我对作者的主张感到困惑。为了确认我进行了模拟,我生成了1M个随机数,并采样了100个数字1000次,计算了每个样本的均值和中位数,然后计算了这些样本均值和中位数的sd。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …
22 mean  median 

1
为什么神经网络的成本函数是非凸的?
这里有一个类似的线程(神经网络的成本函数是非凸的?),但我无法理解那里答案的要点,我再次询问的原因希望这可以澄清一些问题: 如果我使用差额成本函数平方和,那么我最终将优化形式的某物,其中是训练期间的实际标签值相位,是预测标签值。由于它具有正方形形式,因此应该是凸成本函数。那么,什么会使它在NN中不凸?Σñ我= 1(y一世- ÿ一世^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2ÿyyy^y^\hat{y}

7
热图是否是“数据可视化的最无效类型之一”?
问题:热图(对于哪种类型的数据可视化问题)最有效?(特别是,它比所有其他可能的可视化技术更有效吗?) 热图何时最无效? 是否可以使用任何常见的模式或经验法则来确定热图是否可能是可视化数据的有效方法,以及何时可能无效? (主要是我考虑了2个类别变量和1个连续变量的热图,但也有兴趣听取有关其他类型热图的意见。) 上下文:我正在上一门有关数据可视化的在线课程,现在他们正在讨论无效和过度使用的地块类型。他们已经提到了炸药图和饼图,给出了为什么这些效果不佳以及为什么有更好的替代方法的原因,这很清楚,并且使我信服。此外,很容易找到其他资料来证实关于炸药图和饼图的既定观点。 但是,该课程还说“热图是数据可视化的最无效类型之一”。原因的解释如下。但是,当我试图在Google上找到证实这一观点的其他地方时,与查找关于饼形图和炸药图的有效性的观点相反,我遇到了很多困难。因此,我想知道在课程中给出的热图表征在何种程度上是有效的,以及在特定背景下,针对它们的影响因素何时最不重要和最重要。 给出的原因是: 很难将颜色映射到连续的比例尺上。 该规则有一些例外,因此这通常不会破坏交易,但是在热图的情况下,此问题特别困难,因为我们对颜色的感知会根据相邻颜色而变化。因此,即使在较小的数据集中,热图也不适合查看单个结果。这导致: 通常,使用查表法回答特定问题是不可行的,因为不可能以足够的精度推断出与给定颜色相对应的数值。 通常情况下,数据不是以显示趋势的方式进行聚类的。 没有这种聚类,通常很难或不可能推断出有关总体总体模式的任何信息。 热图通常仅用于传达“哇因素”或只是看起来很酷,尤其是在使用多色渐变时,但是通常有更好的方法来传达数据。 以通用比例绘制连续数据始终是最佳选择。如果存在时间分量,则最明显的选择是折线图。

1
通过ResNet跳过连接进行梯度反向传播
我很好奇如何使用ResNet模块/跳过连接通过神经网络向后传播梯度。我已经看到了关于ResNet的几个问题(例如,具有跳过层连接的神经网络),但是这个问题专门询问了训练过程中梯度的反向传播。 基本架构在这里: 我读了这篇论文《残差网络的图像识别研究》,在第2部分中,他们讨论了ResNet的目标之一是如何为梯度提供更短/更清晰的路径,使其反向传播至基础层。 谁能解释梯度如何流过这种类型的网络?我不太了解加法运算以及加法后缺少参数化图层如何实现更好的梯度传播。它是否与流经加法运算符时渐变不发生变化以及是否以无乘法方式重新分布有关? 此外,我可以理解,如果梯度不需要流过权重层,那么如何减轻消失的梯度问题,但是如果没有梯度流经权重,那么在向后传递之后如何更新它们?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.