统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

10
贝叶斯与频频主义者的辩论是否有任何数学基础?
它在Wikipedia上说: 数学[概率]在很大程度上与概率的任何解释无关。 问题:那么如果我们想在数学上是正确的,我们是否不应该拒绝对概率的任何解释?即,贝叶斯主义和频繁主义在数学上都是错误的吗? 我不喜欢哲学,但是我喜欢数学,并且我想只在Kolmogorov公理的框架内工作。如果这是我的目标,应该从它说在维基百科上,我应该拒绝遵循双方贝叶斯和frequentism?如果这些概念纯粹是哲学上的而不是数学上的,那么为什么它们首先出现在统计学中? 背景/上下文: 这篇博客文章并没有说同样的话,但是它确实认为,从实用主义的角度来看,将技术归类为“贝叶斯”或“频率论者”是适得其反的。 如果Wikipedia的引用是正确的,那么从哲学的角度来看,试图对统计方法进行分类似乎也适得其反-如果一种方法在数学上是正确的,则当基础数学的假设成立时使用该方法是有效的否则,如果在数学上不正确或假设不成立,则使用它无效。 另一方面,尽管我不太确定为什么,但很多人似乎都用概率论(例如,柯尔莫哥洛夫的公理)来识别“贝叶斯推论”。贾恩斯(Jaynes)关于贝叶斯推理的论着称为“概率”(Probability),以及詹姆斯·斯通(James Stone)的书“贝叶斯规则”(Bayes'Rule)。因此,如果我以表面价值来接受这些主张,那意味着我应该更喜欢贝叶斯主义。 但是,Casella和Berger的书似乎是常客,因为它讨论了最大似然估计量,却忽略了最大后验估计量,但似乎其中的所有内容在数学上都是正确的。 那么,难道不是只能从统计学上说,统计学上唯一正确的版本是对贝叶斯主义和频繁主义完全不知情的统计吗?如果两种分类的方法在数学上都是正确的,那么在某些情况下偏爱某些方法不是不正确的做法,因为这将使模糊,定义不清的哲学优先于精确且定义明确的数学吗? 简介:简而言之,我不了解贝叶斯与常客辩论的数学基础是什么,并且如果没有辩论的数学基础(这是维基百科所声称的),我也不明白为什么在容忍中全部在学术话语中。


3
使用递归神经网络进行时间序列分析的正确方法
递归神经网络与“常规”神经网络不同,因为它们具有“内存”层。由于这一层,在时间序列建模中应该使用递归NN。但是,我不确定我是否正确理解如何使用它们。 假设我有以下时间序列(从左到右):,[0, 1, 2, 3, 4, 5, 6, 7]我的目标是i使用点i-1和i-2作为输入来预测-th个点(每个i>2)。在“常规”非重复ANN中,我将按以下方式处理数据: target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 然后,我将创建一个具有两个输入和一个输出节点的网络,并使用上面的数据对其进行训练。 如果是递归网络,如何改变这一过程(如果有的话)?


6
概率收敛与几乎确定的收敛
我从没真正摸索过这两种收敛方法之间的区别。(或者,实际上,是任何一种不同类型的收敛,但是由于大数的弱定律和强定律,我特别提到了这两种。) 当然,我可以引用每一个的定义,并举例说明它们的不同之处,但是我仍然不太明白。 了解差异的好方法是什么?为什么差异很重要?是否有一个特别令人难忘的例子,区别在于它们?


5
在没有模拟的情况下,统计学家究竟如何同意使用(n-1)作为总体方差的无偏估计量?
分母的计算公式的分母为:(n − 1 )(n−1)(n-1) s2= ∑ñ我= 1(x一世− x¯)2n − 1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} 我一直想知道为什么。但是,阅读和观看一些有关“为什么”的优质视频似乎是人口方差的良好无偏估计。而n低估了(n - 2 )高估了总体方差。(n − 1 )(n−1)(n-1)ñnn(n − 2 )(n−2)(n-2) 我想知道的是,在没有计算机的时代,这种选择是如何做出的?是否有实际的数学证明来证明这一点?或者,这纯粹是经验和统计学家亲自进行了大量的计算,以得出当时的“最佳解释”? 在19世纪初期,统计学家是如何借助计算机提出这个公式的?手册还是比看得见的更多?

1
什么相关使矩阵奇异?奇异或接近奇异意味着什么?
我在不同的矩阵上进行一些计算(主要是在逻辑回归中),并且通常会收到错误“矩阵是奇异的”,我必须返回并删除相关变量。我的问题是,您认为“高度”相关的矩阵是什么?有相关阈值来表示这个词吗?就像某个变量与另一个变量相关联是0.97一样,这是否足以使矩阵奇异? 如果问题很基本,我很抱歉,我找不到任何谈论此问题的参考文献(对任何参考文献的提示将是一个很大的加分!)。

4
是什么使Gaussian内核对PCA如此神奇?
我在读有关内核PCA(1,2,3)用高斯和多项式内核。 高斯核如何很好地分离似乎任何种类的非线性数据?请给出直观的分析,并在可能的情况下进行数学分析。 其他内核所没有的高斯内核(具有理想的)的特性是什么?我想到了神经网络,SVM和RBF网络。σσ\sigma 为什么我们不通过Cauchy PDF规范并期望得到相同的结果?

9
这张图表显示恐怖袭击的可能性在统计上有用吗?
我看到这张图片传了很多。 我有种直觉,认为以这种方式提供的信息是不完整的,甚至是错误的,但是我对统计数据并不足够了解。这让我想到了这本xkcd漫画,即使有了可靠的历史数据,某些情况也可以改变事情的预测方式。 所提供的这张图表对准确显示难民的威胁水平有用吗?是否有必要的统计背景或多或少地使此图表有用? 注意:请尝试使用外行人的术语:)

4
看,你会发现(相关性)
我有几百个测量值。现在,我正在考虑使用某种软件将每个度量与每个度量相关联。这意味着有成千上万的相关性。在这些数据中,即使数据是完全随机的(每个度量值仅包含约100个数据点),它们之间也应具有高度的相关性。 找到关联后,如何将有关如何寻找关联的信息纳入其中? 我的统计水平不高,请耐心等待。

7
多少钱?实际问题
这不是家庭作业的问题,而是我们公司面临的实际问题。 最近(两天前),我们向经销商订购了10000个产品标签的制造。经销商是独立的人。他获得了从外部制造的标签,公司付款给经销商。每个标签对公司的成本为1美元。 昨天,经销商附带了标签,但标签捆绑在一起,每包100个标签。这样总共有100个数据包,每个数据包包含100个标签,因此总共有10000个标签。在向经销商支付10000美元之前,我们决定不计几包,以确保每个包中都准确地包含100个标签。当我们计算标签时,我们发现数据包不足100个标签(我们找到了97个标签)。为了确保这不是偶然的,而是有意进行的,我们再计算了5个数据包,并在每个数据包(包括第一个数据包)中找到了以下标签数: Packet Number Number of labels 1 97 2 98 3 96 4 100 5 95 6 97 无法计算每个小包,因此我们决定平均付款。因此,六个封包中的标签平均数量为97.166,因此总付款额为9716美元。 我只想知道统计学家必须如何处理这类问题。 此外,我想知道我们应该支付多少钱才能获得95%的保证,即我们支付的总标签数量不超过实际数量。 附加信息: P(任何大于100个标签的数据包)= 0 P(任何小于90个标签的数据包)= 0 =标签数小于90时很容易检测到小于90个标签,因为数据包的重量更小} 编辑: 经销商只是否认了这种渎职行为。我们发现这些经销商是在特定的佣金下工作的,他们从制造商那里得到公司的付款。当我们直接与制造商联系时,我们发现这既不是制造商也不是经销商的错。制造商说:“标签之所以短缺,是因为纸张的尺寸没有标准化,并且从单张纸上切下的任何数量都将它们捆成一包。” 此外,我们验证了附加信息中给出的第一个断言,因为制造商承认,由于纸张尺寸的小幅增加,因此无法裁切额外的标签,而且由于纸张尺寸的小幅缩小,因此无法裁切100个大小完全相同的标签。

5
PCA中的载荷与特征向量:何时使用一个或另一个?
在主成分分析(PCA)中,我们获得特征向量(单位向量)和特征值。现在,让我们将载荷定义为Loadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. 我知道特征向量只是方向,载荷(如上定义)也包括沿这些方向的方差。但是为了更好地理解,我想知道应该在哪里使用加载而不是特征向量?一个例子将是完美的! 我通常只看到人们使用特征向量,但是偶尔他们每次都使用加载(如上定义),然后我感到自己不太了解其中的区别。
66 pca 

7
为什么要优化最大对数概率而不是概率
在大多数机器学习任务中,您可以制定应最大化的概率,我们实际上将优化对数概率而不是某些参数的概率。例如,在最大似然训练中,通常是对数似然。使用某些渐变方法进行此操作时,涉及一个因素:数p θppp日志plog⁡p\log pθθ\theta ∂日志p∂θ= 1p·&∂&p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta} 有关示例,请参见此处或此处。 当然,优化是等效的,但梯度会有所不同,因此任何基于梯度的方法的行为都会有所不同(尤其是随机梯度方法)。是否有理由证明梯度比梯度更好?p日志plog⁡p\log pppp


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.