统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
如何与时间序列正确使用Pearson相关
我有2个时间序列(均平滑),我想对其进行互相关以了解它们之间的相关性。 我打算使用皮尔逊相关系数。这样合适吗 我的第二个问题是,我可以选择自己喜欢的两个时间序列。即,我可以选择我要我们的数据点数。这会影响输出的相关系数吗?我需要考虑这个吗? 出于说明目的 option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

3
了解朴素贝叶斯
来自StatSoft,Inc.(2013),电子统计教科书,“朴素贝叶斯分类器”: 为了演示朴素贝叶斯分类的概念,请考虑上图中显示的示例。如图所示,对象可以分类为绿色或红色。我的任务是在新案例到达时对其进行分类,即根据当前存在的对象确定它们所属的类别标签。 由于GREEN对象的数量是RED的两倍,因此有理由相信,新案例(尚未发现)具有成员资格GREEN的可能性是RED的两倍。在贝叶斯分析中,此信念称为先验概率。先前概率基于先前的经验,在本例中为GREEN和RED对象的百分比,通常用于预测结果实际发生的时间。 因此,我们可以这样写: 由于总共有60个对象,其中40个是GREEN和20 RED,因此我们获得类成员资格的先验概率为: 在确定了先验概率之后,我们现在就可以对新对象进行分类(白色圆圈)。由于对象很好地聚集在一起,因此可以合理地假设X附近的绿色(或红色)对象越多,则新案例属于该特定颜色的可能性就越大。为了测量这种可能性,我们在X周围画了一个圆,该圆包含与点的类别标签无关的多个点(将被优先选择)。然后,我们计算属于每个类标签的圆圈中的点数。由此我们计算出可能性: 从上面的插图中可以明显看出,给定GREEN的X的似然性小于给定RED的X的似然性,因为该圆包含1个GREEN对象和3个RED对象。从而: 尽管先验概率表明X可能属于GREEN(假设GREEN的数量是RED的两倍),但可能性则相反;X的类成员资格是RED(假设X附近的RED对象比GREEN多)。在贝叶斯分析中,通过使用所谓的贝叶斯规则(以托马斯·贝叶斯(Bayes)1702-1761牧师命名),将信息的两个来源(即先验概率和可能性)组合在一起形成后验概率,从而产生最终分类。 最后,由于X的类成员资格具有最大的后验概率,因此我们将其分类为RED。 这就是我数学理解的困难所在。 p(Cj | x1,x2,x ...,xd)是类成员资格的后验概率,即X属于Cj的概率,但为什么这样写呢? 计算可能性? 后验概率? 我从来没有上过数学,但是我对朴素贝叶斯的理解很好,我认为就这些分解方法而言,这让我感到困惑。有人可以帮助可视化这些方法以及如何以一种易于理解的方式将数学写出来吗?

5
当样本“是”总体时的统计推断
想象一下,您必须报告每年参加给定考试的候选人人数。例如,由于目标人群的特殊性,很难推断观察到的成功百分比,例如,在更广泛的人群中。因此,您可能会认为这些数据代表了整个人口。 测试结果是否表明男性和女性的比例确实正确?由于您考虑的是总体(而不是样本),因此将观察到的比例与理论比例进行比较的测试是否看起来是正确的?

5
如果两组的t检验和ANOVA相等,为什么它们的假设不相等?
我确定我已经完全把它包裹在头上了,但是我只是想不通。 t检验使用Z分布比较两个正态分布。这就是为什么DATA中存在正常性的原因。 与OLS一样,ANOVA等效于具有虚拟变量的线性回归,并且使用平方和。这就是为什么存在RESIDUALS正常性的假设。 我花了几年的时间,但我认为我终于掌握了这些基本事实。那么为什么t检验等同于两组ANOVA?如果他们甚至不对数据假设相同的东西,怎么能等效呢?


4
如果负可能性等于可能性的最大值,为什么我们要使其最小呢?
这个问题困扰了我很长时间。我了解使用“对数”来最大程度地提高可能性,所以我不问“对数”。 我的问题是,由于最大化对数可能性等于最小化“负对数可能性”(NLL),为什么我们要发明这种NLL?为什么我们不一直使用“阳性可能性”?NLL在什么情况下受到青睐? 我在这里找到了一些解释。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/,它似乎在深度上解释了明显的等效性,但并不能解决我的困惑。 任何解释将不胜感激。

2
为什么卷积神经网络不使用支持向量机进行分类?
近年来,卷积神经网络(CNN)已成为计算机视觉中对象识别的最新技术。通常,CNN由几个卷积层组成,然后是两个完全连接的层。这背后的一种直觉是,卷积层学习输入数据的更好表示,然后全连接层学习根据一组标签对这种表示进行分类。 但是,在CNN开始占主导地位之前,支持向量机(SVM)是最新技术。所以说SVM仍然比两层全连接神经网络更强大的分类器似乎是明智的。因此,我想知道为什么最新的CNN倾向于使用完全连接的层进行分类,而不是使用SVM?这样,您将两全其美:强大的要素表示和强大的分类器,而不是强大的要素表示,但只有弱分类器... 有任何想法吗?

6
残差是“预测的减去实际值”还是“预测的实际减去值”
我已经看到“残差”被不同定义为“预测的减去实际值”或“实际的减去预测值”。为了说明目的,为了显示两个公式都被广泛使用,请比较以下Web搜索: 剩余的“预测的减去实际的” 剩余的“实际减去预期” 在实践中,几乎没有任何区别,因为单个残差的符号通常并不重要(例如,平方或取绝对值)。但是,我的问题是:这两个版本之一(预测优先与实际优先)是否被视为“标准”?我希望在使用中保持一致,因此,如果有完善的常规标准,我希望遵循它。但是,如果没有标准,我很乐意接受这作为答案,只要可以令人信服地证明没有标准约定。

2
为什么频繁主义者假设检验偏向于拒绝具有足够大样本的零假设?
当我偶然发现这篇文章时,我只是在阅读有关贝叶斯因子的文章,这是一个完全不相关的问题 由于贝叶斯形式避免了模型选择偏差,评估了支持原假设的证据,包括模型不确定性,并且允许比较非嵌套模型,因此使用贝叶斯因子进行的假设检验比频繁假设检验更为稳健。具有相同的因变量)。同样,频繁性显着性检验偏向于拒绝具有足够大样本量的零假设。[重点添加] 在卡尔·弗里斯顿(Karl Friston)2012年在NeuroImage中的论文中,我已经看到过这种说法,他称其为经典推理的谬误。 我很难找到一个真正的教学方法来解释为什么这应该是正确的。具体来说,我想知道: 为什么会这样 如何防范 失败了,如何检测到它

2
为什么不允许贝叶斯算法查看残差?
在文章“讨论:生态学家应该成为贝叶斯主义者?”中 当布莱恩·丹尼斯(Brian Dennis)的目的似乎是警告人们时,他给出了令人惊讶的平衡和积极的贝叶斯统计观点。但是,他在一段中没有任何引用或理由的情况下说: 您会看到,贝叶斯不允许查看其残差。通过模型下的极端程度来判断结果违反了似然原理。对于贝叶斯来说,没有坏的模型,只有坏的信念。 为什么不允许贝叶斯分析残差?对此适当的引用是什么(即他在引用谁)? Dennis,B. 讨论:生态学家应该成为贝叶斯主义者吗? 生态应用,美国生态学会,1996年,6,1095-1103


2
协方差矩阵的逆对数据说什么?(直觉上)
我对的性质感到好奇。任何人都可以说出一些直觉的信息“对数据有何看法?”Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} 编辑: 感谢您的回复 在学习了一些很棒的课程之后,我想补充一点: 它是信息的度量,即是沿方向的信息量。xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx 对偶性:由于是正定的,也是正定的,因此它们是点积范数,更确切地说,它们是彼此的偶范数,因此我们可以针对正则化最小二乘问题导出Fenchel对偶,并最大化wrt对偶问题。我们可以根据它们的条件选择它们之一。ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1} 希尔伯特空间:和列(和行)跨越相同的空间。因此,使用或表示之间没有任何优势(当这些矩阵之一处于不适状态时)Σ−1Σ−1\Sigma^{-1}ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1}ΣΣ\Sigma 贝叶斯统计:范数在贝叶斯统计中起重要作用。也就是说,它确定了我们之前有多少信息,例如,当先验密度的协方差像 我们将获得非信息性信息(或者可能是Jeffreys先前的信息)Σ−1Σ−1\Sigma^{-1}∥Σ−1∥→0‖Σ−1‖→0\|\Sigma^{-1}\|\rightarrow 0 惯常统计:使用Cramér-Rao界线,它与Fisher信息密切相关。实际上,费舍尔信息矩阵(对数似然梯度自身的外积)是Cramér–Rao约束的,即Σ−1⪯FΣ−1⪯F\Sigma^{-1}\preceq \mathcal{F}(正半定锥,即浓度)椭圆形)。因此,当Σ−1=FΣ−1=F\Sigma^{-1}=\mathcal{F},最大似然估计器是有效的,即,数据中存在最大信息,因此频频机制是最佳的。用简单的话来说,对于某些似然函数(请注意,似然函数的形式完全取决于可能生成数据的概率模型,即生成模型),最大似然是有效且一致的估计器,其规则类似于老板。(对不起,杀了它)


3
具有对数转换响应的线性模型与带对数链接的广义线性模型
在这篇题为“适用于医学数据的广义线性模型之间的选择”的论文中,作者写道: 在广义线性模型中,均值是通过链接函数转换的,而不是转换响应本身的。两种转换方法可能导致完全不同的结果。例如, 对数转换后的响应的平均值与均值响应的对数不同。通常,前者不能轻易转化为平均反应。因此,转换均值通常可以更容易地解释结果,特别是在均值参数与测量响应保持相同范围的情况下。 他们似乎建议使用带有对数链接的广义线性模型(GLM)代替具有对数转换响应的线性模型(LM)。我不了解这种方法的优势,对我来说似乎很不寻常。 我的响应变量看起来呈对数正态分布。无论采用哪种方法,在系数及其标准误差方面,我都得到类似的结果。 不过我在想:如果一个变量具有对数正态分布,不是平均的对数变换变量最好在日志的平均未转换的变量,作为均值是正态分布的自然总结和日志-transformed变量是正态分布的,而变量本身不是吗?

3
条件高斯分布背后的直觉是什么?
假设X〜 Ñ2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})。然后,给定X 2 = x 2的的条件分布是均值的多元正态分布:X1个X1X_1X2= x2X2=x2X_2 = x_2 Ë[ P(X1个| X2= x2)] = μ1个+ σ12σ22(x2- μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) 和方差:V 一- [R [P(X1个| X2= x2)] = σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} 由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?X1X1X_1和之间的协方差如何X2X2X_2影响条件均值?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.