统计和大数据

1

为什么将牛顿法用于逻辑回归优化称为迭代重加权最小二乘？对我来说似乎不清楚，因为逻辑损失和最小二乘损失是完全不同的东西。

19 logistic generalized-linear-model optimization irls fisher-scoring

2

我的理解是，当使用贝叶斯方法估算参数值时：后验分布是先验分布和似然分布的组合。我们通过从后验分布生成样本来模拟此过程（例如，使用Metropolis-Hasting算法生成值，如果它们超过属于后验分布的概率的某个阈值，则接受它们）。生成此样本后，我们将使用它来近似后验分布以及诸如均值之类的东西。但是，我觉得我一定是误会了。听起来我们有一个后验分布，然后从中进行采样，然后使用该样本作为后验分布的近似值。但是，如果我们有后验分布开始，为什么我们需要从中进行采样来近似呢？

19 bayesian inference simulation mcmc posterior

6

卷积层：填充还是不填充？

如图所示，AlexNet体系结构使用零填充：但是，本文没有解释为什么引入这种填充。 Standford CS 231n课程教导我们使用填充来保留空间大小：我想知道这是我们需要填充的唯一原因吗？我的意思是，如果不需要保留空间大小，是否可以去除填充物？我知道随着我们进入更深的层次，这将导致空间大小的迅速减小。但是，我可以通过删除池化层来权衡这一点。如果有人能给我一些零填充的理由，我将非常高兴。谢谢！

19 conv-neural-network convolution

4

对于分类数据，是否存在没有变量相关的聚类？

当试图解释聚类分析时，人们常误认为该过程与变量是否相关有关。让人们摆脱困惑的一种方法是像这样的情节：这清楚地显示了是否存在聚类问题和变量是否相关的问题之间的区别。但是，这仅说明了连续数据的区别。我在考虑具有分类数据的类比时遇到麻烦： ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 我们可以看到有两个清晰的集群：拥有属性A和B的人，以及没有财产的人。但是，如果我们查看变量（例如，使用卡方检验），则它们显然是相关的： tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

19 clustering categorical-data independence

4

如何理解层次聚类的弊端？

有人可以解释分层集群的优缺点吗？分层聚类是否具有与K均值相同的缺点？相对于K均值，层次聚类有什么优势？我们何时应在分层聚类上使用K均值，反之亦然？这篇文章的答案很好地解释了k均值的弊端。如何理解K均值的弊端

19 clustering k-means unsupervised-learning hierarchical-clustering

2

偏度为零且峰度为零的非正态分布？

主要是理论问题。是否有非正态分布的前四个矩等于正态分布的示例？它们在理论上可以存在吗？

19 normal-distribution skewness moments theory kurtosis

2

学生考试是沃尔德考试吗？

学生考试是沃尔德考试吗？我已经从Wasserman的《All Statistics》中阅读了Wald测试的描述。在我看来，Wald检验包括t检验。那是对的吗？如果不是，那么什么使t检验而不是Wald检验？

19 hypothesis-testing t-test

3

估计k均值集群分区中最重要的功能

有没有办法确定数据集的哪些特征/变量在k均值聚类解决方案中最重要/最重要？

19 machine-learning clustering k-means importance

1

为什么要完全使用ANOVA而不是直接进行事后或计划中的比较测试？

考虑到群体之间的方差分析情况，您首先实际进行这样的ANOVA测试，然后进行事后（Bonferroni，Šidák等）或计划的比较测试，您会得到什么？为什么不完全跳过ANOVA步骤？我认为在这种情况下，组间ANOVA的一个好处是能够使用Tukey的HSD作为事后测试。后者需要ANOVA表中的组内均方来计算其相关的标准误差。但是，对不成对t检验的Bonferroni和Šidák调整不需要任何方差分析输入。我想就小组内部方差分析的情况提出同样的问题。我知道在这种情况下，Tukey的HSD测试不是一个相关的考虑因素，这使得这个问题更加紧迫。

19 hypothesis-testing anova multiple-comparisons post-hoc

2

时间序列中可逆过程的直觉是什么？

我正在阅读有关时间序列的书，并且在以下部分开始挠头：有人可以为我解释直觉吗？我无法从这段文字中得到它。为什么我们需要过程是可逆的？这里的概况如何？感谢您的任何帮助。我在这方面是新手，所以如果您可以在解释时使用学生级别的术语:)

19 time-series arma

1

2D直方图的拟合优度

我有两组代表恒星参数的数据：一个观测数据和一个模拟数据。通过这些设置，我创建了所谓的双色图（TCD）。可以在此处查看示例： A是观察到的数据，B是从模型中提取的数据（不要在意黑线，点代表数据），我只有一个A图，但可以根据需要生成任意多的B图，而我需要的是保持最适合A的那个。因此，我需要一种可靠的方法来检查图B（模型）与图A（已观察）的拟合度。现在，我要做的是通过对两个轴进行装箱（每个箱装100个箱）为每个图创建一个2D直方图或网格（这就是我所说的，也许它有一个更合适的名称），然后遍历栅格的每个单元格我发现该特定单元格的A和B之间计数的绝对差异。在遍历所有单元格之后，我对每个单元格的值求和，因此最终得到一个单个正参数，表示A和B之间的拟合优度（g f）。越接近零，拟合越好。基本上，这就是该参数的样子：GFGFgf ; 其中 a i j是图A中该特定像元的恒星数目（由 i j确定），而 b i j是B的数目。GF= ∑我Ĵ| 一种我Ĵ− b我Ĵ|GF=∑一世Ĵ|一种一世Ĵ-b一世Ĵ|gf = \sum_{ij} |a_{ij}-b_{ij}|一种我Ĵ一种一世Ĵa_{ij}我Ĵ一世Ĵijb我Ĵb一世Ĵb_{ij} 这就是我创建的网格中每个单元格中的那些计数差异（请注意，在此图像中我没有使用（a i j − b i j）的绝对值，但是我在计算g f参数时确实使用了它们）：（一个我Ĵ− b i j）（一种一世Ĵ-b一世Ĵ）(a_{ij}-b{ij})（一个我Ĵ− b i j）（一种一世Ĵ-b一世Ĵ）(a_{ij}-b{ij})GFGFgf 问题是，有人告诉我这可能不是一个很好的估计器，主要是因为除了因为参数较低之外，说此拟合比另一个拟合更好之外，我真的不能多说。重要事项：（感谢@PeterEllis提出来）在1-积分乙是不相关的一对一与点甲。这是要记住的最合适的搜索时，一个重要的事情：在点数一个和乙是不是一定相同和拟合优度测试还应该考虑这种差异，并尽量减少它。 2-点的每一个的数目乙数据集（模型输出）我尝试适合阿是不固定的。我看过在某些情况下使用的Chi-Squared测试： ∑一世（O一世− E一世）2/ E一世∑一世（Ø一世-Ë一世）2/Ë一世\sum_i (O_i-E_i)^2/E_iØ一世Ø一世O_iË一世Ë一世E_i Ë一世Ë一世E_iË一世Ë一世E_i 另外，我已经阅读一些人推荐的对数似然泊松检验，适用于涉及直方图的此类情况。如果这是正确的我真的很感激，如果有人可以教我如何使用测试，以这种特殊情况下（请记住，我统计的知识是非常不好的，所以请保持它的简单，你可以:)

19 goodness-of-fit histogram

2

假设检验及其对时间序列的意义

查找两个总体时，通常的显着性检验是t检验，如果可能的话，配对t检验。这假设分布是正态的。是否存在类似的简化假设，可以对时间序列进行显着性检验？具体来说，我们有两只老鼠，它们的数量相对较小，接受不同的治疗，并且我们每周测量一次体重。两张图均显示平滑增加的功能，其中一张图绝对高于另一张图。在这种情况下，我们如何量化“确定性”？零假设应该是随着时间的流逝，两个总体的权重“以相同的方式表现”。如何用一个仅包含少量参数的相当普遍（就像正态分布一样普遍）的简单模型来表述呢？一旦做到这一点，一个人怎么能测量重要性或类似于p值的东西？如何配对小鼠，使其具有尽可能多的特征，并且每对具有两个种群中的一个代表？我欢迎您找到有关时间序列的一些相关的，写得很好且易于理解的书或文章。我从无知开始。谢谢你的帮助。大卫·爱泼斯坦

19 time-series hypothesis-testing statistical-significance

2

反向传播算法

我对多层感知器（MLP）中使用的反向传播算法有些困惑。该误差由成本函数调整。在反向传播中，我们试图调整隐藏层的权重。我能理解的输出错误，就是e = d - y[没有下标]。问题是：如何获得隐藏层的错误？如何计算呢？如果我反向传播它，应该使用它作为自适应滤波器的成本函数还是应该使用指针（在C / C ++中）编程意义来更新权重？

19 machine-learning neural-networks backpropagation

3

0-1损失函数说明

我试图了解损失函数的用途，但我不太了解。因此，据我所知，损失函数是用于引入某种度量的，我们可以用它来度量不正确决策的“成本”。假设我有一个包含30个对象的数据集，我将它们划分为20/10这样的训练/测试集。我将使用0-1损失函数，所以可以说我的类标签集为M，函数看起来像这样： L （i ，j ）= { 0i = j1个i ≠ j我，Ĵ ∈ 中号大号（一世，Ĵ）={0一世=Ĵ1个一世≠Ĵ一世，Ĵ∈中号 L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M 因此，我在训练数据上构建了一个模型，可以说我正在使用Naive Bayes分类器，并且该模型正确地分类了7个对象（为它们分配了正确的类别标签），并且错误地分类了3个对象。因此我的损失函数将返回“ 0” 7次和“ 1” 3次-我可以从中获得什么样的信息？我的模型对30％的对象进行了错误分类吗？还是还有更多呢？如果我的思维方式有任何错误，我感到非常抱歉，我只是在尝试学习。如果我提供的示例“太抽象”，请告诉我，我将尝试更加具体。如果您尝试使用其他示例来解释该概念，请使用0-1损失函数。

19 machine-learning loss-functions

2

使用样本均值和标准差估计伽玛分布参数

我正在尝试估计最适合我的数据样本的伽玛分布的参数。我只想使用mean，std（因此使用方差数据样本中），而不是实际值-因为这些值在我的应用程序中并不总是可用。根据该文档，以下公式可用于估计形状和比例：我为数据尝试了此操作，但是与使用python编程库在实际数据上拟合伽玛分布相比，结果却大不相同。我附上我的数据/代码以显示手头的问题： import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, 10.97, 586.52, 56.91, 157.18, 434.74, 16.07, 334.43, 6.63, 108.41, 4.45, …

19 distributions estimation gamma-distribution