统计和大数据

3

最近，我一直在思考机器/统计学习中的“班级不平衡问题”，并且越来越深地感觉到我只是不了解发生了什么。首先让我定义（或尝试）定义我的术语：机器/统计学习中的类不平衡问题是观察到，当0类与1类的比例非常不正确时，某些二进制分类算法（*）不能很好地执行。因此，例如，在上面的示例中，如果每一个类有100个类，那么我会说类不平衡为到或。0001111111001001001%1%1\% 我见过的大多数问题陈述都缺乏我认为足够的资格（什么模型在挣扎，问题如何失衡），这是我感到困惑的原因之一。对机器/统计学习中的标准文本的调查几乎没有：统计学习和统计学习入门的要素在索引中不包含“班级失衡”。用于预测数据分析的机器学习在索引中也不包含“类不平衡”。墨菲的机器学习：概率观点的确在索引中包含“类不平衡*。参考是关于SVM的一节，我在其中找到了以下诱人的评论：值得记住的是，所有这些困难，以及为解决这些困难而提出的大量启发式方法，都从根本上出现，因为SVM无法使用概率对不确定性进行建模，因此它们的输出得分在各个类别之间不具有可比性。此评论确实符合我的直觉和经验：在我以前的工作中，我们通常将逻辑回归和梯度增强树模型（以最小化二项式对数似然性）拟合到不平衡数据（类不平衡程度为），在性能上没有明显的问题。1%1%1\% 我已经（在某处）阅读了基于分类树的模型（树本身和随机森林）也确实遭受了类不平衡问题的困扰。从某种意义上讲，这会使水有些混乱，树木确实有返回概率：在树的每个终端节点中目标类的投票记录。因此，总的来说，我真正想要的是对导致班级失衡问题（如果存在）的力量的概念性理解。我们使用错误选择的算法和惰性默认分类阈值对自己做了什么吗？如果我们始终拟合优化适当评分标准的概率模型，它会消失吗？换句话说，原因仅仅是损失函数的选择不正确，即基于硬分类规则和整体准确性评估模型的预测能力吗？如果是这样，那么没有优化适当评分规则的模型就没有用（或者至少没有用处）吗？（*）分类是指适合二进制响应数据的任何统计模型。我没有假设我的目标是对一个班级或另一个班级进行艰巨的任务，尽管可能是这样。

30 classification predictive-models unbalanced-classes scoring-rules

2

L1正则化何时比L2更好，反之亦然？

注意：我知道L1具有功能选择属性。我试图了解当功能选择完全不相关时应该选择哪一个。如何决定要使用哪个正则化（L1或L2）？ L1 / L2正则化的优点和缺点是什么？是否建议首先使用L1选择特征，然后将L2应用于这些选定变量？

30 regression lasso regularization ridge-regression

2

删节和截断有什么区别？

在《生命周期数据的统计模型和方法》一书中，它写为：审查：由于某种随机原因导致观察不完整时。截断：当观察结果的不完全是由于研究设计所固有的系统选择过程而导致的。截断定义中的“研究设计固有的系统选择过程”是什么意思？删节和截断有什么区别？

30 self-study censoring truncation

13

条件概率公式背后的直觉是什么？

给定发生的情况下发生条件概率的公式为： P \ left（\ text {A}〜\ middle |〜\ text {B} \ right）= \ frac { P \ left（\ text {A} \ cap \ text {B} \ right）} {P \ left（\ text {B} \ right）}。乙AA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. 我的教科书以维恩图的形式解释了其背后的直觉。给定BB\text{B}已经发生，\ text {A}发生的唯一方法AA\text{A}是使事件落在AA\text{A}和\ text {B}的交集处BB\text{B}。在那种情况下，P(A|B)P(A|B)P\left(\text{A} \middle| …

30 probability conditional-probability intuition

2

偏态分布的均值是否存在可靠的非参数置信区间？

极偏斜的分布（例如对数正态分布）不会导致准确的引导置信区间。这是一个示例，说明无论您在R中尝试哪种引导方法，左右尾部区域都离理想的0.025较远： require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

30 confidence-interval nonparametric mean bootstrap median

7

推断与估计？

在机器学习的背景下，“推理”和“估计”之间有什么区别？作为一个新手，我觉得我们可以推断随机变量并估计模型参数。我的理解正确吗？如果没有，确切的区别是什么，我应该何时使用？另外，“ learn”的同义词是什么？

30 machine-learning inference terminology

2

监督学习，无监督学习和强化学习：工作流基础

监督学习 1）人们根据输入和输出数据构建分类器 2）使用训练数据集对分类器进行训练 3）该分类器已通过测试数据集进行了测试 4）如果输出令人满意，则进行部署在以下情况下使用：“我知道如何对这些数据进行分类，我只需要您（分类器）对其进行分类即可。” 方法要点：分类标签或产生实数无监督学习 1）人们根据输入数据建立算法 2）使用一个测试数据集测试该算法（该算法在其中创建分类器） 3）如果分类器令人满意，则进行部署在以下情况下使用：“我不知道如何对这些数据进行分类，您（算法）可以为我创建分类器吗？” 方法要点：分类标签或预测（PDF）强化学习 1）人们根据输入数据建立算法 2）该算法呈现取决于输入数据的状态，在该状态下，用户通过算法采取的行动来奖励或惩罚该算法，这种状态会随着时间的流逝而持续 3）该算法从奖励/惩罚中学习并自我更新，这继续 4）始终处于生产状态，它需要学习真实数据以能够呈现状态下的动作在以下情况下使用：“我不知道如何对这些数据进行分类，您可以对这些数据进行分类，如果正确的话我会给您奖励，如果不正确的话我会给您惩罚。” 这是那种这些做法的流量，我听到了很多关于他们做什么，但实际和示范性的信息是令人吃惊的小！

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

4

Mean = mode是否意味着对称分布？

我知道这个问题是在均值=中位数的情况下提出的，但是我没有找到与均值=模式相关的任何信息。如果众数等于均值，我是否总能得出结论是对称分布？我会被迫以这种方式也知道中位数吗？

30 distributions mean skewness mode symmetry

2

为什么我们应该使用t错误而不是普通错误？

在Andrew Gelman撰写的此博客文章中，包含以下内容： 50年前的贝叶斯模型看起来简直是无望的（当然，对于简单的问题除外），我希望今天的贝叶斯模型在50年后看起来简直是绝望的。（仅举一个简单的例子：我们可能应该在任何地方都常规地使用t而不是正常错误，但是出于熟悉，习惯和数学上的方便，我们还没有这样做。这可能是很好的理由-在科学上在政治上，保守主义有很多有利的理由，但我认为，最终，当我们适应更复杂的模型时，我们会朝着这个方向发展。）为什么我们应该“常规地在几乎所有地方都使用t而不是普通错误”？

30 distributions bayesian normal-distribution model robust

2

卷积神经网络：输出中的中枢神经元难道不是代表过多的吗？

[这个问题也在堆栈溢出时提出] 简短的问题我正在研究卷积神经网络，我相信这些网络不会等效地对待每个输入神经元（像素/参数）。假设我们有一个深层网络（许多层），对某些输入图像进行卷积。图像“中间”的神经元具有通往许多深层神经元的许多独特途径，这意味着中间神经元的微小变化会对输出产生强烈影响。但是，图像边缘的神经元只有途径（或取决于确切的实现方式，为1阶），这些途径中的信息会流过该图。看来这些“代表性不足”。111111 我对此感到担忧，因为对边缘神经元的辨别与网络的深度（层数）成指数关系。即使添加最大池化层也不会阻止指数增长，只有完整的连接才能使所有神经元处于平等的地位。但是，我不相信我的推理是正确的，因此我的问题是：我对吗，这种影响发生在深度卷积网络中吗？有没有关于这一点的理论，文献中是否曾提及过？有办法克服这种影响吗？因为我不确定是否可以提供足够的信息，所以我将详细说明问题说明以及为什么我认为这是一个问题。更详细的解释想象一下，我们有一个将图像作为输入的深度神经网络。假设我们在图像上应用了一个像素的卷积滤波器，每次我们将卷积窗口都移动4个像素。这意味着输入中的每个神经元都会将其激活发送给第2层中的16 × 16 = 265个神经元。这些神经元中的每一个都可能将其激活发送给另一个265，这样，我们的最高神经元就可以在265 2个输出神经元中表示，依此类推。64×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2 111 333 https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0 为什么这是个问题？乍看之下，这种影响似乎并不是问题：原则上，权重应该以网络能够正常工作的方式自动调整。而且，在图像识别中，图像的边缘并不是那么重要。在日常的图像识别测试中，这种效果可能并不明显，但是由于两个原因，它仍然使我感到担忧：1.推广到其他应用程序；以及 2.在非常深的网络中出现的问题。 1.可能还有其他应用程序，例如语音或声音识别，其中最中间的神经元并不是最重要的。在这个领域中通常会应用卷积，但是我找不到任何提及我所关注的效果的论文。 1010102651026510265^{10} 现在想象一下，我们会少量扰动所有神经元。与边缘神经元相比，中枢神经元将导致输出变化更大幅度几个数量级。我相信对于一般应用程序和非常深的网络，应该找到解决问题的方法吗？

30 machine-learning neural-networks convolution

3

潜在类分析与聚类分析-推断的差异？

潜在类分析（LCA）与聚类分析可得出的推断有何区别？LCA假设一个潜在的潜在变量会引起这些类，而聚类分析是对聚类算法中相关属性的经验描述，这是正确的吗？似乎在社会科学中，LCA已得到普及，并且由于它具有正式的卡方显着性检验而在方法论上被认为是优越的，而聚类分析则没有。如果能够以以下形式提供示例，那就太好了：“ LCA适合于此（但不适合聚类分析），聚类分析适合于此（但不适合潜在类别分析）。谢谢！布赖恩

30 clustering latent-variable latent-class

6

我知道关联不是因果关系。假设我们得到两个变量之间的高度相关性。您如何检查这种相关性是否真的是因果关系？或者，确切地说，在什么条件下，我们可以使用实验数据来推断两个或多个变量之间的因果关系吗？

30 correlation mathematical-statistics causality

2

完成FIFA Panini专辑需要几张贴纸？

我正在播放FIFA Panini在线贴纸专辑，该专辑是Internet上经典的Panini专辑的改编版，通常在足球世界杯，欧洲锦标赛以及可能的其他比赛中发行。专辑有424个不同贴纸的占位符。游戏的目的是收集所有424个。贴纸每5个一包，可以通过在线找到的代码获得（或者，如果是经典印刷专辑，则从您当地的报摊购买）。我做以下假设：所有贴纸均以相同数量出版。一包贴纸不包含重复项。我如何才能找出需要购买多少包贴纸才能合理确定（假设是90％）我所有424个独特的贴纸？

30 probability coupon-collector-problem

2

什么是准二项式分布（在GLM中）？

我希望有人能够提供关于准二项式分布及其作用的直观概述。我对这些要点特别感兴趣：准二项式与二项式分布有何不同。当响应变量是一个比例（示例值包括0.23、0.11、0.78、0.98）时，准二项式模型将在R中运行，而二项式模型则不会。当TRUE / FALSE响应变量过度分散时，为什么要使用准二项式模型。

30 r generalized-linear-model binomial overdispersion quasi-likelihood

9

为什么要使用矢量纠错模型？

我对向量错误校正模型（VECM）感到困惑。技术背景： VECM提供了将向量自回归模型（VAR）应用于集成多元时间序列的可能性。在教科书中，他们列举了将VAR应用于集成时间序列时遇到的一些问题，其中最重要的是所谓的虚假回归（t统计量非常重要，R ^ 2很高，尽管变量之间没有关系）。估计VECM的过程大致包括以下三个步骤，其中一个令人困惑的是我的第一个步骤：集成多元时间序列的VAR模型的规范和估计计算似然比检验以确定协整关系数确定协整次数后，估算VECM 在第一步中，用适当的滞后数（使用通常的拟合优度）来估计VAR模型，然后检查残差是否与模型假设相对应，即没有序列相关性和异方差，并且残差呈正态分布。因此，可以检查VAR模型是否恰当地描述了多元时间序列，只有在这样做的情况下，才可以继续进行下一步。现在我的问题是：如果VAR模型能够很好地描述数据，为什么我完全需要VECM？如果我的目标是生成预测，那么估计VAR和检查假设还不够，如果这些假设已实现，则仅使用此模型即可吗？

30 time-series forecasting var cointegration vecm