6 对小样本进行适当的正态性检验 到目前为止,我一直在使用Shapiro-Wilk统计量来检验小样本中的正态性假设。 您能推荐另一种方法吗? 22 hypothesis-testing goodness-of-fit normality-assumption small-sample
5 贝叶斯定理直觉 我一直在尝试根据先验,后验,似然和边际概率对贝叶斯定理进行基于直觉的理解。为此,我使用以下等式: 其中代表假设或信念,代表数据或证据。 我已经了解了后验的概念-它是一个结合了先验信念和事件可能性的统一实体。我不明白的是什么呢的可能性,意味着什么?为什么边际 ABP(B | A )= P(A | B )P(B )P(一)P(乙|一种)=P(一种|乙)P(乙)P(一种)P(B|A) = \frac{P(A|B)P(B)}{P(A)}一种一种A乙乙B分母中的概率? 在回顾了一些资源之后,我发现了这句话: 的似然性是事件的重量通过的发生给定 ...是后验事件的概率,假定事件已经发生。A P (B | A )B A乙乙B一种一种AP(B | A )P(乙|一种)P(B|A)乙乙B一种一种A 以上2句话对我来说似乎是相同的,只是写法不同。谁能解释一下两者之间的区别? 22 bayesian likelihood intuition
4 为什么对于深度学习模型,softmax输出不是一个好的不确定性度量? 我已经在卷积神经网络(CNN)上工作了一段时间,主要是用于语义分割/实例分割的图像数据。我经常将网络输出的softmax可视化为“热图”,以查看特定类别的每个像素激活的数量。我将低激活率解释为“不确定” /“不确定”,将高激活率解释为“某些” /“自信”的预测。基本上这意味着解释SOFTMAX输出(值的范围内)作为模型的概率或(未)确定性量度。(0 ,1 )(0,1个)(0,1) (例如,我已经解释了在其像素上平均具有低softmax激活的对象/区域,这样CNN很难检测到,因此CNN对于预测这种对象“不确定”。) 在我看来,这通常是有效的,将额外的“不确定”区域样本添加到训练结果中可以改善这些结果。但是,我现在从不同方面经常听到,使用/解释softmax输出作为(不确定性)度量不是一个好主意,并且通常不鼓励这样做。为什么? 编辑:为了澄清我在这里要问的问题,到目前为止,我将在回答这个问题时详细阐述我的见解。但是,以下所有论点都没有向我说明**为什么它通常是个坏主意**,正如同事,主管反复说明的那样,例如“ 1.5” 在分类模型中,在管道末端(softmax输出)获得的概率向量通常被错误地解释为模型置信度 或在“背景”部分中: 尽管将卷积神经网络的最终softmax层给出的值解释为置信度分数可能很诱人,但我们需要注意不要过多地阅读它。 上面的资料源认为将softmax输出用作不确定性度量是不好的,原因是: 对真实图像的不可察觉的扰动可以将深层网络的softmax输出更改为任意值 这意味着softmax输出对于“不可察觉的扰动”并不稳健,因此它的输出不能用作概率。 另一篇论文提到“ softmax输出=置信度”的想法,并认为通过这种直觉网络可以很容易地被愚弄,从而产生“无法识别图像的高置信度输出”。 (...)与特定类别相对应的区域(在输入域中)可能比该类别的训练示例所占用的该区域中的空间大得多。结果是,图像可能位于分配给某个类别的区域内,因此在softmax输出中被分类为具有较大的峰值,而仍然与训练集中该类别中自然出现的图像相距甚远。 这意味着与训练数据相距甚远的数据永远不应获得很高的置信度,因为模型“无法”确定它(因为它从未见过)。 但是:这不是简单地质疑整个NN的泛化特性吗?即,具有softmax损失的NN不能很好地推广到(1)“无法察觉的扰动”或(2)远离训练数据的输入数据样本,例如无法识别的图像。 按照这种推理,我仍然不明白,为什么在实践中,没有经过抽象和人为改变的数据与训练数据(即大多数“真实”应用程序)相比,将softmax输出解释为“伪概率”是一个不好的选择理念。毕竟,它们似乎很好地代表了我的模型所确定的内容,即使它是不正确的(在这种情况下,我需要修复我的模型)。而且模型不确定性是否总是“仅”为近似值? 22 probability deep-learning conv-neural-network uncertainty softmax
5 原始或正交多项式回归? 我想将变量回归yyy到。我应该使用原始多项式还是正交多项式?我在处理这些问题的网站上看了一个问题,但我真的不明白使用它们有什么区别。 x,x2,…,x5x,x2,…,x5x,x^2,\ldots,x^5 为什么我不能只是做一个“正常”的回归得到的系数的βiβi\beta_iy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i(与p值和所有其他不错的东西一起),而是不必担心使用原始多项式还是正交多项式?在我看来,这种选择超出了我想要做的事情的范围。 在我目前正在阅读的统计书中(Tibshirani等人的ISLR)中没有提到这些东西。其实,他们在某种程度上被淡化。 原因是AFAIK,lm()在R 中的函数中,使用y ~ poly(x, 2)等于使用正交多项式,而使用y ~ x + I(x^2)等于使用原始多项式。但是在第116页上,作者说我们使用第一个选项,因为后者是“麻烦的”,它没有迹象表明这些命令实际上对完全不同的事物(因此具有不同的输出)。 (第三个问题)为什么会ISLR的作者混淆读者这样呢? 22 r regression polynomial
1 使用单热编码时删除列之一 我的理解是,如果您的数据集具有高度相关的特征,则在机器学习中可能会出现问题,因为它们有效地编码了相同的信息。 最近有人指出,当对分类变量进行单次编码时,最终会具有相关功能,因此应删除其中一个作为“参考”。 例如,将性别编码为两个变量is_male和is_female会产生两个完全负相关的特征,因此他们建议仅使用其中一个,有效地将基线设置为男性,然后查看is_female列在预测算法中是否重要。 这对我来说很有意义,但是我没有在网上找到任何东西来暗示可能是这种情况,所以这是错误的还是我遗漏了一些东西? 可能的(未回答的)重复项:一键编码特征的共线性对SVM和LogReg是否重要? 22 regression machine-learning categorical-data discrete-data categorical-encoding
2 可以将PCA应用于时间序列数据吗? 我知道主成分分析(PCA)基本上可以应用于横截面数据。通过将年份指定为时间序列变量并正常运行PCA,PCA能否有效地用于时间序列数据?我发现动态PCA适用于面板数据,并且Stata中的编码是针对面板数据而非时间序列设计的。是否有适用于时间序列数据的任何特定类型的PCA? 更新。让我详细解释。 目前,我正在构建印度基础设施指数,该指数包含道路长度,铁路路线长度,发电量,电话用户数量等变量。对于一个国家/地区,我在22年内拥有12个变量。尽管我已经审查了将PCA应用于时间序列甚至面板数据的论文,但PCA是为假设iid的横截面数据而设计的。面板和横截面数据违反了该规则,并且PCA未考虑其中的时间序列维度。我看到动态PCA仅应用于面板数据。我想知道是否有在时间序列上应用的特定PCA或运行将年份定义为时间序列变量的静态PCA可以完成这项工作? 22 time-series pca
1 为什么名称Type 1、2错误? 从描述性“假阳性”到整数“ 1”引入额外的间接级别的动机是什么?“误报”真的太长了吗? 21 terminology frequentist type-i-and-ii-errors
2 为什么在统计数据和ML中使用“内核”这个名字? 在操作系统和线性代数的上下文中,其他SE网站也对此提出了要求,但是对于统计和机器学习中使用的内核方法,同样的问题使我感到困惑。 人们通常说内核(例如在内核密度估计或SVM中)代表某种相似性,但我不知道“内核”的名称来自何处以及它的象征意义。 那么,在统计和机器学习的背景下,内核的词源是什么? 明确地说,我很清楚内核是什么以及内核的主要属性,我只是对名称感到好奇,因为我不知道它与种子或核心有什么关系,因为它主要是在内核中定义的。字典。或者至少我看不到比“方法的基本部分”更深的含义。 21 terminology
3 随机数生成器中的种子究竟是什么? 我尝试了一些常用的Google搜索等方法,但是我发现的大多数答案都有些模棱两可或特定于语言/库,例如Python或C ++ stdlib.h等。我正在寻找与语言无关的数学答案,而不是库的细节。 例如,许多人说种子是随机数生成器的起点,而同一种子总是产生相同的随机数。这是什么意思?这是否意味着输出数量是特定种子的确定性函数,并且随机性来自种子的值?但是如果是这样的话,那么,通过提供种子,我们(程序员)难道不是创造随机性而不是让机器去做吗? 另外,在这种情况下起点是什么意思?这是说映射域的元素的一种非严格方法吗?还是我出了点问题? ˚F :X → ÿX ∈ Xx∈Xx\in\mathfrak{X}F:X → Yf:X→Yf:\mathfrak{X}\rightarrow\mathfrak{Y} 21 random-generation
4 为什么模拟中的中心极限定理会崩溃? 假设我有以下数字: 4,3,5,6,5,3,4,2,5,4,3,6,5 我对其中一些采样,例如5个,并计算5个采样的总和。然后,我一遍又一遍地重复该操作,以获得许多总和,并在直方图中绘制总和的值,由于中心极限定理,该直方图将为高斯。 但是当他们跟随数字时,我只是用一些大数字代替了4: 4,3,5,6,5,3,10000000,2,5,4,3,6,5 这些样本中的5个样本的采样和不会在直方图中成为高斯,而更像是分裂,变成两个高斯。这是为什么? 21 central-limit-theorem
3 Frequentist和Bayesian在“可能性”的定义上有什么区别吗? 有些资料说似然函数不是条件概率,有些则说是。这让我很困惑。 根据我所见的大多数资料,给定样本,具有参数的分布的可能性应该是概率质量函数的乘积:θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) 例如,在Logistic回归中,我们使用优化算法来最大化似然函数(最大似然估计),以获得最优参数,从而获得最终的LR模型。给定我们假设彼此独立的训练样本,我们希望最大化概率乘积(或联合概率质量函数)。这对我来说似乎很明显。nnn 根据“ 可能性,条件概率和失败率之间的关系 ”,“可能性不是概率,也不是条件概率”。它还提到:“仅在贝叶斯对似然性的理解中,即,如果假设是随机变量,那么似然性就是条件概率。”θθ\theta 我读到了关于在常客和贝叶斯之间对待学习问题的不同观点。 根据消息来源,对于贝叶斯推断,我们具有先验,似然性,并且我们希望使用贝叶斯定理获得后验:P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} 我不熟悉贝叶斯推理。为什么P(X|θ)P(X|θ)P(X|\theta),其是在它的参数条件所观察到的数据的分发,也被称为可能性有多大?在Wikipedia中,它说有时写成L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta)。这是什么意思? Frequentist和Bayesian对可能性的定义之间有区别吗? 谢谢。 编辑: 解释贝叶斯定理的方法有多种-贝叶斯定理和惯常论的解释(请参阅:贝叶斯定理-维基百科)。 21 probability bayesian conditional-probability likelihood frequentist
4 是50%100%高于25%还是25%高于25%? 如果我有两个值A和B都表示为C的百分比,并且我想用百分比D表示A和B之间的大小差异,那么将D表示为C的百分比是否更正确?占B(或实际上是A)的百分比? 50个失业者显然比25个失业者大50%,因为很明显,这里的“%”表示“ 25个失业者中的%”。但是50%的失业率比25%的失业率大多少?这是25%失业率的100%增长,但仅占潜在总失业率的25%。 21 terminology percentage
4 报告描述性统计数据有什么意义? 我刚刚使用Logistic回归对数据进行了分析,但是还需要在报告中包含描述性的统计部分。老实说,我没有明白这一点,我希望有人能够解释为什么这样做是必要的。 例如,如果我绘制了一个独立连续变量的直方图,并且显示了正态性或显示了偏度,这将如何为报表添加任何值? 我的数据包含一份工作的正确或错误因变量,独立变量是期中成绩,期末考试成绩以及男女。 21 descriptive-statistics reporting
4 给定足够大的样本量,除非真实的效果量正好为零,否则测试将始终显示出显着的结果。为什么? 我对Wikipedia的文章有关效应大小的说法感到好奇。特别: 除非人口效应大小恰好为零,否则非零统计比较将始终显示统计上有意义的结果 我不确定这意味着什么/暗示什么,更不用说支持它的论点了。我想毕竟是一种效应,是一种统计量,即从一个样本计算出的值及其自身的分布。这是否意味着效果永远不会仅因随机变化(我理解这意味着不重要)而引起?我们是否仅考虑效果是否足够强-绝对值高? 我正在考虑我最熟悉的效果:Pearson相关系数r似乎与此矛盾。为什么会有在统计上有意义?如果小,我们的回归线 [R[Rr[R[Rrÿ= a x + b = r (sÿsX) =ϵx+bÿ=一种X+b=[R(sÿsX)=ϵX+b y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon x+b 对于ϵϵ\epsilon小,接近于0,F检验将可能包含一个包含0的斜率的置信区间。这不是反例吗? 21 hypothesis-testing
2 时“单位方差”岭回归估计的极限 考虑带有附加约束的岭回归,该约束要求具有单位平方和(等效于单位方差);如果需要,可以假定也具有单位平方和: ÿy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ infty时\ hat {\ boldsymbol \ beta} _ \ lambda ^ *的限制是多少?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下是一些我认为是正确的声明: 当λ=0λ=0\lambda=0,有一个整洁的显式解决方案:采用OLS估计器β^0= (X⊤X )− 1X⊤ÿβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y并对其进行归一化以满足约束(可以通过添加Lagrange乘数并进行微分来查看此约束): β^∗0= β^0/ ∥X β^0∥ 。β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = … 21 pca regularization ridge-regression partial-least-squares constrained-regression