5 卷积神经网络与深度学习有什么区别? 我想在我的项目中使用深度学习。我浏览了几篇论文,然后想到一个问题:卷积神经网络和深度学习之间有什么区别吗?这些是相同的东西还是它们之间有主要区别,哪个更好? 25 machine-learning neural-networks deep-learning terminology conv-neural-network
1 零相关混合模型理论上什么时候听起来正确? 下面的块引用来自混合效果建模领域的领导者,声称在随机效果之间零相关的模型(“ ZCP”模型)中协调模型的移动会更改模型预测。 但是,有人可以详细说明或进一步证明其主张吗? 有问题的陈述来自Bates等人在 2015年发表的论文lme4,使用lme4拟合线性混合效应模型,第7页,第二段(下载链接)。 \newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}} 以下是他们所写内容的解释: 尽管零相关参数模型用于降低随机斜率模型的复杂性,但是它们具有一个缺点。允许斜率和截距具有非零相关性的模型对于连续预测变量的加法位移是不变的。 当相关性被限制为零时,这种不变性将分解。预测变量的任何变化必然会导致估计的相关性以及模型的可能性和预测发生变化。1例如,我们可以简单地通过将Days [伴随\ slope的预测变量] 移位等于估算的对象间标准偏差乘以估算的相关性的比值即2来消除fm1中的相关性,slopeslope\slope ρslope:intercept×σslopeσinterceptρslope:intercept×σslopeσintercept\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}} 理想情况下,此类模型的使用应仅限于以比率比例尺测量预测变量的情况(即,比例尺上的零点是有意义的,而不仅仅是通过便利或惯例定义的位置)。 问题: 按照上面的上标编号... 我可以看到,用来测量预测变量的坐标系中的任何偏移都将导致估计的相关性发生变化,从而导致非零相关性。这支持这样的说法,即零相关参数模型在预测变量坐标系中的位移下不是不变的,因此,具有非零随机效应相关性的任何模型都可以通过适当的坐标偏移而转换为具有零相关性的模型。我认为它也支持上面解释的第三段:ZCP模型(和零截距模型-参见下文;但是请在此进行检查)仅适用于使用某些特殊坐标系的模型。 但是为什么要针对此类模型更改坐标预测呢? 例如,坐标的偏移也将更改组平均值的固定效果截距项(请参见下文),但仅更改与预测变量的坐标系的原点变化相称的量。只要将新的坐标系用于已移动的预测变量,此更改就不会影响模型预测。 详细地说,如果与移动的预测变量关联的固定效果斜率为正,并且预测变量坐标系的原点向负方向移动,则固定效果的截距将减少,并且任何相关的随机效应的截距也将更改相应地,在位移坐标系中反映了“原点”(因此是截距)的新定义。顺便说一句,我认为这种推理还意味着零截距模型在这种偏移下也不是不变的。 我认为我有一个合理的解决方案,但得出的答案与贝茨等人 略有不同。我在哪里出错了? 以下是我的答案。接下来是对我如何得出结果的描述。总而言之,我发现如果我将原点负移,那么在新坐标系中,预测变量取值,则新坐标系中的相关性 如果为零,则为零:xxxδ>0δ>0\delta > 0x′=x+δx′=x+δx' = x + \deltaρ′ρ′\rho' δ=ρslope:intercept×σinterceptσslopeδ=ρslope:intercept×σinterceptσslope\delta=\rho_{\slope:\intercept}\times\frac{\sigma_{\intercept}}{\sigma_{\slope}} 这与贝茨等人的结果不同。 我的方法的说明(可选阅读):假设我们具有两个随机效果的相关性,即和(简称),它们都对应于具有水平的相同分组因子(编号为,范围从至)。我们还说,与随机配对的连续预测变量称为,定义为使得乘积生成对水平的拟合值的条件贡献slopeslope\slopeinterceptintercept\interceptintint\intkkkiii111kkkslopeslope\slopexxxx×slopeix×slopeix\times\slope_iy^obsy^obs\hat y_{obs}iii相关的分组因子。尽管实际上MLE算法确定的值以使可能性最大,但我希望下面的表达式应该是确定均匀平移效果的尺寸正确方法,是的随机效果的乘数。。ρρ\rhoxxxslopeslope\slope ρslope:int=Ei[(slopei−slopei¯¯¯¯¯¯¯¯¯¯¯¯)(inti−inti¯¯¯¯¯¯¯¯)]Ei[(slopei−slopei¯¯¯¯¯¯¯¯¯¯¯¯)2]Ei[(inti−inti¯¯¯¯¯¯¯¯)2]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ρslope:int=Ei[(slopei−slopei¯)(inti−inti¯)]Ei[(slopei−slopei¯)2]Ei[(inti−inti¯)2]\rho_{\slope:\int} = \frac{E_{i}\big[(\slope_i -\overline {\slope_i})(\int_i -\overline {\int_i})\big]}{\sqrt{E_{i}\big[(\slope_i -\overline {\slope_i})^2\big]E_{i}\big[(\int_i-\overline {\int_i})^2\big]}} 为了得出我的结果,我首先用新的截距值重写了截距的旧值(此处,,即“向左'预测变量原点偏移)。然后,将结果表达式代入的上述公式的分子中,计算的值,该值在新坐标系中的协方差为零。请注意,如上面问题1所述,固定效果拦截项也将以类似的方式更改:。(这里int′=−δ×slope+intint′=−δ×slope+int\int' = -\delta \times … 25 r mixed-model lme4-nlme
4 可变重要性排名有哪些用处? 在变量重要性排名方面(在各种多元模型的背景下),我在某种程度上变得虚妄。 通常在我的工作过程中,我被要求要么协助另一个团队产生可变的重要性等级,要么从我自己的工作产生可变的重要性等级。针对这些要求,我提出以下问题 您想要这个可变重要性排名的原因是什么?您希望从中学到什么?您想使用哪种决策? 我收到的答案几乎总是属于两类之一 我想知道模型中不同变量对预测响应的重要性。 我想通过删除低重要性变量将其用于特征选择。 第一个响应是重言式的(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为分别对变量“重要性”进行排名似乎隐式地拒绝了所讨论模型的多维性质。 第二种反应本质上简化为非正式版本的向后选择,CrossValidated的其他部分充分记录了其统计上的错误。 我也为重要性排名的定义性质感到困惑。对于排名应该衡量的基本概念似乎并没有达成共识,这给了他们非常特别的味道。分配重要性分数或等级的方法有很多,它们通常都有缺点和警告: 它们可能高度依赖算法,例如在随机森林和gbms中的重要性排名中。 它们可能具有极高的方差,会随着对基础数据的扰动而急剧变化。 他们可能会遭受输入预测变量中相关性的严重困扰。 因此,综上所述,我的问题是,变量重要性排名在统计学上有哪些有效用途,或者,对于这种愿望的徒劳性,什么是令人信服的论点(对统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,无论哪种方法更有效。 25 multiple-regression multivariate-analysis importance
1 最新的流媒体学习 我最近一直在处理大型数据集,并发现了许多有关流方法的论文。仅举几例: 遵循规范的领导者和镜像后裔:等价定理和L1正则化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) 流式学习:一次通过SVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:用于SVM的原始估计子GrAdient求解器http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf 还是在这里:SVM可以一次进行流学习一个示例吗? 流随机森林(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) 但是,我无法找到有关它们之间如何比较的任何文档。我读过的每篇文章似乎都针对不同的数据集进行了实验。 我知道sofia-ml,vowpal wabbit,但与大量现有方法相比,它们似乎执行的方法很少! 不太常见的算法性能不够吗?是否有任何论文试图复习尽可能多的方法? 25 machine-learning references large-data online
8 概率误差条有什么意义吗? 人们经常说某个事件发生的可能性为50-60%。有时我什至会看到人们对概率分配给出明确的误差线。这些陈述是否具有任何意义,或者仅仅是出于语言上的不适而又为固有不可知的事物选择了特定的数字? 25 probability error
1 关于t检验死亡的报道是否被大大夸大了? 通过阅读CV历来经典,我遇到了一个想澄清的声明。这是该帖子,我的问题是关于结束语:“我必须注意,我刚刚讲授的所有知识都已过时;现在我们有了计算机,我们可以做得比t检验更好。正如弗兰克所说,您可能想在被教您进行t检验的任何地方使用Wilcoxon检验。” 不必担心是否合理地假设样本均值的分布是否足以进行t检验是正常的,这显然是一个巨大的优势。而且我发现计算机可以轻而易举地排列两个数据矢量之间的长长的差异列表...我记得很多年前是手动完成的,但是我离题了... 那么,t检验真的已经成为过去吗?置换测试呢?在通常需要编写几行代码的意义上,它们是否太特别? 25 hypothesis-testing t-test permutation-test wilcoxon-mann-whitney
2 对数正态分布的矩估计量的偏差 我正在做一些数值实验,包括对对数正态分布进行采样,并尝试通过两种方法估算矩:ë [ X Ñ ]X∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)E[Xn]E[Xn]\mathbb{E}[X^n] 看的样本均值XnXnX^n 通过使用的样本均值估算和,然后使用对数正态分布的事实,我们有。σ 2日志(X ),登录2(X )é [ X Ñ ] = EXP (Ñ μ + (Ñ σ )2 / 2 )μμ\muσ2σ2\sigma^2log(X),log2(X)log(X),log2(X)\log(X), \log^2(X)E[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2) 问题是: 从实验上我发现,当我固定样本数量并将增加某个因子T 时,第二种方法的性能要比第一种更好。对此有一些简单的解释吗?μ,σ2μ,σ2\mu, \sigma^2 我附上一个图,其中x轴为T,而y轴为的值,比较的真实值(橙色线),到估算值。方法1-蓝点,方法2-绿点。y轴为对数刻度E[X2]E[X2]\mathbb{E}[X^2]E[X2]=exp(2μ+2σ2)E[X2]=exp(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2) 编辑: 下面是一个最小的Mathematica代码,可以产生一个T的结果,并输出: ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample] (* Define variables *) n=2; … 25 estimation bias lognormal moments
5 最大似然估计-为什么在很多情况下尽管有偏见仍使用它 最大似然估计通常导致有偏估计(例如,其对样本方差的估计因高斯分布而有偏)。 那么,什么使它如此受欢迎?为什么要使用那么多?此外,有什么特别之处使其比其他方法更好? 此外,我注意到对于高斯,MLE估计量的简单缩放使其无偏。为什么这种缩放不是标准程序?我的意思是-为什么在进行MLE计算之后,找不到必要的缩放比例以使估计量无偏的原因并不常见?标准做法似乎是对MLE估计的简单计算,当然,对于比例因子众所周知的高斯情况,当然除外。 25 normal-distribution maximum-likelihood method-of-moments
2 广义线性(混合)模型(特别是残差)的诊断 我目前正在努力为困难计数数据(因变量)找到正确的模型。我尝试了各种不同的模型(对于我的数据,混合效果模型是必需的),例如lmer和lme4(使用对数变换),以及具有各种族(例如高斯或负二项式)的广义线性混合效果模型。 但是,我不确定如何正确诊断结果拟合。我在网络上发现了关于该主题的许多不同意见。我认为关于线性(混合)回归的诊断非常简单。您可以继续进行分析残差(正态),并通过绘制拟合值与残差比较来研究异方差。 但是,您如何针对通用版本正确执行此操作?现在让我们关注负二项式(混合)回归。我在这里看到了关于残差的非常相反的说法: 在第一个答案中指出,在广义线性模型中检查残差的正态性时,对于GLM,普通残差不是正态分布的。我认为这很清楚。但是,然后指出,皮尔逊和偏差残差也不应该是正常的。但是,第二个答案指出,偏差残差应该正态分布(与参考值结合)。 不过,?glm.diag.plots(来自R的boot软件包)的文档中暗示了异常残差应该以正态分布。 在这篇博客文章中,作者首先研究了NB混合效应回归模型中Pearson残差的正态性。不出所料(根据我的诚实观点),残差未显示为正常,因此作者认为此模型不合适。但是,如评论中所述,残差应根据负二项式分布进行分配。我认为,这与事实最接近,因为GLM残差可以具有除正态分布以外的其他分布。它是否正确?如何在此处检查异方差性? Ben&Yohai(2004)强调了最后一点(将残差与估计分布的分位数作图)。目前,这似乎是我要走的路。 简而言之:如何特别针对残差,如何正确研究广义线性(混合)回归模型的模型拟合? 25 generalized-linear-model residuals negative-binomial count-data glmm
0 Jaynes的分布 在Jaynes的《概率论:科学的逻辑》一书中,Jaynes有一章(第18章)标题为“分布和继承规则”,在其中他介绍了分布的概念,这一段有助于说明:一种p一种pA_p一种p一种pA_p [...]要看到这一点,请想象获得新信息的效果。假设我们将硬币扔了五次,每次都掉到尾巴上。你问我下一次投篮的可能性是多少?我还是说1/2。但是,如果您再告诉我一个有关火星的事实,我已经准备好完全改变我的概率分配[ 火星上曾经有生命 ]。一分钱都使我的信念状态非常稳定,而火星则使我的信念状态非常不稳定 这似乎是对概率论作为逻辑的致命反对。也许我们需要将一个命题关联起来,不仅仅是一个代表合理性的数字,而是两个数字:一个代表合理性,另一个在面对新证据时其稳定性如何。因此,将需要一种二值理论。[...] 他接着介绍了一个新的命题,使得 一种p一种pA_pP(A | ApË)≡ pP(一种|一种pË)≡pP(A|A_pE) ≡ p “其中E是任何额外的证据。如果我们要渲染。作为一个口头声明,它会出来这样的事: 不论任何其他可能已被告知,A的概率为p。”一种p一种pA_p一种p一种pA_p ≡≡≡ 我试图仅使用满足这些标准的Beta分布来查看两个数的概念(“合理性,以及面对新证据时另一个稳定性”)之间的区别。 图18.2与使用(例如)非常相似,而对于火星,它可能是Beta(1 / 2,1 / 2),信念状态为“非常不稳定”α = β= 100α=β=100\alpha=\beta=100 上面的原始命题可以是非常大的 Beta(),这样 /(。则没有证据可以改变p和P(A | A_pE)≡p的分布一种p一种pA_pα ,βα,β\alpha,\betaα ,βα,β\alpha,\betaαα\alphaα + β)= pα+β)=p\alpha+\beta)=ppppP(A | ApË)≡ pP(一种|一种pË)≡pP(A|A_pE) ≡ p 在本书中都讨论了Beta分布,因此我是否错过了一些区别,这里的区别是微妙的,需要一种新的理论(分布)?他确实在下一段提到“似乎好像我们在谈论'概率的可能性'。”一种p一种pA_p 25 probability bayesian beta-distribution
3 “跨栏模式”真的是一种模式吗?还是只有两个单独的顺序模型? 考虑一个y从正常预测变量中预测计数数据的障碍模型x: set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 在这种情况下,我有69个零和31个正计数的计数数据。目前,请不要忘记,根据数据生成过程的定义,这是一个泊松过程,因为我的问题是关卡模型。 假设我想通过障碍模型处理这些多余的零。从我对它们的阅读中,似乎障碍模型本身并不是实际的模型,而是依次进行两种不同的分析。首先,进行逻辑回归,以预测该值是否为正对零。第二,零截断的Poisson回归仅包含非零情况。第二步对我来说是错误的,因为它是(a)丢弃完美的数据,(b)由于许多数据为零,可能会导致电源问题,并且(c)基本上不是其自身的“模型” ,但只需依次运行两个不同的模型即可。 因此,我尝试了“障碍模型”,而不是分别运行逻辑和零截断的泊松回归。他们给了我相同的答案(为简洁起见,我将输出缩写): > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson … 25 r count-data zero-inflation
4 在一个图中可视化许多变量 我想展示某些变量(〜15)的值如何随时间变化,但我也想展示变量在每年中如何彼此不同。所以我创建了这个情节: 但是,即使更改配色方案或添加不同的线条/形状类型,也看起来很混乱。有没有更好的方式可视化此类数据? 使用R代码测试数据: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L, … 25 r data-visualization
3 正交,相关和独立之间的关系是什么? 我读过一篇文章说,当使用计划的对比来发现均方差不同的均值时,对比度应该是正交的,以使它们不相关并防止I型错误被夸大。 我不明白为什么正交在任何情况下都意味着不相关。我找不到直观/直观的解释,所以我试图理解这些文章/答案 https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf 在统计方面正交是什么意思? 但是对我来说,他们彼此矛盾。第一个说法是,如果两个变量不相关和/或正交,则它们是线性独立的,但是它们线性独立的事实并不意味着它们是不相关和/或正交的。 现在在第二个链接上有回答,指出诸如“正交意味着不相关”和“如果X和Y是独立的,则它们是正交的。但是反之则不成立”之类的答案。 在第二个链接中,另一个有趣的评论指出,两个变量之间的相关系数等于对应于这些变量的两个向量之间的夹角的余弦值,这意味着两个正交向量是完全不相关的(这与第一篇文章无关)索赔)。 那么独立性,正交性和相关性之间的真正关系是什么?也许我错过了一些东西,但我找不到它。 25 correlation independence
4 交叉验证后如何使用“测试”数据集? 在我见过的一些讲座和教程中,他们建议将您的数据分为三个部分:培训,验证和测试。但是尚不清楚应如何使用测试数据集,也不清楚这种方法比整个数据集的交叉验证如何更好。 假设我们已经将20%的数据保存为测试集。然后,我们将其余部分分解为k折,然后使用交叉验证,找到可以对该数据集中的未知数据做出最佳预测的模型。假设我们发现的最佳模型可为我们提供75%的准确性。 各种问答网站上的各种教程和许多问题都表明,现在我们可以在保存的(测试)数据集中验证模型。但是我仍然不知道它是如何完成的,也没有意义。 假设我们在测试数据集上的准确性为70%。 那么我们下一步该怎么做?我们是否会尝试另一个模型,然后再尝试另一个模型,直到我们在测试数据集上获得高分?但是在这种情况下,实际上看起来我们只会找到适合我们有限的(仅20%)测试集的模型。这并不意味着我们会找到总体上最好的模型。 此外,如果仅根据有限的数据集计算该分数,我们如何将其视为模型的一般评估?如果该分数很低,则可能是我们很不幸并选择了“不良”测试数据。 另一方面,如果我们使用所拥有的所有数据,然后使用k倍交叉验证来选择模型,我们将找到对来自我们所拥有的整个数据集的未知数据进行最佳预测的模型。 25 machine-learning cross-validation validation