统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答




2
Keras的“嵌入”层如何工作?
需要了解Keras库中“嵌入”层的工作方式。我在Python中执行以下代码 import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) 它给出以下输出 input_array = [[4 1 3 3 3]] output_array = [[[ 0.03126476 0.00527241] [-0.02369716 -0.02856163] [ 0.0055749 0.01492429] [ 0.0055749 0.01492429] …


6
神经网络中好的初始权重是什么?
我刚刚听说,从范围选择神经网络的初始权重是一个好主意,其中是给定神经元的输入数量。假设对这些集合进行了归一化-均值0,方差1(不知道这是否重要)。d(−1d√,1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd 为什么这是个好主意?

7
在回归模型中,所有交互项都需要它们各自的项吗?
我实际上正在审阅作者将5-6 logit回归模型与AIC进行比较的手稿。但是,某些模型具有交互项,但不包括各个协变量项。这样做有意义吗? 例如(不特定于logit模型): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 & X2) 我一直给人的印象是,如果您有交互项X1 * X2,则还需要X1 + X2。因此,模型1和2会很好,但模型3-5会有问题(即使AIC较低)。这个对吗?它是准则还是更多准则?有没有人有很好的参考资料来解释其背后的原因?我只是想确保我不会在评价中传达任何重要信息。 谢谢您的任何想法,丹

4
如何“求和”标准偏差?
我有一个值的每月平均值,以及与该平均值相对应的标准偏差。我现在将年度平均值计算为每月平均值的总和,如何表示总平均值的标准偏差? 例如,考虑风电场的输出: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 可以说,风电场平均每年生产10,358 MWh,但是与该数字相对应的标准偏差是多少?

10
外推有什么问题?
我记得在统计课上读本科时曾听说过为什么外推是个坏主意。此外,在线上有各种来源对此发表了评论。还有它一提这里。 谁能帮我理解为什么外推是个坏主意?如果是这样,那么预测技术在统计上不是无效吗?

2
R中的多元多元回归
我有2个因变量(DV),每个因变量的得分可能受7个独立变量(IV)的影响。DV是连续的,而IV则由连续变量和二进制编码变量组成。(在下面的代码中,连续变量用大写字母写,二进制变量用小写字母写。) 该研究的目的是揭示IV变量如何影响这些DV。我提出了以下多元多元回归(MMR)模型: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 为了解释结果,我调用两个语句: summary(manova(my.model)) Manova(my.model) 这两个调用的输出都粘贴在下面,并且有很大的不同。有人可以解释一下应该适当选择总结MMR结果的两种说法中的哪一种吗?为什么?任何建议将不胜感激。 使用using的输出summary(manova(my.model)): > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …


11
当我的模型错误时,为什么我应该是贝叶斯?
编辑:我添加了一个简单的示例:的均值的推断。我还稍微澄清了为什么不匹配置信区间的可信区间是不好的。XiXiX_i 我是一位虔诚的贝叶斯主义者,正处于某种信仰危机之中。 我的问题如下。假设我要分析一些IID数据。我要做的是:XiXiX_i 首先,提出一个条件模型: p(X|θ)p(X|θ) p(X|\theta) 然后,选择的先验值: θθ\thetap(θ)p(θ) p(\theta) 最后,应用贝叶斯法则,计算后验:(或者应该近似计算,如果它不能计算),并回答我对所有疑问p(θ|X1…Xn)p(θ|X1…Xn)p(\theta | X_1 \dots X_n )θθ\theta 这是一个明智的方法:如果数据的真实模型确实在我的条件的“内部”(它对应于某个值),那么我可以呼吁统计决策理论说我的方法是可以接受的(请参阅Robert's有关详细信息,请参见“贝叶斯选择”;在所有相关章节中,“所有统计信息”也有明确说明。XiXiX_iθ0θ0\theta_0 但是,众所周知,假设我的模型正确无比:为什么自然应该整洁地落入我所考虑的模型的框内?假设对于所有值,数据的实模型与不同,这要现实得多。通常将其称为“错误指定”模型。p (X | θ )θptrue(X)ptrue(X)p_{true}(X)p(X|θ)p(X|θ)p(X|\theta)θθ\theta 我的问题是,在这种更为现实的,错误指定的情况下,与贝叶斯计算(即计算后验分布)相比,对于简单地计算最大似然估计器(MLE),我没有任何好的论据: θ^ML=argmaxθ[p(X1…Xn|θ)]θ^ML=arg⁡maxθ[p(X1…Xn|θ)] \hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ] 实际上,根据Kleijn,vd Vaart(2012)的说法,在错误指定的情况下,后验分布为: 收敛为到以为中心的狄拉克分布θ中号大号n→∞n→∞n\rightarrow \infty θ^MLθ^ML\hat \theta_{ML} 没有正确的方差(除非两个值恰好相同),以确保后验的可信区间匹配置信区间。(请注意,虽然置信区间显然是贝叶斯人不太在意的事情,但从质量上讲,这意味着后验分布本质上是错误的,因为这意味着其可信区间没有正确的覆盖范围)θθ\theta 因此,我们为没有额外的属性而付出了计算上的额外费用(一般来说,贝叶斯推断要比MLE昂贵) 因此,最后,我的问题是:在模型指定不正确的情况下,是否有关于理论上或经验上的论据,用于对简单的MLE替代方法使用贝叶斯推理? (由于我知道我的问题通常不清楚,如果您不了解某些内容,请告诉我:我会尝试重新表述) 编辑:让我们考虑一个简单的示例:在高斯模型下推断的平均值(已知方差可以进一步简化)。我们考虑高斯先验:我们将表示为先验均值,表示的逆方差。令为的经验均值。最后,请注意:。 σ μ 0 β 0 …

1
40,000篇神经科学论文可能是错误的
我在《经济学人》上看到了一篇关于看似毁灭性论文的文章 [1] ,该论文令人质疑“ 大约有40,000种已发表的[fMRI]研究。他们说,这种错误是由于“错误的统计假设”。我阅读了这篇论文,发现部分原因是多次比较校正,但是我不是fMRI专家,因此很难遵循。 作者所说的错误假设是什么?为什么要做出这些假设?做出这些假设有哪些方法? 信封计算的背面显示,有40,000张fMRI论文的资金超过10亿美元(研究生的工资,运营成本等)。 [1] Eklund等人,“聚类失败:为什么空间范围的fMRI推论会增加假阳性率,PNAS 2016”

3
这是p值问题的解决方案吗?
2016年2月,美国统计协会发布了有关统计意义和p值的正式声明。关于它的主题我们广泛讨论了这些问题。但是,到目前为止,还没有任何权威机构提供公认的有效替代方案。美国统计学会(ASS)发布了其回应p值:下一步是什么? “ p值并不能带来太多好处。” 我们认为ASA还远远不够。现在该承认p值时代已经结束。统计学家已经成功地使用它们来迷惑大学生,欺骗科学家和愚蠢的编辑,但是全世界已经开始看到这种诡计。我们需要放弃20世纪初统计学家控制决策的尝试。我们需要回到实际起作用的地方。 ASS的官方建议是这样的: ASS代替p值,提倡使用STOP (SeaT-Of-Pant程序)。这种久经考验的方法被古希腊人,文艺复兴时期的人以及所有科学家使用,直到罗纳德·费舍尔(Ronald Fisher)出现并破坏了事物。STOP是简单,直接,数据驱动且权威的。为此,要有权威人士(最好是年长的男性)查看数据并决定他们是否同意他的观点。当他决定这样做时,结果将是“显着的”。否则,结果就不那么重要了,每个人都必须忘记整个事情。 原则 回应涉及ASA的六项原则。 STOP可以指示数据与指定的统计模型不兼容的程度。 我们喜欢这个短语,因为它是STOP回答是或否的任何一种奇妙的方式。与p值或其他统计程序不同,这毫无疑问。对于那些说“我们不需要没有臭”的原假设的人来说,这是一个完美的答案!**!@是什么呢?没有人能弄清楚它应该是什么。” STOP不能衡量假设成立的可能性:它实际上决定了该假设成立与否。 每个人都对概率感到困惑。通过将可能性排除在外,STOP消除了多年的本科生和研究生学习的需要。现在,任何人(年龄足够大且男性)都可以执行统计分析,而无需听一次单独的统计讲座或运行奥秘的软件(产生难以理解的输出)的痛苦和折磨。 科学结论和业务或政策决策可以基于常识和真实权威数字。 无论如何,重要的决定总是由当局做出的,所以让我们承认这一点并削减中间商。使用STOP将使统计人员自由地做他们最适合的工作:使用数字来掩盖事实真相并使当权者的偏好成圣。 正确的推理需要完整的报告和透明度。 STOP是有史以来发明的最透明和不言而喻的统计程序:您查看数据并做出决定。它消除了人们用来掩盖自己不知道数据含义的事实的所有那些令人困惑的z检验,t检验,卡方检验和字母汤程序(ANOVA!GLM!MLE!)。 STOP衡量结果的重要性。 这是不言而喻的:如果当权者使用STOP,那么结果必须很重要。 STOP本身就提供了有关模型或假设的良好证据。 我们不想挑战一个权威,是吗?研究人员和决策者将认识到STOP提供了他们需要知道的所有信息。由于这些原因,数据分析可以以STOP结尾;无需其他方法,例如p值,机器学习或占星术。 其他方法 一些统计学家偏爱所谓的“贝叶斯”方法,该方法不加思索地应用由18世纪牧师死后发表的晦涩定理来解决所有问题。其最著名的拥护者自由地承认这些方法是“主观的”。如果我们要使用主观方法,那么显然决策者越权威和知识渊博,结果就会越好。因此,STOP成为所有贝叶斯方法的逻辑极限。当您可以只向负责人显示数据并询问他的意见时,为什么还要花大量的时间计算这些可怕的计算呢?故事结局。 最近出现了另一个社区来挑战统计学家的神职人员。他们称自己为“机器学习者”和“数据科学家”,但实际上他们只是寻求更高地位的黑客。如果这些人希望人们认真对待他们,这就是ASS的官方立场。 问题 这是否是ASA用p值和无效假设检验确定的问题的答案?它真的可以统一贝叶斯和频繁主义范式(在响应中隐式声明)吗?

6
2016年确实需要进行预测模型的变量选择吗?
几年前已经在简历上提出了这个问题,鉴于1)更好的计算技术(例如并行计算,HPC等)和2)更新的技术(例如[3]),似乎值得重新提出。 首先,一些背景。让我们假设目标不是假设检验,不是效果估计,而是对未见检验集的预测。因此,没有赋予任何可解释的利益以重量。其次,假设您不能排除任何预测因素在主题考虑方面的相关性,即 它们看起来单独或与其他预测变量组合似乎都合理。第三,您要面对数以百万计的预测变量。第四,假设您可以无限制地访问AWS,因此计算能力不受限制。 变量选择的常见原因是:1)效率;更快地适合较小的模型,便宜地收集较少的预测变量,2)解释;知道“重要”变量可以深入了解基本过程[1]。 众所周知,许多变量选择方法无效,而且常常是完全危险的(例如,逐步回归)[2]。 其次,如果选择的模型不错,那么根本不需要缩减预测变量的列表。该模型应该为您完成。套索就是一个很好的例子,它为所有不相关的变量分配了零系数。 我知道有些人主张使用“大象”模型,即。将所有可能的预测变量投入拟合并运行[2]。 如果目标是预测准确性,是否有任何根本原因进行变量选择? [1] Reunanen,J.(2003)。在变量选择方法之间进行比较时过度拟合。机器学习研究杂志,3,1371-1382。 [2] Harrell,F.(2015)。回归建模策略:应用于线性模型,逻辑和序数回归以及生存分析。施普林格。 [3] Taylor,J.和Tibshirani,RJ(2015)。统计学习和选择性推理。美国国家科学院院刊,112(25),7629-7634。 [4] Zhou,J.,Foster,D.,Stine,R。和Ungar,L。(2005年8月)。使用Alpha投资进行流特征选择。在第十一届ACM SIGKDD国际会议上,进行数据挖掘中的知识发现(第384-393页)。ACM。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.