统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
CNN中本地响应规范化的重要性
我发现Imagenet和其他大型CNN利用了本地响应规范化层。但是,我找不到关于它们的太多信息。它们有多重要,何时应使用? 来自http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers: “局部响应归一化层通过对局部输入区域进行归一化来执行一种“横向抑制”。在ACROSS_CHANNELS模式下,局部区域跨越附近的通道延伸,但是没有空间范围(即,它们的形状为local_size x 1 x 1)在WITHIN_CHANNEL模式下,局部区域在空间上延伸,但位于单独的通道中(即,它们的形状为1 x local_size x local_size)每个输入值除以(1+(α/ n)∑ix2i)β,其中n是每个局部区域的大小,总和取自以该值为中心的区域(必要时添加零填充)。” 编辑: 这些种类的层似乎影响最小,不再使用。基本上,它们的作用已被其他正则化技术(例如,辍学和批处理归一化),更好的初始化和训练方法所取代。请参阅下面的我的答案以获取更多详细信息。

9
相关并不意味着因果关系;但是什么时候变量是时间呢?
我知道这个问题已经问过十亿次了,因此,在网上看后,我完全相信2个变量之间的相关性并不表示因果关系。在我今天的一次统计讲座中,我们做了一次物理学家的客座演讲,内容涉及统计学方法在物理学中的重要性。他说了一个惊人的声明: 相关性并不意味着因果关系,除非变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。 我以前从未听过这句话。物理学家/相对主义者对“因果”的看法与统计人员不同吗?

10
为什么千分之六的说服力比十分之六的说服力更强?
请参阅Stella Cottrell撰写的“学习技巧手册”(帕拉格雷夫,2012年)第155页的摘录: 百分比给出百分比时请注意。 假设上面的语句改为: 60%的人更喜欢橘子;40%的人说他们更喜欢苹果。 这看起来很有说服力:给出了数量。但是60%和40%之间的差异显着吗?在这里,我们需要知道有多少人被问到。如果要问1000个人中谁喜欢600个橘子,这个数字很有说服力。但是,如果仅询问10个人,则60%的回答仅表示6个人更喜欢橙子。“ 60%”听起来令人信服,而“十分之六”则无法令人信服。作为重要的读者,您需要警惕用于使不足的数据令人印象深刻的百分比。 统计学中这种特征是什么?我想了解更多。

10
如果您直飞,您死于飞机失事的机会是否减少了?
最近,我与一位朋友不同意将飞机因坠机而丧生的机率降至最低。这是一个基本的统计问题。 他说,他更喜欢直接飞往目的地,因为这样可以减少他在飞机失事中丧生的可能性。他的逻辑是,如果商业航空公司坠机的可能性是每10,000人中有1人发生事故,那么乘坐两架飞机到达目的地将使您死亡的机会加倍。 我的观点是,每次有人乘坐飞机时,都不会增加他将来在飞机失事中丧生的可能性。也就是说,每次飞机飞行都是独立的。无论是当年有人乘坐100架飞机飞行,还是只有1架,这两个飞行者在下一次飞行中死于飞机失事的几率仍然是10,000。 我提出的另一点是:说您的目的地在4小时外。如果您乘坐直飞航班,您会在空中飞行4个小时,有坠机的危险。现在说您乘坐4个不同的转机航班,每个航班约一个小时。在这种情况下,您仍将处于空中大约4个小时。因此,无论您是乘坐直航还是省下一些钱,然后乘坐中转航班,冒险所花费的时间大致相等。 我的最后一点是,较短的航班坠机率较低。我只是从哪儿抽出来。我已经进行了零次研究,并且没有零数据来支持这一点,但是...这似乎合乎逻辑。 谁在右边,为什么?这里有很多危险。

1
神经网络:体重变化动量和体重衰减
动量用于减少连续迭代中权重变化的波动:αα\alpha È(瓦特)瓦特ηΔωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 其中是误差函数, -权重向量,学习率。E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 重量衰减会影响重量变化:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 问题是,在反向传播过程中将这两种技巧结合在一起是否有意义,并且会产生什么效果? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i

2
使用lmer进行重复测量的线性混合效应模型
编辑2:我本来以为我需要对一个因素进行重复测量的两因素方差分析,但现在我认为线性混合效应模型将对我的数据更好。我想我几乎知道需要做什么,但仍然有些困惑。 我需要分析的实验如下: 将受试者分配到几个治疗组之一 在多天的时间对每个受试者进行测量 所以: 受试者嵌套在治疗中 治疗越过一天 (每个受试者仅被分配一种治疗,并且每天对每个受试者进行测量) 我的数据集包含以下信息: 主题=阻止因素(随机因素) 天=主题或重复测量因子之内(固定因子) 治疗=主观因素之间(固定因素) Obs =测得(因变量) 更新 好,所以我去找统计学家,但他是SAS用户。他认为该模型应为: 治疗+天+受试者(治疗)+天*受试者(治疗) 显然,他的表示法与R语法不同,但是该模型应考虑以下因素: 治疗(固定) 日(固定) 治疗*天互动 受试者嵌套在治疗内(随机) 当天与“治疗中的受试者”交叉(随机) 那么,这是使用正确的语法吗? m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata) 我特别担心当天与“治疗中的受试者”部分是否正确。是否有任何熟悉SAS的人,或者对他们了解模型中正在发生的事情有信心的人,能够评论我对R语法的可悲尝试是否匹配? 这是我以前建立模型和编写语法的尝试(在答案和评论中讨论): m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata) 我该如何处理对象嵌套在治疗中的事实?如何m1从不同: m2 <- lmer(Obs …



5
学习统计思维的好游戏?
有没有能让玩家“像统计学家一样思考”的游戏? 例如,lightbot让您“像程序员一样思考”(以非常基本的方式)。是否有为娱乐或教学而设计的游戏,可以帮助您熟悉相关性,p值,最小二乘法,方差,各种概率分布,回归均值等基本概念。 一个例子就是这种相关性猜测游戏。 (我之所以问是因为我正在考虑开发这样的应用程序,并且试图广泛了解现有的工作内容)

7
您必须多久滚动一次6面骰子才能获得每个数字至少一次?
我刚刚和我的孩子们一起玩过一个游戏,基本上可以归结为:谁在6面骰子获胜中至少掷出每个数字一次。 最终我赢了,其他人则在1-2回合后完成。现在我想知道:对游戏时间的期望是什么? 我知道直到您击中特定数字之前的数预期为 。∑∞n = 1n 16(56)n − 1= 6∑n=1∞n16(56)n−1=6\sum_{n=1}^\infty n\frac{1}{6}(\frac{5}{6})^{n-1}=6 但是,我有两个问题: 您必须滚动六面骰子多少次才能获得至少每个数字一次? 在四次独立测试(即有四个玩家)中,对最大掷骰数的期望是什么?[注意:这是最大的,而不是最小的,因为在他们的年龄,这更关乎完成而不是让我的孩子们先到达那里] 我可以模拟结果,但是我不知道如何进行分析计算。 这是Matlab中的Monte Carlo模拟 mx=zeros(1000000,1); for i=1:1000000, %# assume it's never going to take us >100 rolls r=randi(6,100,1); %# since R2013a, unique returns the first occurrence %# for earlier versions, take the minimum of x %# and …

4
OpenBugs与JAGS
我将尝试使用BUGS风格的环境来估计贝叶斯模型。在OpenBugs或JAGS之间进行选择时,有什么重要的优点要考虑?在可预见的将来,有可能取代另一个吗? 我将在R中使用所选的Gibbs Sampler。我还没有特定的应用程序,但是我正在决定安装和学习哪个。
41 r  software  bugs  jags  gibbs 



1
回归:转换变量
转换变量时,是否必须使用所有相同的转换?例如,是否可以选择不同的转换变量,例如: 令为年龄,就业时间,居住时间和收入。x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) 或者,您是否必须与转换保持一致并使用所有相同的转换?如: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 我的理解是,转型的目标是解决正常性问题。查看每个变量的直方图,我们可以看到它们呈现出非常不同的分布,这使我相信所需的转换在每个变量的基础上是不同的。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

3
两个正态分布随机变量之间的欧几里得距离的分布是什么?
假设给了两个对象,它们的确切位置是未知的,但是根据具有已知参数的正态分布(例如和。我们可以假设它们都是双变量法线,这样位置就由坐标上的分布来描述(即和是分别包含和的预期坐标的向量)。我们还将假定对象是独立的。a∼N(m,s)a∼N(m,s)a \sim N(m, s)b∼N(v,t))b∼N(v,t))b \sim N(v, t))(x,y)(x,y)(x,y)mmmvvv(x,y)(x,y)(x,y)aaabbb 有谁知道这两个对象之间的欧几里德距离平方的分布是否是已知的参数分布?还是如何通过分析得出此功能的PDF / CDF?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.