统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
为什么Mantel的考试比Moran的I更受青睐?
Mantel的测试广泛用于生物学研究中,以检查动物的空间分布(在空间中)与它们的遗传相关性,侵略率或其他属性之间的相关性。许多优秀的期刊正在使用它( PNAS,动物行为,分子生态学...)。 我捏造了一些自然界中可能出现的模式,但是Mantel的测试似乎无法检测到它们。另一方面,Moran's I的结果更好(请参见各图下的p值)。 为什么科学家们不使用莫兰的我呢?有一些我看不到的隐藏原因吗?如果有某种原因,我如何知道(必须以不同的方式构造假设)以适当地使用我测试的Mantel或Moran的?一个真实的例子会有所帮助。 想象这种情况:每棵树上都有一个乌鸦的果园(17 x 17棵树)。每个乌鸦的“噪音”级别都可用,您想知道乌鸦的空间分布是否由它们发出的噪音决定。 至少有5种可能性: “羽毛鸟聚集在一起。” 相似的乌鸦越多,它们之间的地理距离(单个簇)越小。 “羽毛鸟聚集在一起。” 同样,乌鸦越相似,它们之间的地理距离就越小(多簇),但是一簇嘈杂的乌鸦不知道第二簇的存在(否则它们会融合成一个大簇)。 “单调趋势。” “异性相吸。” 类似的乌鸦不能站在一起。 “随机模式。” 噪声水平对空间分布没有重大影响。 对于每种情况,我都创建了一个点图并使用Mantel检验来计算相关性(不足为奇的是,其结果不显着,我永远也不会尝试在这些点模式之间找到线性关联)。 示例数据:( 尽可能压缩) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal …


3
支持Tufte样式的可视化效果的实验证据?
问:是否有实验证据支持图夫特式的,极简的,可说数据的可视化效果,而不是像Nigel Holmes这样的图表式可视化效果? 我问如何在此处向R图添加垃圾邮件,响应者向我投掷了很多蛇。因此,当然,肯定有一些实验证据,我不知道这是支持他们的反图表垃圾立场的证据-比“图夫特这么说”还要多。对? 如果存在这样的证据,它将与我们在人类,他们的记忆记忆和模式识别方面的许多心理学研究相矛盾。因此,我一定会很高兴读到它。 一点趣闻:在一次会议上,我问爱德华·塔夫特,他如何看待实验证据,发现垃圾动画和视频可以改善人们的理解和记忆力[见《大脑规则》中引用的研究]。他的回答是:“别相信他们。” 科学方法就这么多! PS当然,我在这里有点刺人。我拥有Tufte的所有书籍,并认为他的作品令人难以置信。我只是认为他的支持者推陈出新。 注意:这是我在StackOverflow上提出的问题的重新发布。主持人关闭了它,因为它不是特定于编程的。CrossValidated可能是更好的住所。 更新:我的原始问题的评论部分有一些有用的链接,即钱伯斯,克利夫兰和斯坦福大学的datavis小组的工作。 更新:这个问题涉及相似的主题。

4
如何使用常规编程语言从均值和方差已知的正态分布中采样?
我从来没有上过统计学课程,所以我希望在正确的位置提问。 假设我仅具有两个数据描述正态分布:平均值和方差σ 2。我想使用计算机从此分布中随机抽样,以便我尊重这两个统计数据。μμ\muσ2σ2\sigma^2 很明显,我可以通过简单地将0左右归一化来处理均值:在输出样本之前,只需将添加到每个样本即可。但我不明白如何以编程方式生成样本尊重σ 2。μμ\muσ2σ2\sigma^2 我的程序将使用传统的编程语言。我无权访问任何统计数据包。




6
如何准匹配两个字符串向量(在R中)?
我不确定该如何称呼,所以如果您知道一个更好的术语,请更正我。 我有两个清单。55个项目之一(例如:字符串向量),另一个为92。项目名称相似但不相同。 我希望能够找到的最佳人选小号在92名单于55列表中的项目(然后我会去通过它,并选择正确的装修)。 怎么做到呢? 我有以下想法: 查看所有匹配项(使用某项列表?match) 尝试在字符串向量之间使用距离矩阵,但是我不确定如何最好地定义它(相同字母的数量,字符串的顺序如何?) 那么,什么软件包/功能/研究领域可以处理此类任务呢? 更新:这是我要匹配的向量的示例 vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", "Hyperthermus_butylicus", "Ignicoccus_hospitalis_KIN4", "Metallosphaera_sedula_DSM_5348", "Methanobacterium thermautotrophicus", "Methanobrevibacter_smithii_ATCC_35061", "Methanococcoides_burtonii_DSM_6242" ) vec91 <- c("Acidilobus saccharovorans 345-15", "Aciduliprofundum boonei T469", "Aeropyrum pernix K1", "Archaeoglobus fulgidus DSM …
36 r  text-mining 

3
机器学习:我应该使用分类交叉熵还是二进制交叉熵损失进行二进制预测?
首先,我意识到如果需要执行二进制预测,则必须通过执行一次热编码来创建至少两个类。它是否正确?但是,二元互熵是否仅适用于只有一个类别的预测?如果我使用大多数图书馆(例如TensorFlow)中常见的分类交叉熵损失,会不会有明显的不同? 实际上,分类交叉熵和二进制交叉熵之间的确切区别是什么?我从未在TensorFlow中看到过二进制交叉熵的实现,所以我认为也许绝对分类的效果同样好。

5
神经网络的成本函数是非凸的吗?
神经网络的成本函数为,据称它是非凸的。我不太明白为什么会这样,因为我发现它与逻辑回归的成本函数非常相似,对吗?Ĵ( W,b )Ĵ(w ^,b)J(W,b) 如果是非凸的,因此二阶导数∂Ĵ∂w ^&lt; 0∂Ĵ∂w ^&lt;0\frac{\partial J}{\partial W} < 0,是吗? 更新 感谢下面的答案以及@gung的评论,我明白了,如果根本没有隐藏的图层,它就是凸的,就像逻辑回归一样。但是,如果存在隐藏层,则通过置换隐藏层中的节点以及后续连接中的权重,我们可以对导致相同损失的权重采用多种解决方案。 现在有更多问题, 1)有多个局部最小值,其中一些应该具有相同的值,因为它们与某些节点和权重置换相对应,对吗? 2)如果根本不会置换节点和权重,那么它是凸的,对吗?最小值将是全局最小值。如果是这样,则1)的答案是,所有这些局部最小值将具有相同的值,对吗?



1
变分推理与MCMC:何时选择一个?
我觉得我得到两个VI和MCMC的总体思路,包括MCMC像Gibbs抽样的各种口味,新都黑斯廷斯等这个文件提供了两种方法的精彩论述。 我有以下问题: 如果我想进行贝叶斯推理,为什么要选择一种方法而不是另一种方法? 每种方法的优缺点是什么? 我知道这是一个相当广泛的问题,但是任何见解都将受到高度赞赏。


2
如果仅对预测感兴趣,为什么在山脊上使用套索?
在《统计学习入门》的第223页中,作者总结了岭回归和套索之间的区别。他们提供了一个示例(图6.9),其中“套索在偏见,方差和MSE方面倾向于胜过岭回归”。 我知道为什么套索是可取的:因为它会将许多系数缩小到0,所以结果很稀疏,从而导致模型简单易懂。但是我不明白当仅对预测感兴趣时,它如何能胜过岭(即,在示例中,它如何获得显着更低的MSE?)。 使用ridge时,如果许多预测变量对响应几乎没有影响(少数预测变量产生很大影响),它们的系数不会简单地缩小到非常接近零的小数目...导致与套索非常相似?那么,为什么最终模型的性能会比套索差?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.