统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
用于估计大致正态分布规模的鲁棒贝叶斯模型将是什么?
存在许多健壮的规模估计器。一个明显的例子是与标准偏差相关的中位数绝对偏差,即。在贝叶斯框架中,存在多种方法来可靠地估计大致正态分布的位置(例如,被异常值污染的正态),例如,可以假设数据的分布与分布或拉普拉斯分布相同。现在我的问题是:σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 以鲁棒方式测量大致正态分布规模的贝叶斯模型在与MAD或类似鲁棒估计量相同的意义上是鲁棒的吗? 与MAD的情况一样,如果数据的分布实际上是正态分布的,那么贝叶斯模型可以逼近正态分布的SD,那将是很巧妙的。 编辑1: 一个模型的一个典型的例子假设数据时即防止污染/离群健壮是大致正常的使用是在状分布:yiyiy_i yi∼t(m,s,ν)yi∼t(m,s,ν)y_i \sim \mathrm{t}(m, s,\nu) 其中是平均值,是小数,是自由度。如果在和上具有适当的先验,则将是均值的估计值,它将对异常值具有鲁棒性。但是,由于s取决于\ nu,因此并不是y_i SD的一致估计。例如,如果\ nu将固定为4.0,并且上面的模型将适合\ mathrm {Norm}(\ mu = 0,\ sigma = 1)分布中的大量样本,则s小号ν 米,小号ν 米ÿ 我小号ÿ 我小号ν ν Ñ ø ř 米(μ = 0 ,σ = 1 )小号mmmsssνν\num,sm,sm, sνν\nummmyiyiy_isssyiyiy_isssνν\nuνν\nuNorm(μ=0,σ=1)Norm(μ=0,σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss大约是0.82 我要寻找的是一个健壮的模型,就像t模型一样,但是要使用SD代替平均值(或除平均值外)。 编辑2: 以下是R和JAGS中的一个编码示例,上面提到的t模型相对于均值如何更健壮。 # generating some contaminated data y <- c( …

8
这个人是女性的几率是多少?
窗帘后面有一个人-我不知道这个人是女性还是男性。 我知道这个人长发,而且所有长发中有90%是女性 我知道该人患有罕见的AX3血型,并且所有这种血型的人中有80%是女性。 这个人是女性的几率是多少? 注意:最初的配方在两个假设的基础上进行了扩展:1.血型和头发长度是独立的。2.总体人口中男性与女性的比例为50:50 (这里的具体情况不是那么重要-而是,我有一个紧急项目,要求我有正确的方法来回答这个问题。我的直觉是这是一个简单的概率问题,一个简单的确定性答案,而不是而不是根据不同的统计理论有多个值得商answers答案的事物。)

2
为什么没有像AlphaGo这样的国际象棋深度强化学习引擎?
长期以来,计算机一直能够使用“强力”技术下棋,搜索到一定深度然后评估位置。但是,AlphaGo计算机仅使用ANN评估位置(据我所知,它不进行任何深度搜索)。是否可以创建与AlphaGo玩Go相同的方式下棋的国际象棋引擎?为什么没有人这样做?该程序的性能是否会比今天的顶级国际象棋引擎(和国际象棋玩家)更好?

1
PCA如何帮助进行k均值聚类分析?
背景:我想根据城市的社会经济特征将其分为几类,包括住房单位密度,人口密度,绿地面积,房价,学校/保健中心/日托中心的数量等。我想了解居住区可以分为多少不同的组,以及它们的独特特征。这些信息可以促进城市规划。 根据一些示例(请参阅此博客文章:Delta Aircraft的PCA和K-means聚类),我发现进行分析的方法是: 首先做PCA分析。 根据PCA结果确定唯一组(集群)的数量(例如,使用“弯头”方法,或者选择解释总方差的80%到90%的组件数量)。 确定聚类数后,应用k均值聚类进行分类。 我的问题: PCA组件的数量似乎与聚类分析有关。的确如此,例如,如果我们发现5个PCA组件解释了所有功能的90%以上的变化,那么我们将应用k-均值聚类并得到5个聚类。那么这5个组是否恰好对应于PCA分析中的5个组成部分? 换句话说,我想我的问题是:PCA分析和k均值聚类之间有什么联系? 更新: 感谢Emre,xeon和Kirill的投入。所以目前的答案: 在进行聚类分析之前进行PCA对于减少维数作为特征提取器并可视化/显示聚类也很有用。 聚类后​​进行PCA可以验证聚类算法(参考:内核主成分分析)。 有时会应用PCA来降低聚类之前数据集的维数。然而,Yeung&Ruzzo(2000)指出,使用PC代替原始变量进行聚类并不一定能改善聚类质量。特别是,前几台PC(包含数据的大部分变化)不一定捕获大多数群集结构。 杨,杨怡和Walter L. Ruzzo。对基因表达数据进行聚类的主成分分析的实证研究。华盛顿大学计算机科学与工程系技术报告,2000年。(pdf) 在进行两步聚类分析之前,似乎需要PCA 。基于Ibes(2015),其中使用PCA中确定的因素进行了聚类分析。 Ibes,DorothyC。城市公园系统的多维分类和公平性分析:一种新颖的方法和案例研究应用。 《景观与城市规划》,第137卷,2015年5月,第122–137页。

2
确定SVM最佳C和伽玛参数的搜索范围是什么?
我正在使用SVM进行分类,并且正在尝试确定线性和RBF内核的最佳参数。对于线性内核,我使用交叉验证的参数选择来确定C,对于RBF内核,我使用网格搜索来确定C和伽马。 我有20个(数字)功能和70个训练示例,应该将其分为7类。 我应该使用哪个搜索范围来确定C和gamma参数的最佳值?

1
“确定系数”和“均方误差”之间有什么区别?
对于回归问题,我已经看到人们使用“确定系数”(aka R平方)执行模型选择,例如,找到适当的惩罚系数以进行正则化。 但是,通常也使用“均方误差”或“均方根误差”作为回归精度的量度。 那么,这两者之间的主要区别是什么?是否可以将它们互换用于“规范化”和“回归”任务?每种方法在实践中的主要用途是什么,例如在机器学习,数据挖掘任务中?

4
真值为零时如何计算相对误差?
当真实值为零时,如何计算相对误差? 假设我有和。如果我将相对误差定义为:xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} 那么相对误差总是不确定的。如果相反,我使用定义: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} 那么相对误差总是100%。两种方法似乎都没有用。还有其他选择吗?

1
PCA目标函数:最大化方差和最小化误差之间有什么联系?
可以根据相关矩阵来表示PCA算法(假设数据XXX已经被归一化,我们仅考虑投影到第一台PC上)。目标函数可以写成: maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. 很好,我们使用拉格朗日乘子来求解,即重写为: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], 相当于 maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, 因此(在Mathworld上参见此处)似乎等于maxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi to line w)2.\max_w \sum_{i=1}^n \text{(distance from point $x_i$ to line $w$)}^2. 但这是为了最大化点与线之间的距离,从我在这里所读的内容来看,这是不正确的-应该是,而不是\ max。我的错误在哪里?最大minmin\minmaxmax\max 或者,有人可以告诉我最大化投影空间中的方差与最小化点与线之间的距离之间的联系吗?
32 pca  optimization 

3
是否有一个类似Euler的机器学习项目?
我发现Project Euler http://projecteuler.net/在学习编程语言方面非常有用。是否有类似的机器学习网站? 我确实看到了http://www.kaggle.com/,但是对于初学者来说,它不如欧拉计画那样容易。
32 teaching 

3
相关或协方差的PCA:相关的PCA是否有意义?[关闭]
在主成分分析(PCA)中,可以选择协方差矩阵或相关矩阵来查找成分(从它们各自的特征向量中)。由于两个矩阵之间的特征向量不相等,因此得出不同的结果(PC加载和得分)。我的理解是,这是由于以下事实导致的:原始数据矢量及其标准化无法通过正交变换进行关联。在数学上,相似的矩阵(即通过正交变换关联)具有相同的特征值,但不一定具有相同的特征向量。XXXZZZ 这在我的脑海中带来了一些困难: 如果您可以针对同一起始数据集获得两个不同的答案,而两者都试图实现相同的目标(=最大方差的寻找方向),那么PCA真的有意义吗? 使用相关矩阵方法时,在计算PC之前,将通过其各自的标准偏差对每个变量进行标准化(缩放)。如果事先已经对数据进行了不同的缩放/压缩,那么找到最大方差方向仍然有意义吗?我知道基于相关的PCA非常方便(标准化变量是无量纲的,因此可以添加它们的线性组合;其他优点也基于实用主义),但这是正确的吗? 在我看来,基于协方差的PCA是唯一真正正确的方法(即使变量的方差相差很大),并且每当无法使用此版本时,也不应使用基于相关性的PCA。 我知道有这个线程:相关性或协方差的PCA?-但它似乎只专注于找到一种实用的解决方案,该解决方案也可能不是代数正确的解决方案。

3
R如何处理lm中的缺失值?
我想针对矩阵A中的每一列对向量B进行回归。如果没有缺失数据,这是微不足道的,但是如果矩阵A包含缺失值,那么我对A的回归就被约束为仅包含所有存在值(默认的na.omit行为)。对于没有缺失数据的列,这会产生不正确的结果。我可以将列矩阵B相对于矩阵A的各个列进行回归,但是我要完成数千次回归,这是缓慢而乏味的。该na.exclude功能似乎是专为这种情况下,但我不能让它工作。我在这里做错了什么?如果重要,请在OSX上使用R 2.13。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

4
我如何适合用于过度分散泊松结果的多级模型?
我想使用R来拟合具有Poisson分布(过度分散)的多级GLMM。此刻,我正在使用lme4,但是我注意到最近该quasipoisson家族被删除了。 我在其他地方看到过,您可以通过为每个观测值添加一个随机截距来为二项式分布建模加法过度弥散。这也适用于泊松分布吗? 有更好的方法吗?您还有其他推荐的软件包吗?

3
在实践中使用什么停止准则进行聚集聚类?
我发现了广泛的文献提出了各种标准(例如Glenn等,1985(pdf)和Jung等,2002(pdf))。但是,其中大多数都不容易实现(至少从我的角度来看)。我正在使用scipy.cluster.hierarchy获取群集层次结构,现在我试图确定如何从中形成平面群集。我的目标是发现观察结果中的常见模式,因此我没有参考将获得的聚类与之进行比较。谁能建议一个务实的解决方案?
32 clustering 

2
卷积神经网络中“特征图”(又名“激活图”)的定义是什么?
介绍背景 在卷积神经网络内,我们通常具有如下所示的一般结构/流程: 输入图像(即2D矢量x) (第一个卷积层(Conv1)从这里开始...) w1沿2D图像对一组滤镜()进行卷积(即进行z1 = w1*x + b1点积乘法),其中z13D b1为偏差。 应用激活函数(例如ReLu)使z1非线性(例如a1 = ReLu(z1))a1为3D。 (第二个卷积层(Conv2)从这里开始...) 沿新计算的激活量(即,进行z2 = w2*a1 + b2点积乘法)对一组滤波器进行卷积,其中z23D为,且b2为偏差。 应用激活函数(例如ReLu)使z2非线性(例如a2 = ReLu(z2))a2为3D。 问题 术语“功能图”的定义似乎因文学而异。具体来说: 对于第一个卷积层,“特征图”是否对应于输入矢量x,输出点积z1,输出激活a1或转换x为的“过程” a1或其他内容? 类似地,对于第二卷积层,“特征图”是否对应于输入激活a1,输出点积z2,输出激活a2,或转换a1为的“过程” a2或其他? 另外,术语“功能图” 与“激活图” 是否完全相同?(或者它们实际上是指两个不同的东西吗?) 其他参考: 神经网络和深度学习的片段-第6章: *这里使用的术语是宽松的。特别是,我使用“功能图”来表示不是由卷积层计算的功能,而是表示从该层输出的隐藏神经元的激活。这种轻微的术语滥用在研究文献中非常普遍。 Matt Zeiler的可视化和理解卷积网络的片段: 在本文中,我们介绍了一种可视化技术,该技术揭示了在模型的任何层上激发单个特征图的输入刺激。相比之下,我们的方法提供了不变性的非参数视图,显示了训练集中的哪些模式激活了特征图。局部对比操作,可标准化整个特征图的响应。[...]要检查给定的convnet激活,我们将该层中的所有其他激活设置为零,并将要素映射作为输入传递到附加的deconvnet层。convnet使用relu非线性来校正特征图,从而确保特征图始终为正。[...] convnet使用学习的过滤器对来自上一层的特征图进行卷积。[...]图6 这些可视化是输入模式的准确表示,当原始输入图像中与模式相对应的部分被遮挡时,可以刺激模型中给定的特征图,我们可以看到特征图中活动的明显下降。[...] 备注:在图1中还引入了术语“特征图”和“校正后的特征图”。 从片段斯坦福CS231n章在CNN: [...]通过这种可视化可以轻松注意到的一个危险陷阱是,对于许多不同的输入,某些激活图可能全为零,这可能表明过滤器失效,并且可能是高学习率的征兆[...]训练有素的AlexNet的第一张CONV层(左)和第五张CONV层(右)上看似典型的激活物,它们看着猫的照片。每个框都显示对应于某个过滤器的激活图。请注意,激活是稀疏的(大多数值是零,在此可视化中以黑色显示)并且大多数是局部的。 从片段A-Beginner's-引导到理解,卷积神经网络 [...]输入卷上的每个唯一位置都会产生一个数字。在所有位置上滑动过滤器后,您会发现剩下的是28 x 28 x 1的数字数组,我们称之为激活图或功能图。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.