统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
为什么要使用S型函数而不是其他函数?
为什么事实上的标准S形函数在(非深度)神经网络和逻辑回归中如此流行?1个1 + e− x1个1个+Ë-X\frac{1}{1+e^{-x}} 我们为什么不使用许多其他可导函数,它们的计算时间更快或更慢的衰减(因此消失的梯度发生得更少)。维基百科上关于Sigmoid函数的例子很少。是我最喜欢的具有缓慢衰减和快速计算的功能。X1 + | x |X1个+|X|\frac{x}{1+|x|} 编辑 这个问题与具有优点/缺点的神经网络中激活函数的综合列表不同,因为我只对“为什么”感兴趣,而对乙状结肠不感兴趣。

6
何时使用模拟?
因此,这是一个非常简单而愚蠢的问题。但是,当我在学校的时候,我很少关注课堂上模拟的整个概念,这让我对这一过程有些恐惧。 您能以外行术语解释模拟过程吗?(可能用于生成数据,回归系数等) 使用模拟时有哪些实际情况/问题? 我希望在R中给出任何示例。
40 simulation 

5
R中的警告-卡方近似值可能不正确
我有显示消防员入学考试结果的数据。我正在检验考试结果和种族不是相互独立的假设。为了对此进行测试,我在R中运行了Pearson卡方检验。结果显示了预期的结果,但警告“” In chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) …

4
召回率和分类精度
尽管每次都是在信息检索的上下文中,但我还是阅读了一些有关回忆和精确度的定义。我想知道是否有人可以在分类环境中对此进行更多解释,并举例说明一些例子。比如说我有一个二进制分类器,它给我60%的精度和95%的召回率,这是一个很好的分类器吗? 也许可以进一步帮助我实现目标,那么根据您的最佳分类器是什么?(数据集不平衡。多数类的数量是少数类的示例的两倍) 我个人会说5,因为接收器操作员曲线下方的区域。 (如您在这里看到的,模型8的精度较低,召回率很高,但是AUC_ROC最低,这使它成为好模型还是坏模型?) 编辑: 我有一个包含更多信息的Excel文件:https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx 在此文档中,可以找到接收方算子曲线下的区域以及精确召回曲线下的区域。连同情节。

5
如何得出岭回归解?
我在脊回归解决方案的推导中遇到一些问题。 我知道没有正则化项的回归解决方案: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 但是在将L2项到成本函数之后,解决方案变成了λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
如何使用glmnet呈现套索的结果?
我想从30个独立变量中找到连续因变量的预测变量。我正在使用在R 中的glmnet包中实现的Lasso回归。这是一些伪代码: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …


3
隐马尔可夫模型和神经网络之间有什么区别?
我只是想弄清楚统计数字,所以对不起这个问题,我感到抱歉。我已经使用马尔可夫模型来预测隐藏状态(不正当赌场,掷骰子等)和神经网络来研究用户在搜索引擎上的点击。两者都有隐藏状态,我们试图使用观察来弄清楚。 据我了解,它们都可以预测隐藏状态,所以我想知道何时在神经网络上使用马尔可夫模型?它们只是解决类似问题的不同方法吗? (我对学习感兴趣,但是我也有另一个动机,我有一个问题,我正在尝试使用隐藏的马尔可夫模型来解决,但是这使我大吃一惊,所以我很想知道是否可以改用其他东西。)

3
考虑的总和
我一直在想这个问题。我觉得它突然发生有点奇怪。基本上,为什么我们只需要三个均匀的ZnZnZ_n就能平滑呢?为何平滑化如此迅速地进行? Z2Z2Z_2: Z3Z3Z_3: (图像从John D. Cook的博客中无耻地被盗:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/) 为什么不用四套制服?还是五个?要么...?

1
如何使用自举法或蒙特卡洛方法确定重要的主要成分?
我对确定从主成分分析(PCA)或经验正交函数(EOF)分析得出的有效模式的数量感兴趣。我对将这种方法应用于气候数据特别感兴趣。数据字段是一个MxN矩阵,其中M是时间维度(例如天),N是空间维度(例如lon / lat位置)。我已经读过一种可能的引导方法来确定重要的PC,但是无法找到更详细的描述。到目前为止,我一直在使用North的经验法则(North 等人,1982)来确定该临界值,但是我想知道是否有更健壮的方法可用。 举个例子: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal …
40 r  pca  bootstrap  monte-carlo 


13
蒙蒂·霍尔问题-我们的直觉会使我们失败吗?
从维基百科: 假设您正在一场游戏节目中,并且可以选择三扇门:一扇门后面是一辆汽车;在其他人之后,是山羊。您选择一扇门,说一号,然后知道门后有什么的主人打开另一扇门,说三号,它有一只山羊。然后,他对您说:“您要选择2号门吗?” 切换选择对您有利吗? 答案是肯定的-但这是极不明智的。大多数人对导致我们挠头甚至更好的机会的可能性有误解。我们可以从这个难题中走出什么一般规则,以便将来更好地训练我们的直觉?

4
直线激活函数如何解决神经网络中消失的梯度问题?
我发现整流线性单位(ReLU)在许多地方被赞誉为神经网络消失梯度问题的一种解决方案。即,使用max(0,x)作为激活函数。当激活为正时,很明显它比S型激活函数好,因为它的推导始终为1,而不是大x的任意小值。另一方面,当x小于0时,导数恰好为0。在最坏的情况下,当一个单位从未被激活时,该单位的权重也将不再变化,并且该单位将永远无用-这似乎甚至比消失得很小的渐变还要差。学习算法在使用ReLU时如何处理该问题?

5
动态时间规整聚类
使用动态时间规整(DTW)进行时间序列聚类的方法是什么? 我已经读过有关DTW的方法,该方法可以找到两个时间序列之间的相似性,而它们可能会随时间变化。我可以将这种方法用作k-means等聚类算法的相似性度量吗?

6
使用Softmax /交叉熵进行反向传播
我试图了解反向传播如何用于softmax /交叉熵输出层。 交叉熵误差函数为 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 分别以和为目标,并在神经元处输出。总和在输出层的每个神经元上。本身是softmax函数的结果:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 同样,总和在输出层的每个神经元上,是神经元的输入:zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b 那是前一层中所有神经元的总和,其对应的输出为,权重朝向神经元加上偏差。oioio_iwijwijw_{ij}jjjbbb 现在,要更新连接输出层中的神经元和上一层中的神经元的权重,我需要使用链式规则来计算误差函数的偏导数:wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} 用作为神经元的输入。zjzjz_jjjj 最后一个词很简单。由于和之间只有一个权重,因此导数为:iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 第一项是关于输出的误差函数的:ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中间项是softmax函数相对于其输入更难:zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.