统计和大数据

4

为什么事实上的标准S形函数在（非深度）神经网络和逻辑回归中如此流行？1个1 + e− x1个1个+Ë-X\frac{1}{1+e^{-x}} 我们为什么不使用许多其他可导函数，它们的计算时间更快或更慢的衰减（因此消失的梯度发生得更少）。维基百科上关于Sigmoid函数的例子很少。是我最喜欢的具有缓慢衰减和快速计算的功能。X1 + | x |X1个+|X|\frac{x}{1+|x|} 编辑这个问题与具有优点/缺点的神经网络中激活函数的综合列表不同，因为我只对“为什么”感兴趣，而对乙状结肠不感兴趣。

40 logistic neural-networks least-squares

6

何时使用模拟？

因此，这是一个非常简单而愚蠢的问题。但是，当我在学校的时候，我很少关注课堂上模拟的整个概念，这让我对这一过程有些恐惧。您能以外行术语解释模拟过程吗？（可能用于生成数据，回归系数等）使用模拟时有哪些实际情况/问题？我希望在R中给出任何示例。

40 simulation

5

R中的警告-卡方近似值可能不正确

我有显示消防员入学考试结果的数据。我正在检验考试结果和种族不是相互独立的假设。为了对此进行测试，我在R中运行了Pearson卡方检验。结果显示了预期的结果，但警告“” In chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) …

40 r categorical-data chi-squared small-sample error-message

4

召回率和分类精度

尽管每次都是在信息检索的上下文中，但我还是阅读了一些有关回忆和精确度的定义。我想知道是否有人可以在分类环境中对此进行更多解释，并举例说明一些例子。比如说我有一个二进制分类器，它给我60％的精度和95％的召回率，这是一个很好的分类器吗？也许可以进一步帮助我实现目标，那么根据您的最佳分类器是什么？（数据集不平衡。多数类的数量是少数类的示例的两倍）我个人会说5，因为接收器操作员曲线下方的区域。（如您在这里看到的，模型8的精度较低，召回率很高，但是AUC_ROC最低，这使它成为好模型还是坏模型？）编辑：我有一个包含更多信息的Excel文件：https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx 在此文档中，可以找到接收方算子曲线下的区域以及精确召回曲线下的区域。连同情节。

40 machine-learning metric

5

如何得出岭回归解？

我在脊回归解决方案的推导中遇到一些问题。我知道没有正则化项的回归解决方案： β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 但是在将L2项到成本函数之后，解决方案变成了λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

3

如何使用glmnet呈现套索的结果？

我想从30个独立变量中找到连续因变量的预测变量。我正在使用在R 中的glmnet包中实现的Lasso回归。这是一些伪代码： # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …

40 r multiple-regression lasso glmnet communication

2

如何阅读库克的距离图？

有谁知道如何计算出第7、16和29点是否是有影响力的点？我在某处读到，因为库克的距离小于1，所以不是。我对吗？

40 r regression residuals diagnostic cooks-distance

3

隐马尔可夫模型和神经网络之间有什么区别？

我只是想弄清楚统计数字，所以对不起这个问题，我感到抱歉。我已经使用马尔可夫模型来预测隐藏状态（不正当赌场，掷骰子等）和神经网络来研究用户在搜索引擎上的点击。两者都有隐藏状态，我们试图使用观察来弄清楚。据我了解，它们都可以预测隐藏状态，所以我想知道何时在神经网络上使用马尔可夫模型？它们只是解决类似问题的不同方法吗？（我对学习感兴趣，但是我也有另一个动机，我有一个问题，我正在尝试使用隐藏的马尔可夫模型来解决，但是这使我大吃一惊，所以我很想知道是否可以改用其他东西。）

40 data-mining algorithms neural-networks markov-process

3

考虑的总和

我一直在想这个问题。我觉得它突然发生有点奇怪。基本上，为什么我们只需要三个均匀的ZnZnZ_n就能平滑呢？为何平滑化如此迅速地进行？ Z2Z2Z_2： Z3Z3Z_3：（图像从John D. Cook的博客中无耻地被盗：http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/）为什么不用四套制服？还是五个？要么...？

40 normal-distribution mathematical-statistics uniform central-limit-theorem

1

如何使用自举法或蒙特卡洛方法确定重要的主要成分？

我对确定从主成分分析（PCA）或经验正交函数（EOF）分析得出的有效模式的数量感兴趣。我对将这种方法应用于气候数据特别感兴趣。数据字段是一个MxN矩阵，其中M是时间维度（例如天），N是空间维度（例如lon / lat位置）。我已经读过一种可能的引导方法来确定重要的PC，但是无法找到更详细的描述。到目前为止，我一直在使用North的经验法则（North 等人，1982）来确定该临界值，但是我想知道是否有更健壮的方法可用。举个例子： ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal …

40 r pca bootstrap monte-carlo

15

准备地块时应遵循哪些最佳实践？

在准备地块时，我通常会做出自己独特的选择。但是，我想知道是否有用于生成图的最佳实践。注意：Rob对这个问题的答案的评论在这里非常相关。

40 data-visualization references

13

蒙蒂·霍尔问题-我们的直觉会使我们失败吗？

从维基百科：假设您正在一场游戏节目中，并且可以选择三扇门：一扇门后面是一辆汽车；在其他人之后，是山羊。您选择一扇门，说一号，然后知道门后有什么的主人打开另一扇门，说三号，它有一只山羊。然后，他对您说：“您要选择2号门吗？” 切换选择对您有利吗？答案是肯定的-但这是极不明智的。大多数人对导致我们挠头甚至更好的机会的可能性有误解。我们可以从这个难题中走出什么一般规则，以便将来更好地训练我们的直觉？

40 probability intuition puzzle

4

直线激活函数如何解决神经网络中消失的梯度问题？

我发现整流线性单位（ReLU）在许多地方被赞誉为神经网络消失梯度问题的一种解决方案。即，使用max（0，x）作为激活函数。当激活为正时，很明显它比S型激活函数好，因为它的推导始终为1，而不是大x的任意小值。另一方面，当x小于0时，导数恰好为0。在最坏的情况下，当一个单位从未被激活时，该单位的权重也将不再变化，并且该单位将永远无用-这似乎甚至比消失得很小的渐变还要差。学习算法在使用ReLU时如何处理该问题？

40 machine-learning neural-networks deep-learning gradient-descent

5

动态时间规整聚类

使用动态时间规整（DTW）进行时间序列聚类的方法是什么？我已经读过有关DTW的方法，该方法可以找到两个时间序列之间的相似性，而它们可能会随时间变化。我可以将这种方法用作k-means等聚类算法的相似性度量吗？

40 time-series clustering

6

使用Softmax /交叉熵进行反向传播

我试图了解反向传播如何用于softmax /交叉熵输出层。交叉熵误差函数为 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 分别以和为目标，并在神经元处输出。总和在输出层的每个神经元上。本身是softmax函数的结果：tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 同样，总和在输出层的每个神经元上，是神经元的输入：zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b 那是前一层中所有神经元的总和，其对应的输出为，权重朝向神经元加上偏差。oioio_iwijwijw_{ij}jjjbbb 现在，要更新连接输出层中的神经元和上一层中的神经元的权重，我需要使用链式规则来计算误差函数的偏导数：wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} 用作为神经元的输入。zjzjz_jjjj 最后一个词很简单。由于和之间只有一个权重，因此导数为：iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 第一项是关于输出的误差函数的：ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中间项是softmax函数相对于其输入更难：zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} …

40 backpropagation derivative softmax cross-entropy