统计和大数据

2

就我在统计上的综合（和稀缺）知识而言，我理解如果是同上的随机变量，则该术语暗示它们是独立且均等分布的。X1个，X2，。。。，XñX1,X2,...,XnX_1, X_2,..., X_n 我在这里关心的是iid样本的前一个属性，其内容为： p （Xñ| X一世1个，X一世2，。。。，X一世ķ）= p （Xñ），p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 对于不同 st任何集合。 1 ≤ 我Ĵ < Ñ一世Ĵiji_j1 ≤ 我Ĵ< n1≤ij<n1 \leq i_j < n 但是，人们知道，具有相同分布的独立样本的集合提供了有关分布结构的信息，因此，在上述情况下，还提供了有关的信息，因此，实际上不应该是： p （X Ñ | X 我1，X 我2，。。。，X 我ķ）= p （X Ñ）。XñXnX_np （Xñ| X一世1个，X一世2，。。。，X一世ķ）= p （Xñ）。p（Xñ|X一世1个，X一世2，。。。，X一世ķ）=p（Xñ）。p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). 我知道我是谬论的受害者，但我不知道为什么。请帮我解决这个问题。

24 sampling conditional-probability independence

1

从MCMC样本计算边际可能性

这是一个反复出现的问题（请参阅本文，本文和文章），但是我有不同的看法。假设我有一堆来自通用MCMC采样器的采样。对于每个样本，我知道对数似然和对数在先。如果有帮助，我也知道每个数据点的对数似然值\ log f（x_i | \ theta）（此信息对某些方法（例如WAIC和PSIS-LOO）有所帮助）。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 我想仅凭我拥有的样本以及可能的其他一些功能评估（但不重新运行即席 MCMC）来获得（粗略）边际可能性的估计。首先，让我们清除表。众所周知，谐波估计器是有史以来最差的估计器。让我们继续前进。如果使用封闭形式的先验和后验进行Gibbs采样，则可以使用Chib方法。但是我不确定如何在这些情况之外进行概括。还有一些方法需要您修改采样过程（例如通过回火的后验者），但是我对此并不感兴趣。我正在考虑的方法包括用参数（或非参数）形状g（\ theta）近似基础分布g(θ)g(θ)g(\theta)，然后将归一化常数ZZZ视为一维优化问题（即，使某些误差最小的ZZZ之间Zg(θ)Zg(θ)Z g(\theta)和f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)评价对样品）。在最简单的情况下，假设后验近似为多元法线，我可以将g（\ theta）拟合g(θ)g(θ)g(\theta)为多元法线，并得到类似于拉普拉斯近似的东西（我可能想使用一些其他函数求值来细化位置模式）。但是，我可以将其用作g(θ)g(θ)g(\theta)更灵活的族，例如多元ttt分布的变体混合。我知道只有在Zg(θ)Zg(θ)Z g(\theta)是f（\ textbf {x} | \ theta）f（\ theta）的合理近似值的情况下，此方法才有效f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)，但是任何理由或谨慎的说法对于为什么这样做都是非常不明智的会吗您会建议阅读吗？完全非参数方法使用一些非参数族，例如高斯过程（GP），来近似logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)（或其一些其他非线性变换，例如（作为平方根）和贝叶斯正交，以隐式集成基础目标（请参见此处和此处）。这似乎是一种有趣的替代方法，但在精神上是类似的（另请注意，就我而言，全科医生会很笨拙）。

24 machine-learning bayesian sampling mcmc likelihood

2

从使用泊松分布对过程进行建模转换为使用负二项分布？

\newcommand{\P}{\mathbb{P}}我们有一个随机过程，该过程在设定的时间段内可能不会发生多次。我们有一个来自此过程的预先存在模型的数据馈送，该数据馈送提供了在期间内发生许多事件的概率。这个现有模型很旧，我们需要对Feed数据进行实时检查，以获取估计错误。产生数据馈送的旧模型（提供了在剩余时间发生事件的概率）近似为Poisson Distributed。TTT0≤t<T0≤t<T0 \leq t < Tnnnttt 因此，为了检查异常/错误，我们让为剩余时间，为在剩余时间发生的事件总数。旧模型隐含了估计。因此，在我们的假设我们有：为了从旧模型的输出（观测值y_ {t}）中得出事件发生率\ lambda_t，我们使用状态空间方法，并将状态关系建模为： y_t = \ lambda_t + \ varepsilon_t \ quad（\ varepsilon_t \ sim N（ 0，H_t））\ ,. tttXtXtX_ttttP(Xt≤c)P(Xt≤c)\P(X_t \leq c)Xt∼Poisson(λt)Xt∼Poisson⁡(λt)X_t\sim \operatorname{Poisson}(\lambda_{t})P(Xt≤c)=e−λ∑k=0cλktk!.P(Xt≤c)=e−λ∑k=0cλtkk!. \P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,. λtλt\lambda_tytyty_{t}yt=λt+εt(εt∼N(0,Ht)).yt=λt+εt(εt∼N(0,Ht)). y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,. 我们使用状态空间[恒定速度衰减]模型对\ lambda_t的演化使用旧模型进行λtλt\lambda_t过滤，以获取过滤后的状态E(λt|Yt)E(λt|Yt)E(\lambda_t|Y_t)并从如果E(λt|Yt)<ytE(λt|Yt)<ytE(\lambda_t|Y_t) < y_t。这种方法在处理整个时间段T内估计事件计数中的错误时效果非常好TTT，但是如果我们想在另一个时间段0≤t<σ0≤t<σ0 \leq …

24 negative-binomial kalman-filter poisson-process state-space-models

2

用于文本分类的词袋：为什么不只使用词频代替TFIDF？

文本分类的常用方法是从“词袋”中训练分类器。用户采用要分类的文本并计算每个对象中单词的出现频率，然后进行某种修整以使结果矩阵保持可管理的大小。我经常看到用户使用TFIDF构建其特征向量。换句话说，上面提到的文本频率被语料库中单词的频率降低权重。我明白了为什么TFIDF对于选择给定文档的“最有区别”的单词以供显示给人类分析人员有用。但是，如果使用标准的监督ML技术对文本进行分类，为什么要减少语料库中文档的频率来降低权重呢？学习者自己不会决定分配给每个单词/单词组合的重要性吗？非常感谢您对IDF增值（如果有）的想法。

24 machine-learning classification text-mining

4

我们可以从人工神经网络中学到什么关于人脑？

我知道我的问题/标题不是很具体，所以我将尝试澄清一下：人工神经网络的设计相对严格。当然，通常，它们会受到生物学的影响，并尝试建立真实神经网络的数学模型，但是我们对真实神经网络的理解不足以建立精确的模型。因此，我们无法构思出精确的模型或“接近”真实神经网络的任何事物。据我所知，所有人工神经网络都与真实神经网络相距甚远。标准，经典的全连接MLP在生物学中不存在。递归神经网络缺乏实际的神经可塑性，RNN的每个神经元都具有相同的“反馈结构”，而真实的神经元则保存并共享它们的信息而不是单独地。卷积神经网络是有效且流行的，但是（例如）人脑中的图像处理仅由几个卷积层组成，而现代解决方案（如GoogLeNet）已经使用了数十个卷积层……尽管它们为计算机产生了很好的结果，它们甚至不接近人类的表现。尤其是当我们想到“每层性能”时，与真实的神经网络相比，我们需要大量的层并减少数据。此外，据我所知，与真实神经网络的巨大适应性相比，即使是模块化的，自扩展/自重构的人工神经网络也相当“固定和静态”。生物神经元通常具有成千上万的树突，将神经元连接到各种各样的不同区域和其他神经元。人工神经网络更加“直接”。那么，我们能从人工神经网络学到关于人脑/真实神经网络的任何信息吗？还是只是尝试创建一种性能要比经典的静态算法更好的软件（甚至在此类算法失败的地方做些事情）？有人可以提供（最好是科学的）有关此主题的资源吗？编辑：高度赞赏更多答案（：

24 machine-learning neural-networks bioinformatics artificial-intelligence neuroscience

1

维中的

给定数据点，每个数据点具有特征，标记为，其他标记为。每个特征随机取的值（均匀分布）。存在可以分裂两个类别的超平面的概率是多少？d Ñ / 2 0 Ñ / 2 1 [ 0 ，1 ]nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] 让我们首先考虑最简单的情况，即。d=1d=1d = 1

24 probability classification mathematical-statistics separation

3

为什么在机器学习中电源或对数转换没有被很好地教授？

机器学习（ML）大量使用线性和逻辑回归技术。这也依赖于功能工程技术（feature transform，kernel，等）。为什么没有任何关于variable transformation（例如power transformation）在ML提到？（例如，我从没听说过使用根或登录要素，它们通常仅使用多项式或RBF。）同样，为什么ML专家不关心因变量的要素转换？（例如，我从没听说过对y进行对数转换；他们只是不对y进行转换。）编辑：也许不是肯定的问题，我真正的问题是“对变量的幂转换在ML中不重要吗？”

24 regression machine-learning data-transformation

2

贝叶斯套索vs普通套索

套索可使用不同的实现软件。我知道在不同的论坛上有很多关于贝叶斯方法与常客方法的讨论。我的问题特别针对套索- 贝叶斯套索与常规套索有什么区别或优势？这是该包中的两个实现示例： # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 那么我什么时候应该选择一种或其他方法呢？还是一样？

24 r machine-learning linear-model lasso

2

贝叶斯主义者接受科尔摩哥罗夫的公理吗？

通常，概率论是用Kolgomorov的公理教授的。贝叶斯人也接受科尔摩哥罗夫的公理吗？

24 probability bayesian kolmogorov-axioms

1

多重相关系数和确定系数几何解释

我对回归的多重相关性和确定系数的几何含义感兴趣或矢量记号，RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} 这里的设计矩阵有行和列，其中第一个是，它是1s的向量，对应于截距。XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 在维主题空间而不是维变量空间中，几何更有趣。定义帽子矩阵：nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top 这是的列空间上的正交投影，即由代表每个变量的向量跨越的原点的平坦部分，其中第一个是。然后将观测到的响应投影到平面上的“阴影”上，拟合值的向量，如果沿着投影的路径看，我们会看到残差向量形成了三角形的第三边。这应该为我们提供两种途径来对进行几何解释XX\mathbf{X}kkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}ý = ħ Ŷ ë = ÿ - ÿ - [R 2yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}R2R2R^2：多重相关系数的平方，它定义为和之间的相关性。这将在几何上显示为角度的余弦。RRRÿyy\mathbf{y}y^y^\mathbf{\hat{y}} …

24 regression correlation multiple-regression r-squared geometry

4

时间序列异常检测算法

我目前在R中使用Twitter的AnomalyDetection：https : //github.com/twitter/AnomalyDetection。该算法为具有季节性的数据提供时间序列异常检测。问题：是否有与此类似的其他算法（控制季节性无关紧要）？我正在尝试在数据上为尽可能多的时间序列算法评分，以便我可以选择最佳的算法。

24 r regression time-series anomaly-detection

2

自动编码器无法学习有意义的功能

我有50,000张图片，例如这两张图片：它们描绘了数据图。我想从这些图像中提取特征，因此我使用了Theano（deeplearning.net）提供的自动编码器代码。问题是，这些自动编码器似乎没有学习任何功能。我已经尝试过RBM，它是相同的。 MNIST数据集提供了不错的功能，但我的数据似乎没有任何结果。我在下面附上示例：在MNIST上创建的过滤器：通过对数据进行训练而创建的过滤器：我使用了隐藏层大小和训练时期的许多不同排列方式，但结果始终相同。为什么不起作用？为什么自动编码器不能从这些图像中提取特征？编辑：对于有类似问题的任何人。解决方法非常简单，原因也很愚蠢。我只是忘了重新调整RGB编码的像素值以使其浮动在0-1的范围内。重新调整值可以解决问题。

24 machine-learning neural-networks feature-construction rbm autoencoders

3

偏态分布的异常值检测

根据离群点的经典定义，即数据点位于上四分位数或下四分位数的1.5 * IQR范围之外，假设存在非偏态分布。对于偏斜分布（指数分布，泊松分布，几何分布等），通过分析原始函数的变换是否是检测异常值的最佳方法？例如，松散地由指数分布控制的分布，可以使用对数函数进行转换-在什么时候可以基于相同的IQR定义查找异常值？

24 distributions outliers skewness exponential interquartile

1

多项式（1 / n，…，1 / n）可以表征为离散Dirichlet（1，..，1）吗？

所以这个问题有点混乱，但是我将提供彩色图表来弥补这一点！首先是背景，然后是问题。背景假设您有维多项式分布，并且在类别上的Probailites相等。令是该分布的归一化计数（），即：nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 现在上的分布已支持n -simplex，但具有离散步骤。例如，对于n = 3，此分布具有以下支持（红点）：ππ\pinnnn=3n=3n = 3 具有类似支持的另一个分布是维分布，即单位单纯形上的均匀分布。例如，这是一个3维 1，1，1）的随机抽奖：狄利克雷（1 ，... ，1 ）狄利克雷（1 ，1 ，1 ）nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) 现在我有了一个想法，即分布中的分布可以被描述为来自离散化为的离散支持。我想到的离散化（似乎很好用）是将单纯形中的每个点取整并“舍入”到支持的最接近点。对于3维单纯形，您将获得以下分区，其中每个有色区域中的点应“舍入”到最接近的红点：ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n)Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piππ\pi 由于狄利克雷分布是均匀的，因此每个点的最终密度/概率与“四舍五入”到每个点的面积/体积成比例。对于二维和三维情况，这些概率为：（这些概率来自蒙特卡洛模拟）这样看来，至少对于2维和3维，以这种特殊方式离散化所得到的概率分布与的概率分布相同。那就是分布的标准化结果。我也尝试过使用4维，并且似乎可以使用。Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n) …

24 distributions bayesian bootstrap multinomial dirichlet-distribution

5

PCA的示例，方差低的PC是“有用的”

通常，在主成分分析（PCA）中，使用前几台PC，而丢弃低方差PC，因为它们不能解释数据的大部分变化。但是，是否存在一些示例，这些示例中的低偏差PC有用（即在数据上下文中使用过，有直观的解释等）并且不应丢弃？

24 pca