统计和大数据

5

在多元线性回归中，我可以理解残差和预测变量之间的相关性为零，但是残差和标准变量之间的预期相关性是什么？它应该为零还是高度相关？那是什么意思？

26 regression residuals

1

我正在尝试阅读有关电力负荷预测的论文，但我在内部概念（特别是SARIMAX模型）中苦苦挣扎。该模型用于预测负载，并使用许多我不了解的统计概念（我是本科计算机科学专业的学生，您可以认为我是统计学的外行）。我没有必要完全了解它是如何工作的，但是我至少想直观地了解正在发生的事情。我一直在尝试将SARIMAX分成较小的部分，并试图分别理解每个部分，然后将它们组合在一起。你们能帮我吗？到目前为止，这就是我所拥有的。我从AR和MA开始。 AR：自回归。我已经了解了回归是什么，并且据我所知，它只是回答了这个问题：给定一组值/点，如何找到一个解释这些值的模型？因此，例如，我们有线性回归，它试图找到一条可以解释所有这些点的线。自回归是一种试图使用先前的值解释值的回归。 MA：移动平均线。我实际上在这里很迷路。我知道什么是移动平均线，但是移动平均线模型似乎与“正常”移动平均线没有任何关系。该模型的公式似乎与AR很尴尬，我似乎无法理解我在互联网上找到的任何概念。MA的目的是什么？MA和AR有什么区别？所以现在有了ARMA。然后，我来自Integrated，据我所知，它仅是为了使ARMA模型具有增加或减少的趋势。（这是否等于说ARIMA允许它是非平稳的？）现在是来自季节性的S，这增加了ARIMA的周期性，例如，在负载预测的情况下，该参数基本上表示每天6 PM的负载看起来非常相似。最后，来自外生变量的X基本上允许在模型中考虑外部变量，例如天气预报。所以我们终于有了SARIMAX！我的解释可以吗？认识到这些解释并不需要严格正确。有人可以直观地解释我的意思吗？

26 regression time-series arima autoregressive intuition

4

具有跳过层连接的神经网络

我对神经网络的回归感兴趣。具有零隐藏节点+跳过层连接的神经网络是线性模型。相同的神经网络又有隐藏的节点呢？我想知道跳过层连接的作用是什么？直观地讲，如果您包括跳过层连接，那么最终模型将是线性模型+某些非线性部分的总和。向神经网络添加跳过层连接有什么优点或缺点？

26 regression machine-learning neural-networks deep-learning

3

伽玛分布与正态分布之间的关系

我最近发现有必要为平均值为0的正常随机变量的平方导出pdf。无论出于什么原因，我都选择不预先对方差进行归一化。如果我正确执行此操作，则此pdf如下： N2(x;σ2)=1σ2π−−√x−−√e−x2σ2N2(x;σ2)=1σ2πxe−x2σ2 N^2(x; \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi} \sqrt{x}} e^{\frac{-x}{2\sigma^2}} 我注意到这实际上只是伽马分布的参数化： N2(x;σ2)=Gamma(x;12,2σ2)N2(x;σ2)=Gamma⁡(x;12,2σ2) N^2(x; \sigma^2) = \operatorname{Gamma}(x; \frac{1}{2}, 2 \sigma^2) 然后，从两个伽玛（具有相同比例参数）的总和等于另一个伽玛的事实出发，可以得出该伽玛等于平方正态随机变量的总和。kkk N2Σ(x;k,σ2)=Gamma(x;k2,2σ2)NΣ2(x;k,σ2)=Gamma⁡(x;k2,2σ2) N^2_\Sigma(x; k, \sigma^2) = \operatorname{Gamma}(x; \frac{k}{2}, 2 \sigma^2) 这让我有些惊讶。即使我知道分布（即标准正态RV 平方和的分布）是伽玛的一种特例，但我没有意识到伽玛本质上只是一个允许归纳和任何方差的随机变量。这也导致了我以前从未遇到过的其他特征，例如指数分布等于两个平方正态分布之和。χ2χ2\chi^2 这对我来说有点神秘。以我上面概述的方式，正态分布对伽马分布的推导至关重要吗？我检查的大多数资源都没有提到这两个分布在本质上是相关的，甚至就此而言，它还描述了伽玛的推导方式。这使我认为有些简单的事实正在发挥作用，我只是以复杂的方式强调了这些事实？

26 normal-distribution gamma-distribution

5

随机效应和固定效应之间的数学区别是什么？

我在互联网上发现了很多有关随机效应和固定效应的解释。但是我找不到固定以下内容的来源：随机效应和固定效应之间的数学区别是什么？我的意思是模型的数学表述和参数的估算方法。

26 mathematical-statistics mixed-model random-effects-model fixed-effects-model

5

在一系列抛硬币中击中正面和反面图案所花费的时间

受彼得·唐纳利（Peter Donnelly）在TED上的演讲的启发，他在演讲中讨论了某种图案出现在一系列抛硬币中需要多长时间，我在R中创建了以下脚本。给定两种图案“ hth”和“ htt”，计算在您击中其中一种模式之前平均需要花费多长时间（即，掷多少硬币）。 coin <- c('h','t') hit <- function(seq) { miss <- TRUE fail <- 3 trp <- sample(coin,3,replace=T) while (miss) { if (all(seq == trp)) { miss <- FALSE } else { trp <- c(trp[2],trp[3],sample(coin,1,T)) fail <- fail + 1 } } return(fail) } n <- 5000 trials …

26 r probability stochastic-processes

4

在拟合ARIMA模型之前何时记录对时间序列的变换

我以前曾使用Forecast Pro预测单变量时间序列，但将工作流程切换到R。R的预测程序包包含许多有用的功能，但它没有做的一件事是在运行auto之前进行了任何类型的数据转换。 .arima（）。在某些情况下，预测专家决定在进行预测之前记录转换数据，但是我还没有弄清楚为什么。所以我的问题是：在尝试使用ARIMA方法之前，我应该何时对时间序列进行日志转换？ / edit：阅读答案后，我将使用类似x的时间序列： library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } 这有意义吗？

26 r time-series data-transformation forecasting arima

2

变分自动编码器中如何权衡KLD损耗与重构损耗

在我见过的VAE的几乎所有代码示例中，损失函数的定义如下（这是张量流代码，但是我看到theano，torch等类似。它也适用于卷积网络，但这也不太相关），仅影响轴的总和）： # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # reconstruction error, using pixel-wise L2 loss, for each batch rec_loss = …

26 machine-learning deep-learning tensorflow autoencoders variational-bayes

4

对于不平衡的数据集，在xgboost中scale_pos_weight的正确用法是什么？

我的数据集非常不平衡。我正在尝试遵循调整建议并使用，scale_pos_weight但不确定如何调整它。我可以看到RegLossObj.GetGradient： if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight 因此，阳性样本的梯度会更具影响力。但是，根据xgboost论文，总是在特定树中特定节点的实例中局部使用梯度统计信息：在节点的上下文中，以评估候选拆分的损失减少在叶节点的上下文中，以优化赋予该节点的权重因此，无法预先知道什么是好的scale_pos_weight-对于正负实例之间以1：100比率结尾的节点，以及1：2比率的节点，这是一个非常不同的数字。有什么提示吗？

26 unbalanced-classes xgboost

2

贝叶斯方法不会过拟合是真的吗？

贝叶斯方法不会过拟合是真的吗？（我看到了一些论文和教程对此提出了要求）例如，如果我们对MNIST（手写数字分类）应用高斯过程，但仅将其显示为单个样本，那么对于与该单个样本不同的任何输入，无论差异有多小，它都会恢复到先前的分布吗？

25 bayesian nonparametric gaussian-process overfitting misspecification

1

旧书中的统计表故意错误吗？

我记得前一段时间读过，在旧书（计算机时代以前）中，附录中显示的理论分位数的最后一位数字是不准确的，目的是防止抄袭（想法是，如果另一本书中有一张桌子，附录中最后一位数字与您所找到的数字相同，则该作者必须抄袭了您的表格）。我试图找回该故事的来源或提及该故事的链接，但是经过数小时的搜索，我找不到了。

25 references history tables

1

是否有结合分类和回归的算法？

我想知道是否有任何算法可以同时进行分类和回归。例如，我想让算法学习一个分类器，同时在每个标签内，它也学习一个连续的目标。因此，对于每个训练示例，它都具有分类标签和连续值。我可以先训练一个分类器，然后再在每个标签中训练一个回归器，但是我只是在想，如果有一种算法可以同时实现这两个功能，那就太好了。

25 regression machine-learning classification predictive-models finite-mixture-model

2

帮助我了解分位数（CDF逆函数）

我正在阅读有关分位数功能的信息，但我不清楚。您能否提供比以下提供的更为直观的解释？由于cdf 是单调递增的函数，因此它具有反函数。让我们用F - 1来表示。如果˚F是的CDF X，然后˚F - 1（α ）是的值X α，使得P （X ≤ X α）= α ; 这称为F的α分位数。值F − 1（0.5 ）FFFF−1F−1F^{−1}FFFXXXF−1(α)F−1(α)F^{−1}(\alpha)xαxαx_\alphaP(X≤xα)=αP(X≤xα)=αP(X \le x_\alpha) = \alphaαα\alphaFFFF−1(0.5)F−1(0.5)F^{−1}(0.5)是分布的中位数，概率质量的一半在左侧，一半在右侧。值和˚F - 1（0.75 ）是下和上四分位。F−1(0.25)F−1(0.25)F^{−1}(0.25)F−1(0.75)F−1(0.75)F^{−1}(0.75)

25 distributions cdf inverse-cdf quantile-function

5

过度拟合的模型一定没有用吗？

假设一个模型对训练数据的准确性为100％，但对测试数据的准确性为70％。关于该模型，以下论点正确吗？显然，这是一个过拟合模型。通过减少过度拟合可以提高测试精度。但是，此模型仍然可以是有用的模型，因为它对于测试数据具有可接受的准确性。

25 model accuracy overfitting

8

为什么拥有机器学习的原理和数学理论如此重要？

我一直在想，为什么进行原理/理论机器学习如此重要？从个人的角度来看，我可以理解为什么有原则的机器学习如此重要：人类喜欢了解自己在做什么，我们就会找到美丽和满足感。从理论上讲，数学很有趣当存在指导事物设计的原则时，花在随机猜测，怪异的试验和错误上的时间会更少。例如，如果我们了解神经网络是如何工作的，也许我们可以花更多的时间设计它们，而不是现在投入大量的试验和错误。最近，如果原则很明确，理论也很明确，那么（希望）对系统更加透明。这很好，因为如果我们了解系统在运行什么，那么AI就有很多人大肆宣传的风险会立即消失。原则似乎是总结世界可能具有的重要结构以及何时使用一种工具而非另一种工具的一种简洁方法。但是，这些理由是否真的足以证明对机器学习进行深入的理论研究是正确的？对理论的最大批评之一是，由于很难做到，他们通常最终会研究一些非常有限的案例，或者必须提出的假设实质上使结果无用。我想我曾经在Tor的创造者在麻省理工学院的一次演讲中听到过这一点。他听到的对托尔的一些批评只是理论上的争论，但从本质上讲，人们却无法证明有关现实生活中真实场景的事物，因为它们是如此复杂。在这个拥有如此强大的计算能力和数据的新时代，我们可以使用真实的数据集和测试集来测试我们的模型。我们可以通过经验主义来观察事物是否起作用。如果我们能够获得能够与工程学和经验主义相结合的AGI或系统，那么仍然值得为机器学习追求原理和理论上的证明，尤其是当量化界限如此难以实现时，而直觉和定性答案则更容易实现用数据驱动的方法来实现？这种方法在古典统计学中不可用，这就是为什么我认为理论在那个时代如此重要的原因，因为数学是我们可以确保事物正确的唯一方法，或者它们可以按照我们认为的方式实际起作用。我个人一直很喜欢并且认为理论和原则性方法很重要。但是，凭借能够尝试使用实际数据进行处理的能力和计算能力，使我感到怀疑的是，理论追求的高努力（可能是低回报）仍然值得吗？机器学习的理论和原则追求真的那么重要吗？

25 machine-learning neural-networks conv-neural-network theory