统计和大数据

3

该问题是从Stack Overflow 迁移而来的，因为可以通过交叉验证来回答。迁移 6年前。我从运行glm函数得到以下结果。我如何解释以下值：零偏差残余偏差 AIC 他们和健康的好处有关吗？我可以根据这些结果（例如R平方或其他任何度量）来计算拟合优度吗？ Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept -1.305e-01 …

21 r regression generalized-linear-model

2

LDA超参数的自然解释

有人可以解释LDA超参数的自然解释是什么吗？ALPHA和BETA是分别用于（按文档）主题和（按主题）单词分布的Dirichlet分布的参数。但是，有人可以解释一下选择这些超参数中的较大值与较小值的含义吗？这是否意味着对文档中的主题稀疏性和词语的主题互斥性有任何先入之见？这个问题与潜在的Dirichlet分配有关，但是下面紧随其后的BGReene的评论涉及线性判别分析，该分析也令人困惑，也简称为LDA。

21 interpretation prior topic-models hyperparameter

2

哪些分布具有最大似然估计的封闭式解决方案？

哪些分布具有封闭形式的解，可以根据独立观测的样本对参数的最大似然估计？

21 distributions mathematical-statistics maximum-likelihood

1

GBM的n.minobsinnode参数在R中的作用

这个问题不太可能对将来的访客有所帮助；它仅与较小的地理区域，特定的时间段或格外狭窄的情况（通常不适用于Internet的全球受众）有关。要获得使该问题更广泛适用的帮助，请访问帮助中心。 7年前关闭。我想知道GBM软件包中n.minobsinnode参数的含义。我阅读了手册，但不清楚它的作用。该数字应该小还是大以改善结果？

21 r gbm

3

当交互作用不显着时，如何解释主要作用？

我在R中运行了广义线性混合模型，并包括了两个预测变量之间的相互作用。交互作用并不显着，但主要影响（两个预测因素）均如此。现在，许多教科书示例告诉我，如果交互作用显着，则主要作用无法解释。但是，如果您的互动不重要怎么办？我是否可以得出结论，这两个预测因素会对响应产生影响？还是在不进行交互的情况下运行新模型更好？我不想这样做，因为那样我就必须控制多个测试。

21 logistic mixed-model interaction interpretation regression-coefficients

4

功能主成分分析（FPCA）：这是怎么回事？

功能主成分分析（FPCA）是我偶然发现且从未了解的内容。这是什么一回事呢？请参见Shang，2011年的“功能主成分分析调查”，我在此引用：由于“维数的诅咒”，PCA在分析功能数据时遇到了严重的困难（Bellman 1961）。“维数的诅咒”源自高维空间中的数据稀疏性。即使PCA的几何特性仍然有效，并且即使数值技术提供了稳定的结果，样本协方差矩阵有时也不能很好地估计总体协方差矩阵。为了克服这一困难，与PCA相比，FPCA提供了更多的信息来检查样本协方差结构[...] 我就是不明白。本文描述的缺点是什么？PCA难道不是处理“维数诅咒”等情况的最终方法吗？

21 time-series pca dimensionality-reduction

3

为什么将随机变量定义为函数？

我在理解随机变量作为函数的概念时遇到问题。我了解机制（我认为），但不了解动机... 说是概率三倍，其中，是该区间的Borel-代数，是常规的Lebesgue测度。令为从到的随机变量，使得，，...，，因此在值1到6上具有离散的均匀分布。 Ω = [ 0 ，1 ] 乙σ P X 乙{ 1 ，2 ，3 ，4 ，5 ，6 } X （[ 0 ，1 / 6 ））= 1 X （[ 1 / 6 ，2 / 6 ））= 2 X （[（Ω ，B ，P）(Ω,B,P)(\Omega, B, P) Ω = [ 0 ，1 ]Ω=[0,1]\Omega = …

21 probability random-variable measure-theory

2

样本数量少会导致类型1错误吗？

我了解到，小样本量可能会导致功效不足和2型错误。但是，我觉得小样本通常可能不可靠，并可能偶然导致任何结果。真的吗？

21 hypothesis-testing small-sample

2

为什么方差上的被认为是弱的？

背景最常用的方差弱先验之一是反伽玛，其参数（Gelman 2006）。α = 0.001 ，β= 0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 但是，此分布的90％CI约为。[ 3 × 1019，∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf 据此，我认为给出方差非常高的可能性很小，而方差小于1可能性很低。一世ģ （0.001 ，0.001 ）IG(0.001,0.001)IG(0.001, 0.001)P（σ< 1 | α = 0.001 ，β= 0.001 ）= 0.006P(σ<1|α=0.001,β=0.001)=0.006P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006 pigamma(1, 0.001, 0.001) [1] 0.006312353 题我是否缺少某些东西，或者这实际上是一个有用的信息？更新以澄清，我之所以考虑这个“信息性”，是因为它非常强烈地声称方差巨大，并且远远超出了曾经测量的几乎任何方差的范围。后续的大量方差估计的荟萃分析是否可以提供更合理的先验？参考 Gelman2006。层次模型中方差参数的先验分布。贝叶斯分析1（3）：515–533

21 bayesian multilevel-analysis prior

3

训练损失随时间增加[重复]

这个问题已经在这里有了答案：成本函数的变化如何为正？（1个答案）当我的神经网络不学习时该怎么办？（5个答案）上个月关闭。我正在训练一个模型（递归神经网络）来对4种类型的序列进行分类。在我进行训练时，我看到训练损失不断减少，直到正确分类训练批次中超过90％的样本为止。但是，几个时代之后，我注意到训练损失增加了，而我的准确性却下降了。这对我来说似乎很奇怪，因为我希望在训练集上表现会随着时间的推移而改善，而不会恶化。我正在使用交叉熵损失，我的学习率为0.0002。更新：事实证明学习率太高。较低的足够低的学习率，我不会观察到这种行为。但是我仍然觉得这很奇怪。关于这种情况发生的原因，欢迎任何好的解释

21 machine-learning neural-networks loss-functions rnn training-error

2

瓶颈架构在神经网络中如何工作？

我们将瓶颈架构定义为ResNet论文中发现的类型，其中[两个3x3转换层]替换为[一个1x1转换层，一个3x3转换层和另一个1x1转换层]。我了解将1x1转换层用作尺寸缩减（和还原）的一种形式，这在另一篇文章中进行了解释。但是，我不清楚这种结构为什么像原始布局一样有效。一些很好的解释可能包括：使用什么步幅，在什么层上？每个模块的示例输入和输出尺寸是多少？上图中的56x56功能图如何表示？64-d是否参考滤波器的数量，为什么与256-d滤波器不同？每层使用多少个权重或FLOP？任何讨论都将不胜感激！

21 residuals deep-learning conv-neural-network

1

隐马尔可夫模型与粒子滤波器（和卡尔曼滤波器）之间的区别

这是我的老问题我想问问是否有人知道隐马尔可夫模型（HMM）和粒子滤波器（PF）之间的区别（如果有区别），并因此得知卡尔曼滤波器，或者在什么情况下我们使用哪种算法。我是学生，必须做一个项目，但首先我必须了解一些事情。因此，根据书目，这两个都是状态空间模型，包括隐藏（或潜在或不可观察）状态。根据Wikipedia（Hidden_Markov_model）， “在HMM中，隐藏变量的状态空间是离散的，而观察值本身可以是离散的（通常从分类分布生成）或连续的（通常从高斯分布生成）。隐藏的马尔可夫模型也可以泛化为允许连续的状态空间。这样的模型的例子是那些对隐变量的马尔可夫过程是线性动力学系统，在相关变量之间具有线性关系，并且所有隐变量和观测变量都遵循高斯分布的模型。在简单的情况下，例如刚才提到的线性动力系统，精确推断是很容易的（在这种情况下，使用卡尔曼滤波器）；但是，通常，在具有连续潜在变量的HMM中进行精确推断是不可行的，必须使用近似方法，” 但是对我而言，这有点令人困惑……简而言之，这是否意味着关注（也基于我所做的更多研究）：在HMM中，状态空间可以是离散的或连续的。还观测本身可以是离散的或连续的。HMM也是线性和高斯或非高斯动力系统。在PF，状态空间可以是离散的或连续的。还观测本身可以是离散的或连续的。但是PF是一个非线性（非高斯？）动力系统（它们有区别吗？）。当我们具有线性和高斯动力系统时，将使用卡尔曼滤波器（在我看来也像HMM一样）。另外，我怎么知道该选择哪种算法，因为在我看来，所有这些似乎都是相同的...我还发现了一篇论文（不是英文），其中说PF虽然可以具有线性数据（例如来自传感器结点的原始数据）识别运动），则动力学系统可以是非线性的。这会发生吗？它是否正确？怎么样？对于手势识别，研究人员可以使用HMM或PF，但是他们没有解释为什么选择每种算法……有人知道我可以如何帮助您区分这些算法，了解它们的差异以及如何选择最佳算法吗？很抱歉，如果我的问题太大，或者某些部分还很幼稚，但我没有找到令人信服的科学答案。非常感谢您抽出宝贵的时间！这是我的新问题（根据@conjugateprior的帮助）因此，通过进一步阅读，我想更新我以前的评论的某些部分，并确保我对所发生的事情有更多的了解。再次简单地说，保护伞是动态贝叶斯网络，其中包含HMM和状态空间的模型（子类）（http://mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf）。此外，这两个模型之间的初始差异在于，在HMM中，隐藏状态变量是离散的，而观测值可以是离散的或连续的。在PF中，隐藏状态变量是连续的（实值隐藏状态向量），并且观测值具有高斯分布。此外，根据@conjugateprior，每个模型都有以下3个任务：滤波，平滑和预测。在滤波中，模型HMM将离散的隐藏状态变量用于正向算法，将状态空间用于连续变量并将线性动态系统用于卡尔曼滤波器，等等。但是，HMM也可以泛化为允许连续的状态空间。通过HMM的这些扩展，这两个模型在概念上似乎是相同的（正如在“ 隐马尔可夫模型”，“马尔可夫过渡模型”与“状态空间模型...”中提到的一样）。我认为我使用的术语更加准确，但对我来说一切仍然很模糊。谁能向我解释HMM和State Space模型有什么区别？因为我真的找不到适合我需求的答案。再次谢谢你！

21 machine-learning self-study hidden-markov-model kalman-filter particle-filter

4

如何知道数据是否可以线性分离？

数据具有许多功能（例如100个），实例数量大约为100,000。数据稀疏。我想使用逻辑回归或svm拟合数据。我如何知道要素是线性的还是非线性的，以便在非线性的情况下可以使用内核技巧？

21 machine-learning logistic svm data-mining

3

为什么nls（）给我“初始参数估计时的奇异梯度矩阵”错误？

我有一些有关减排和每辆车成本的基本数据： q24 <- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") 我知道这是一个指数函数，因此我希望能够找到适合的模型： model <- nls(cost.per.car ~ a * exp(b * reductions) + c, data = q24, start = …

21 r self-study exponential starting-values

2

与Replus相比，使用ReLU作为激活功能有什么好处？

人们经常提到，整流线性单位（ReLU）已取代了softplus单位，因为它们是线性的并且计算速度更快。 softplus仍然具有引起稀疏性的优势吗？还是仅限于ReLU？我问的原因是我对ReLU零斜率的负面影响感到疑惑。此属性是否不是将单元“捕获”为零，使它们具有重新激活的可能性可能是有益的？

21 machine-learning neural-networks