统计和大数据

2

我是优化新手。我一直看到在范数的右侧具有上标2和下标2的方程式。例如，这是最小二乘方程分钟| | Ax−b | |22||一种X-b||22 ||Ax-b||^2_2 我想我理解上标2：这意味着对准则的价值求平方。但是下标2是什么？我应该如何阅读这些方程式？

20 regression optimization notation

3

误差和残差有什么区别？

尽管这两个普遍存在的术语经常被同义词使用，但有时似乎有所区别。确实有区别吗，或者它们到底是同义词吗？

20 residuals error terminology

1

集成学习的k折交叉验证

我对如何对数据进行分区以进行整体学习的k倍交叉验证感到困惑。假设我有一个用于分类的整体学习框架。我的第一层包含分类模型，例如svm，决策树。我的第二层包含一个投票模型，该模型结合了第一层的预测并给出了最终预测。如果我们使用5折交叉验证，我正在考虑使用5折，如下所示： 3折训练第一层 1折训练第二层 1折测试这是正确的方法吗？第一和第二层的训练数据是否应该独立？我认为它们应该是独立的，这样整体学习框架将很健壮。我的朋友建议第一层和第二层的训练数据应该相同，即 4折训练第一层和第二层 1折测试这样，我们将获得更准确的整体学习框架错误，并且该框架的迭代调整将更准确，因为它基于单个训练数据。而且，第二层可能偏向于独立训练数据任何建议都将不胜感激

20 classification cross-validation ensemble

3

预期的预测误差-推导

我正在努力理解低于预期（ESL）的预期预测误差的推导，尤其是在2.11和2.12的推导上（条件，即逐步达到最小点）。任何指针或链接，不胜感激。我在下面报告ESL pg的摘录。18.前两个公式按顺序是公式2.11和2.12。让X∈RpX∈RpX \in \mathbb{R}^p分别表示实值随机输入向量，并Y∈RY∈RY \in \mathbb{R}实值随机输出变量，与联合分布Pr(X,Y)Pr(X,Y)\text{Pr}(X,Y)。我们追求的是功能f(X)f(X)f(X)预测YYY输入的给定值XXX。该理论要求损失函数 L(Y,f(X))L(Y,f(X))L(Y,f(X))用于惩罚预测误差，到目前为止，最常见和最方便的方法是平方误差损失：L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2。这使我们得出选择fff的标准， EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split} 预期（平方）的预测误差。通过以XXX条件，我们可以将EPE编写为 EPE(f)=EXEY|X([Y−f(X)]2|X)EPE(f)=EXEY|X([Y−f(X)]2|X) \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X) 并且我们看到足以将EPE逐点最小化： f(x)=argmincEY|X([Y−c]2|X)f(x)=argmincEY|X([Y−c]2|X) f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X) 解决方法是 f(x)=E(Y|X=x)f(x)=E(Y|X=x) f(x) = \text{E}(Y|X=x) 条件期望，也称为回归函数。

20 regression prediction error

1

远距离监督：监督，半监督或两者兼而有之？

“远距离监督”是一种学习方案，其中在给定标记较弱的训练集的情况下学习分类器（训练数据基于启发式/规则自动标记）。我认为监督学习和半监督学习都可以通过“启发式/自动标记”来标记这种“远程监督”。但是，在此页面中，“远程监督”被定义为“半监督学习”（即，仅限于“半监督”）。所以我的问题是，“远程监管”是否专门指半监管？我认为它可以应用于监督学习和半监督学习。请提供任何可靠的参考。

20 machine-learning data-mining dataset references unsupervised-learning

1

SHAP（Shapley附加说明）和LIME（本地可解释模型无关说明）之间的比较

我正在阅读有关两种流行的事后模型可解释性技术：LIME和SHAP 我很难理解这两种技术的主要区别。要引述伦德伯格斯科特，SHAP背后的大脑： SHAP值不仅具有LIME的黑匣子局部估计优势，而且还具有基于博弈论的一致性和局部准确性的理论保证（归因于我们统一的其他方法）我很难理解这个“ 博弈论关于一致性和局部准确性的理论保证 ”是什么。由于SHAP是在LIME之后开发的，因此我认为它填补了LIME无法解决的一些空白。那些是什么？克里斯托夫·莫尔纳的书在Shapley值估计一章规定：预测和平均预测之间的差异在实例的特征值-Shapley效率属性之间公平分配。该属性将Shapley值与LIME等其他方法分开设置。LIME不保证完美分配效果。这可能会使Shapley值成为提供完整解释的唯一方法读了这篇文章后，我感觉到SHAP不是本地的，而是数据点的glocal解释。我在这里可能是错误的，需要对以上引用的含义有一些了解。总结一下我的问题：LIME产生本地解释。SHAP的解释与LIME的解释有何不同？

20 model-interpretation shapley-value lime

4

使用CNN分类一维信号是个好主意吗？

我正在研究睡眠阶段分类。我阅读了一些有关此主题的研究文章，其中许多使用SVM或集成方法。使用卷积神经网络对一维脑电信号进行分类是个好主意吗？我是这种工作的新手。请问我有什么问题吗？

20 neural-networks svm conv-neural-network signal-processing

1

什么时候可以使用Gibbs采样代替Metropolis-Hastings？

MCMC算法有多种：大都会-哈丁斯吉布斯重要/拒绝抽样（相关）。为什么要使用Gibbs抽样而不是Metropolis-Hastings？我怀疑在某些情况下，使用吉布斯采样比使用Metropolis-Hastings推理更容易处理，但是我不清楚具体细节。

20 bayesian simulation mcmc gibbs metropolis-hastings

1

帮助我了解逻辑回归中的调整后的优势比

我一直很难理解一篇论文中逻辑回归的用法。此处可用的论文使用逻辑回归来预测白内障手术期间发生并发症的可能性。令我感到困惑的是，该论文提出了一个将比值比1分配给基线的模型，描述如下：对于所有风险指标而言，其风险状况均属于参考组的患者（即，表1中所有风险指标均已调整为OR = 1.00）可被视为具有“基准风险状况”，而逻辑回归模型表明其具有“基准预测概率” PCR或VL或两者均= 0.736％。因此，以0.00的比值比表示0.00736的概率。基于从概率到比值比的转换：，它不能等于1：。o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} 它变得更加混乱。代表多个协变量的复合比值比具有不同于基线的值，用于计算预测风险。 ...表1的复合OR为1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5，从图1的图中可以看出，该OR与预测的PCR或VL或两者的预测概率相对应大约20％得出示例中给出的值的唯一方法是将基线概率乘以这样的复合赔率：。0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)} 那么这是怎么回事？将比值比1分配给非0.5的基线概率有什么逻辑？我上面提出的更新公式提供了本文中示例的正确概率，但这并不是我期望的比值比的直接乘积。之后怎么样了？

20 logistic odds-ratio

2

极限学习机：这是什么一回事？

我一直在思考，实施和使用极限学习机（ELM）范例已有一年多了，而且我做的时间越长，就越怀疑这确实是一件好事。但是，我的观点似乎与科学界形成鲜明对比，在科学界，当使用引文和新出版物作为衡量标准时，这似乎是一个热门话题。 ELM已由Huang等人介绍。等大概在2003年左右。基本思想很简单：从2层人工神经网络开始，并在第一层随机分配系数。这将通常通过反向传播处理的非线性优化问题转换为简单的线性回归问题。更详细的，用于x∈RDx∈RD\mathbf x \in \mathbb R^D，该模型是 f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk).f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk). f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. 现在，仅对wiwiw_i进行调整（以使平方误差损失最小），而对vikvikv_{ik}均进行随机选择。作为对自由度损失的补偿，通常的建议是使用大量隐藏节点（即自由参数wiwiw_i）。从另一个角度看（而不是一个通常在文献中推广，这是从神经网络侧），整个过程是简单的线性回归，而是一个你选择你的基础函数ϕϕ\phi随机，例如 ϕi(x)=σ(vi0+∑k=1Dvikxk).ϕi(x)=σ(vi0+∑k=1Dvikxk). \phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. （对于S形函数，除了S形函数外，还有许多其他选择。例如，使用径向基函数也应用了相同的原理。）从这个角度来看，整个方法变得过于简单了，这也是我开始怀疑该方法确实是一种好的方法的观点（...而科学营销肯定是这样）。所以，这是我的问题：在我看来，使用随机基函数对输入空间进行栅格化的想法对于低尺寸而言是有益的。在高维中，我认为使用具有合理数量基函数的随机选择是不可能找到好的选择的。因此，ELM是否会在高维度上退化（由于维数的诅咒）？您是否知道实验结果支持/矛盾这一观点？在链接的论文中，只有一个27维回归数据集（PYRIM），其中该方法的执行效果与SVM类似（而我希望与反向传播ANN进行比较）更笼统地说，我想在这里发表您对ELM方法的评论。

20 regression

1

分层抽样与随机抽样在分类中生成训练数据的好处

我想知道在将原始数据集分为训练和测试集进行分类时，使用分层抽样而不是随机抽样是否有任何/某些优势。另外，分层抽样是否比随机抽样给分类器带来更大的偏差？我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器，在2上进行了训练2323\frac{2}{3}原始数据集的 3。在分类器之前，还有一个合成样本生成的步骤（SMOTE [1]），可以平衡类的大小。 [1] Chawla，Nitesh V.等。“ SMOTE：合成少数族群过采样技术。 ”人工智能研究杂志16（2002）：321-357。

20 classification cross-validation random-forest train stratification

1

关于xgboost中的过拟合问题的讨论

我的设置如下：我正在遵循“应用的预测建模”中的指导原则。因此，我过滤了相关功能并得出以下结果：训练集中的4900个数据点和测试集中的1600个数据点。我有26个功能，目标是一个连续变量。我使用5倍交叉验证来训练使用该caret软件包的模型。当我应用MARS模型时，在训练集和测试集上我得到的平均绝对误差（MAE）约为4。但是，使用xgboost（树算法或线性算法），在训练集上得到的像是0.32（！），在测试集上得到的像是2.4。因此，如果测试误差是训练误差的8倍，那么我会说：我已经过度拟合了训练数据。无论如何，我仍然在测试中遇到了一个较小的错误。我在xgboost上使用以下参数： nrounds = 1000和eta = 0.01（增加nrounds和减少eta可能有所帮助，但我的内存不足并且运行时间太长） max_depth = 16：如果我比较其他帖子和默认帖子6，则看起来很大，但问题非常复杂-在这种情况下，也许16不太大。 colsample_bytree = 0.7，subsample = 0.8并且min_child_weight = 5：这样做，我尝试减少过拟合。如果我减小max_depth，则训练和测试误差会更接近，但仍然存在较大的差距，并且测试误差会更大（略高于3）。使用线性助推器，我得到最佳参数的大致相同的训练和测试误差： lambda = 90 和`alpha = 0：通过交叉验证发现，lambda应该防止过拟合。 colsample_bytree = 0.8，subsample = 0.8并且min_child_weight = 5：这样做，我尝试减少过拟合。我的感觉是xgboost仍然过拟合-但训练错误以及据我在实时测试中看到的（我已经使用过xgboost模型，并且实际上已经将它们集成了4天了）看起来还不错（错误是大于测试误差，但现实生活中有关特征和其他变量的预测存在更多不确定性。您如何看待：如果（如果可能的话）现实生活中的表现优越，我可以接受过拟合吗？我的设置中的xgboost是否趋于过度拟合？

20 machine-learning boosting overfitting

2

k-均值收敛的证明

对于一项作业，我被要求提供证明k均值收敛于有限数量的步骤。这是我写的：在下文中，CCC是所有群集中心的集合。定义一个“能量”函数能量函数为非负。我们看到算法的步骤（2）和（3）都减少了能量。由于能量是从下方限制并不断减少的，因此必须收敛到局部最小值。当E（C）的变化率低于某个阈值时，可以停止迭代。E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) 步骤2是通过每个数据点的最近聚类中心标记每个数据点的步骤，而步骤3是通过平均值对中心进行更新的步骤。这不足以证明在有限数量的步骤中收敛。能量可以不断变小，但不排除在不改变能量的情况下中心点跳动的可能性。换句话说，可能存在多个能量最小值，并且算法可以在它们之间跳跃，不是吗？

20 mathematical-statistics k-means

6

每10和15分钟一班的两辆公交车中的第一辆公交车的等待时间的期望值

我碰到一个面试问题：每隔10分钟就有一列红色火车驶来。每隔15分钟就有一列蓝色火车驶来。两者都是从随机时间开始的，因此您没有任何时间表。如果您在随机时间到达车站并乘坐第一班来往的火车，那么预计的等待时间是多少？

19 probability random-variable expected-value

2

指数族的优点：为什么我们要研究和使用它？

所以我在这里研究推理。我希望有人可以列举指数家庭的优势。对于指数族，我的意思是给定为 F（x | θ ）= h （x ）exp{ η（θ ）T（x ）− B （θ ）}F（X|θ）=H（X）经验值⁡{η（θ）Ť（X）-乙（θ）}\begin{align*} f(x|\theta) = h(x)\exp\left\{\eta(\theta)T(x) - B(\theta)\right\} \end{align*} 其支持不取决于参数。我发现了一些优点：θθ\theta （a）它包括各种各样的分布。（b）根据Neyman-Fisher定理，它提供了自然足够的统计量。Ť（x ）Ť（X）T(x) （c）可以为的矩生成函数提供一个很好的公式。Ť（x ）Ť（X）T(x) （d）可以轻松地将响应和预测变量之间的关系与响应的条件分布（通过链接函数）分离。谁能提供其他优势？

19 self-study exponential-family