统计和大数据

1

在处理回归问题时，我开始考虑“星期几”功能的表示形式。我想知道哪种方法会更好：一个特征周一值1/7；星期二2/7 ... 7个功能：（1、0、0、0、0、0、0）为星期一；（0，1，0，0，0，0，0）for Tuesday ... 由于网络配置差异，很难对其进行衡量。（我认为其他六个功能应该反映在隐藏节点的数量上。）所有功能的数量大约是20。我使用简单的反向学习器来学习普通的前馈神经网络。

19 machine-learning neural-networks feature-construction

3

随机梯度下降如何避免局部最小值的问题？

我知道随机梯度下降具有随机行为，但我不知道为什么。关于这个有什么解释吗？

19 machine-learning random-variable gradient-descent

3

R中丢失数据的完整信息最大可能性

上下文：具有某些缺失数据的层次回归。问题：如何使用完整信息最大似然（FIML）估计来解决R中的丢失数据？有没有推荐的软件包，典型的步骤是什么？在线资源和示例也将非常有帮助。 PS：我是一名社会科学家，最近刚开始使用R。可以选择多重插补，但是我非常喜欢Mplus之类的程序如何使用FIML优雅地处理丢失的数据。不幸的是，Mplus目前似乎没有在层次回归的情况下比较模型（请告诉我您是否知道这样做的方法！）。我想知道R中是否有类似的东西？非常感谢！

19 r maximum-likelihood missing-data

1

校准多类增强分类器

我已阅读亚历山德鲁·尼古列斯库-米济尔和富卡鲁阿纳的论文“ 从推进获取校准概率，并在讨论” 这一主题。但是，我仍然难以理解和实现逻辑或普拉特定标来校准我的多类提升分类器（带有决策树桩的温和提升）的输出。我对广义线性模型有些熟悉，并且我想我了解logistic和Platt的校准方法在二进制情况下如何工作，但不确定如何将本文中描述的方法扩展到多类情况。我正在使用的分类器输出以下内容： =分类器针对要分类的样本 i为类 j投的票数F我ĴF一世Ĵf_{ij}ĴĴj一世一世i =预估班级ÿ一世ÿ一世y_i 在这一点上，我有以下问题：问题1：我是否需要使用多项式logit来估计概率？还是我仍然可以通过逻辑回归来做到这一点（例如，以1-vs-all的方式）？问题2：如何为多类情况定义中间目标变量（例如，按Platt的缩放比例）？ Q3：我知道这可能要问很多，但是有人愿意为这个问题草拟出伪代码吗？（在更实际的水平上，我对Matlab中的解决方案感兴趣）。

19 machine-learning boosting

5

“转移学习”和“领域适应”之间有什么区别？

“转移学习”和“领域适应”之间有什么区别吗？我不了解上下文，但是我的理解是，我们有一些数据集1并对其进行训练，之后我们又有了另一个数据集2，我们希望针对该数据集2适应我们的模型而无需从头进行重新训练，为此我们需要进行“转移学习”和“域自适应”有助于解决此问题。根据卷积神经网络领域： “转移学习”是指“微调” [1] 在这种情况下，[2]是不受监督的，但是“域自适应”是否应始终不受监督？

19 deep-learning terminology conv-neural-network transfer-learning domain-adaptation

3

何时使用固定效果与使用集群SE？

假设您具有单个数据横截面，其中个人位于组内（例如，学校内的学生），并且您希望估计以下形式的模型：Y_i = a + B*X_i其中X是个人水平特征和a常数的向量。在这种情况下，假设未观察到的组间异质性会使您的点估计B及其SE产生偏差，因为它与您所关注的独立变量相关。一种选择是按小组（学校）对SE进行聚类。另一个是要包括FE组。另一个是同时使用。在这些选项之间进行选择时应该考虑什么？尤其不清楚为什么要按组将SE聚类并使用FE组。在我的特定情况下，我有35个小组，每个小组中有5,000个人。我已经按照本pdf中的讨论进行了讨论，但是对于为什么以及何时可以同时使用群集SE和固定效果尚不清楚。（请讨论集群式SE与FE的优缺点，而不是建议我只采用多层次模型。）

19 econometrics multilevel-analysis fixed-effects-model endogeneity clustered-standard-errors

1

什么是“功能空间”？

“特征空间”的解释是什么？例如，当阅读有关SVM的内容时，我阅读了有关“映射到要素空间”的信息。在阅读有关CART的文章时，我阅读了有关“分区到要素空间”的信息。我了解正在发生的事情，尤其是对于CART，但是我认为我错过了一些定义。有“特征空间”的一般定义吗？是否有定义可以使我更深入地了解SVM内核和/或CART？

19 machine-learning svm feature-selection cart feature-construction

3

神经网络是否学习函数或概率密度函数？

这个问题听起来有点奇怪，因为我是统计推理和神经网络的新手。当使用神经网络进行分类问题时，我们说我们要学习一个函数，它将输入的空间映射到输出的空间：f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y 我们是否要拟合参数（）以建模非线性函数或模型概率密度函数？θθ\theta 我真的不知道如何以更好的方式写问题。我已经读过两次（概率密度函数或类似函数），因此感到困惑。

19 machine-learning neural-networks

1

何时选择SARSA与Q Learning

SARSA和Q Learning都是强化学习算法，它们以相似的方式工作。最显着的差异是SARSA处于策略状态，而Q Learning处于策略状态。更新规则如下： Q学习： Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA： Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] 其中st,atst,ats_t,\,a_t和rtrtr_t是状态，在时间步ttt处的动作和奖励，而γγ\gamma是折扣因子。它们的外观基本相同，只是在SARSA中我们采取实际行动，在Q Learning中我们采取最高奖励的行动。在任何理论或实践环境中，一个都应该偏爱另一个吗？我可以看到，在Q Learning中获得最大收益可能会非常昂贵，甚至在连续的动作空间中甚至更多。但是还有别的吗？

19 reinforcement-learning

3

Logistic回归如何使用二项式分布？

我试图了解逻辑回归如何使用二项式分布。假设我正在研究鸟巢的成功。嵌套成功的概率为0.6。使用二项分布，我可以计算n次试验（研究的巢数）后r次成功的概率。但是，在建模环境中如何使用二项式分布？假设我想知道平均温度如何影响筑巢成功，并且我使用逻辑回归研究了这个问题。在我描述的上下文中，逻辑回归如何使用二项式分布？我正在寻找一个直观的答案，因此没有方程式的答案！我认为方程式只有在直观的理解水平上才有用。

19 logistic binomial

4

Conv1D和Conv2D有什么区别？

我正在研究keras卷积文档，发现了两种类型的卷积Conv1D和Conv2D。我做了一些网页搜索，这就是我对Conv1D和Conv2D的了解；Conv1D用于序列，Conv2D用于图像。我一直以为卷积神经网络仅以这种方式用于图像和可视化的CNN 图像被认为是一个大矩阵，然后滤镜将在该矩阵上滑动并计算点积。我相信keras所说的是Conv2D。如果Conv2D以这种方式工作，那么Conv1D的机制是什么，我们如何想象其机制？

19 machine-learning neural-networks conv-neural-network keras

4

为什么使用伪标记会轻而易举地影响结果？

我一直在研究半监督学习方法，并遇到了“伪标签”的概念。据我了解，使用伪标签时，您将拥有一组标记的数据以及一组未标记的数据。首先，您仅根据标记的数据训练模型。然后，您可以使用该初始数据对未标记的数据进行分类（向其附加临时标签）。然后，您可以将标记和未标记的数据反馈回模型训练中，以（重新）拟合已知标记和预测标记。（重复此过程，并使用更新的模型重新标记。）所声称的好处是您可以使用有关未标记数据的结构的信息来改进模型。经常显示下图的变体，“表明”该过程可以根据（未标记）数据所在的位置制定更复杂的决策边界。图片来自Techerin CC BY-SA 3.0的Wikimedia Commons 但是，我不太喜欢那种简单的解释。天真的，如果原始的仅加标签的训练结果是上决策边界，则将基于该决策边界分配伪标签。也就是说，上部曲线的左手将被伪标记为白色，下部曲线的右手将被伪标记为黑色。重新训练后，您将不会获得很好的弯曲决策边界，因为新的伪标签只会增强当前的决策边界。或者换种说法，当前仅标记的决策边界将对未标记的数据具有完美的预测精度（因为这就是我们用来制作它们的方式）。没有驱动力（没有梯度）会导致我们仅通过添加伪标记数据即可更改决策边界的位置。我是否认为缺少该图所体现的解释是正确的？还是我想念的东西？如果没有，什么是伪标签的利益，考虑到-再培训预决策边界已超过伪标签完美的准确性？

19 machine-learning semi-supervised

1

过度拟合的数学/算法定义

是否存在关于过度拟合的数学或算法定义？通常提供的定义是经典的二维点图，其中一条线穿过每个点，而验证损失曲线突然上升。但是在数学上有严格的定义吗？

18 mathematical-statistics optimization overfitting

3

回归的随机森林是“真实”回归吗？

随机森林用于回归。但是，据我了解，他们为每片叶子分配了一个平均目标值。由于每棵树中只有有限的叶子，因此目标只能从我们的回归模型中获得特定值。因此，不仅是“离散”回归（如阶跃函数），还是像“连续”线性回归一样？我理解正确吗？如果是，随机森林在回归方面具有什么优势？

18 regression random-forest cart

2

LASSO是否会遭受逐步回归的相同问题？

逐步算法变量选择方法趋向于选择对回归模型中的每个估计或多或少有偏见的模型（ s及其SE，p值，F统计等），并且与排除真实预测变量的可能性差不多根据相当成熟的模拟文献，包括错误的预测变量。ββ\beta LASSO用于选择变量时是否会遭受相同的特定方式折磨？

18 regression feature-selection lasso regression-strategies stepwise-regression