统计和大数据

2

我已经阅读了一些关于EM算法的解释（例如，来自Bishop的模式识别和机器学习以及Roger和Gerolami的第一门机器学习课程）。我理解EM的派生是可以的。我还理解了为什么算法会覆盖某些东西：在每一步我们都会改善结果，并且似然性以1.0为界，因此，通过使用一个简单的事实（如果函数增加并且有界则收敛），我们知道算法会收敛为一些解决方案。但是，我们怎么知道它是局部最小值？在每一步中，我们仅考虑一个坐标（潜在变量或参数），因此我们可能会遗漏某些东西，例如局部最小值要求同时移动两个坐标。我相信这与EM是一个实例的一般爬山算法类似。因此，对于一般的爬山算法，对于函数f（x，y）= x * y，我们会遇到这个问题。如果我们从（0，0）点开始，那么只有同时考虑两个方向，我们才能从0值向上移动。

24 missing-data convergence expectation-maximization

5

在混合模型中将因素视为随机因素有什么好处？

我出于某些原因而无法接受将模型因子标记为随机变量的好处。在我看来，似乎在几乎所有情况下，最佳解决方案都是将所有因素视为固定的。首先，固定与随机的区别是任意的。标准解释是，如果一个人对特定的实验单位本身感兴趣，则应使用固定效应，而如果一个人对实验单位所代表的种群感兴趣，则应使用随机效应。这没有太大帮助，因为这意味着即使数据和实验设计保持相同，也可以在固定视图和随机视图之间进行切换。同样，此定义引起一种错觉，即如果将因子标记为随机，则从模型得出的推论比将因子标记为固定的情况更适用于总体。最后，盖尔曼（Gelman）表明，固定随机的区别令人困惑甚至在定义级别，因为还有四个关于固定效应和随机效应的定义。其次，混合模型的估计非常复杂。与“纯固定”模型相反，有多种方法可以获取p值，在R的lme4程序包中实现REML估计的贝茨教授甚至拒绝完全报告p值。。第三，存在一个模糊的问题，即随机因素会引入多少个隐式参数。以下示例是我对Burnham＆Anderson，“ 模型选择”和“多模型推理：一种实用的信息理论方法”的改编。从偏差方差折衷的角度来看，随机效应的作用可以说明如下。考虑采用处理和主因子效应的单向方差分析，其中是可估计的。错误项具有分布。如果观察次数固定，则随着的增加，偏差方差折衷将恶化。假设我们说ķ ķ - 1 Ñ（0 ，σ 2）ķ ķKKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal N(0, \sigma^2)KKKKKK主要效果来自分布。相应的模型将具有介于固定（过度拟合）版本和仅包含截距的欠拟合模型之间的复杂性。固定模型中有效参数的数量为N(0,σK)N(0,σK)\mathcal N(0, \sigma_K) 1intercept+(K−1)maineffects+1σ=K+1.1intercept+(K−1)maineffects+1σ=K+1.1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + 1 \:\:\sigma = K + 1. 随机模型中有效参数的数量至少为三个：。另外，随机模型具有许多“隐藏”参数，这些参数是对主要效果施加的分布（在这种情况下为正常）限制所隐含的。intercept,σ,σKintercept,σ,σK \mathrm{intercept}, \sigma, \sigma_K 尤其是，如果存在一个具有两个水平的因子，则将其称为随机是没有意义的，即使我们确定知道它的水平是从某些人群中随机抽样的也是如此。这是因为固定效果版本具有三个参数，而随机效果版本具有三个以上参数。在这种情况下，随机模型比固定版本具有更高的复杂性。显然，从固定版本到随机版本的切换更适合更大的KKK。但是，随机模型中“隐藏”参数的数量是未知的，因此无法根据信息标准（例如AIC）比较固定版本和随机版本。因此，尽管该示例阐明了随机效应的贡献（更好的偏差-方差权衡的可能性），但它也表明，很难说何时可以合理地将因子从固定重新标记为随机。 “完全固定”模型中没有上述问题。因此，我愿意问：谁能提供一个示例，说明在使用随机因子（如固定因子）时发生了非常糟糕的事情吗？我认为应该进行一些模拟研究来明确解决该问题。是否有行之有效的定量方法来决定何时从固定标签转换为随机标签？

24 model-selection random-effects-model aic fixed-effects-model mixed-model

1

仅分类变量的回归

如果所有因变量和自变量都是分类变量，是否可以进行回归？

24 regression logistic categorical-data

4

Shapiro–Wilk是最好的正态性检验吗？为什么它会比Anderson-Darling等其他测试更好？

我在一些文献中已经读过，Shapiro-Wilk检验被认为是最好的正态性检验，因为对于给定的显着性水平，如果无效假设被否定，则拒绝原假设的概率高于其他假设。正常性测试。αα\alpha 您能否在可能的情况下使用数学参数向我解释，与其他一些正态性检验（例如安德森–达林检验）相比，它的工作原理如何？

24 hypothesis-testing normal-distribution normality-assumption

3

交叉验证或自举以评估分类性能？

在特定数据集上评估分类器的性能并将其与其他分类器进行比较的最合适的抽样方法是什么？交叉验证似乎是标准做法，但是我已经读过诸如.632 bootstrap之类的方法是更好的选择。作为后续措施：性能指标的选择是否会影响答案（如果我使用AUC而不是准确性）？我的最终目标是能够自信地说一种机器学习方法优于特定的数据集。

24 machine-learning classification predictive-models cross-validation bootstrap

2

在生存分析中，为什么我们使用半参数模型（Cox比例风险）而不是完全参数模型？

该问题是从Mathematics Stack Exchange 迁移而来的，因为可以通过交叉验证来回答。迁移 6年前。我一直在研究Cox比例危害模型，大多数文本都掩盖了这个问题。考克斯建议使用部分似然法拟合危险函数的系数，但为什么不仅仅使用最大似然法和线性模型拟合参量生存函数的系数呢？在任何情况下，只要您检查了数据，就可以找到曲线下的面积。例如，如果您的估计值为380，标准差为80，并且样本的检查数量大于300，则在假设法向误差的情况下，可能性计算中该样本的概率为84％。

24 survival cox-model

4

给定真阳性，假阴性率，您可以计算假阳性，真阴性吗？

我有价值观True Positive (TP)和False Negative (FN)如下： TP = 0.25 FN = 0.75 根据这些值，我们可以计算False Positive (FP)和True Negative (TN)吗？

24 roc confusion-matrix sensitivity-specificity

2

如何设计和实现不对称损失函数进行回归？

问题在回归中，通常会计算出样本的均方误差（MSE）：来衡量预测变量的质量。MSE = 1ñ∑我= 1ñ（克（x一世）− gˆ（x一世））2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 现在，我正在研究一个回归问题，该问题的目的是在给定许多数字特征的情况下，预测客户愿意为产品支付的价格。如果预测价格过高，则没有客户会购买该产品，但是金钱损失很低，因为价格可以简单地降低。当然不应太高，否则可能会导致长时间不购买该产品。另一方面，如果预测价格过低，则将很快购买产品，而没有机会调整价格。换句话说，学习算法应该预测稍高的价格，如有必要，可以将其降低，而不是低估会导致立即金钱损失的真实价格。题您如何设计一个包含这种成本不对称性的误差度量？可能的解决方案定义非对称损失函数的一种方法是简单地乘以权重：其中是我们可以调整的参数，以更改不对称程度。我在这里找到了。在保持二次损失的同时，这似乎是最直接的事情。α＆Element; （0，1）1个ñ∑我= 1ñ∣∣α - 1（克（x一世）− gˆ（x一世））< 0∣∣⋅ （克（x一世）− gˆ（x一世））21n∑i=1n|α−1(g(xi)−g^(xi))<0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 α ＆Element; （0 ，1 ）α∈(0,1)\alpha \in (0,1)

24 regression error loss-functions

2

需要多大的训练集？

是否有一种通用的方法来确定训练一个分类器（在这种情况下为LDA）以获得最小阈值泛化精度所需的训练样本数量？我之所以问是因为我想尽量减少在脑机接口中通常需要的校准时间。

24 classification

3

从数据库确定不同的一维数据集群

我有一个数据库表，用于不同节点之间的数据传输。这是一个巨大的数据库（具有近4000万次传输）。属性之一是传输的字节数（nbytes），范围从0字节到2 TB。我想对nbytes进行聚类，以便在给定k个聚类的情况下，某些x1传输属于k1聚类，而x2转移器则属于k2等。从我使用的术语来看，您可能已经猜到了我要做什么：K-均值。这是一维数据，因为nbytes是我唯一关心的功能。当我寻找与此不同的方法时，我看到EM连同非集群方法一起被提及了两次。我想了解您对如何解决此问题的看法（特别是是否要群集）。谢谢！

24 clustering k-means

1

合并观测值的标准差

我有一个样本观测数据集，存储为范围箱内的计数。例如： min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 现在，从中找到平均值的估计非常简单。只需将每个范围区间的平均值（或中位数）用作观察值，并将计数作为权重即可找到加权平均值： x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 对于我的测试用例，这给了我53.82。现在我的问题是，找到标准偏差（或方差）的正确方法是什么？通过搜索，我找到了几个答案，但不确定哪一个实际上适合我的数据集。在这里的另一个问题和随机的NIST文档中，我都能找到以下公式。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } 对于我的测试用例，其标准偏差为8.35。但是，维基百科有关加权均值的文章给出了两个公式： s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 和 s2∗=1(∑Ni=1wi)−1∑i=1Nwi(xi−x¯∗)2s2∗=1(∑i=1Nwi)−1∑i=1Nwi(xi−x¯∗)2s^{2*} …

24 variance standard-deviation weighted-sampling

1

线性回归预测区间

如果我的数据点的最佳线性近似（使用最小二乘）是线，如何计算近似误差？如果我计算观察值和预测值之间的差异的标准偏差，我以后可以说真实（但未观察到）的值属于区间假设正态分布（）的概率约为68％？e i = r e a l （x i）− （m x i + b ）y r = r e a l （x 0）[ y p - σ ，y p + σy=mx+by=mx+by=mx+bei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)yr=real(x0)yr=real(x0)y_r=real(x_0)y p = m x 0 + b[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]yp=mx0+byp=mx0+by_p=mx_0+b 澄清：我对函数进行了观察，评估结果为点。我将这些观察值拟合为。对于我没有观察到的，我想知道有多大。使用上述方法，中的是正确的。〜68％？X 我升（X ）= 米X + b X 0 ˚F …

24 regression normal-distribution least-squares prediction-interval

1

如何定义梯度下降的终止条件？

实际上，我想问你如何定义梯度下降的终止条件。我可以基于迭代次数来停止它，即考虑参数值进行100次迭代吗？还是应该等两个参数值'new'和'old'的差异小到可以说？这肯定会花费很多时间。10− 610-610^{-6} 什么是最好的方法？就我而言，即使一次迭代也要花费大量时间。在这种情况下，如果我等待第二种情况，我想可能甚至要花几周的时间。因此，我应该使用哪种方法。如何解决这种情况？

24 algorithms optimization gradient-descent

2

您应该按什么顺序进行线性回归诊断？

在线性回归分析中，我们分析异常值，研究多重共线性，检验异方差。问题是：是否有任何适用这些命令的命令？我的意思是，我们是否必须首先分析异常值，然后检查多重共线性？还是反向？是否有任何经验法则？

24 regression multiple-regression outliers

5

当样本的分布为非正态分布时，独立样本的t检验有多强？

我已经读过，当样本的分布偏离正态分布时，t检验是“合理可靠的”。当然，重要的是差异的抽样分布。我有两组数据。这些组之一在因变量上有很大的偏差。两组的样本量都非常小（一组中n = 33，另一组中n = 45）。我是否应该假设在这些条件下，我的t检验对于违反正态性假设会很可靠？

24 t-test assumptions normality-assumption robust