统计和大数据 machine-learning

3

我需要对几个时间序列数据集执行异常检测。我以前从未做过此事，希望能得到一些建议。我对python非常满意，因此我希望在其中实现解决方案（我的大部分代码在其他工作中都是python）。数据描述：在过去的两年左右（即只有24-36个时间段）才刚刚开始收集每月的时间序列数据。从本质上讲，每月有多个指标被多个客户监视。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... 这就是我的想法：将数据放入数据框（熊猫），然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值，则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。任何建议，以充实这一想法，将不胜感激。我知道这个问题有点抽象，对此我深表歉意。

10 machine-learning time-series python computational-statistics anomaly-detection

3

人们为什么喜欢平滑的数据？

我将使用平方指数内核（SE）进行高斯过程回归。该内核的优点是：1）简单：仅3个超参数；2）平滑：此内核是高斯型的。人们为什么如此喜欢“平稳”？我知道高斯核是无限可微的，但这是如此重要吗？（请让我知道SE内核如此受欢迎的其他原因。） PS：有人告诉我，现实世界中的大多数信号（无噪声）都是平滑的，因此使用平滑的内核对其建模是合理的。有人可以帮我理解这个概念吗？

10 machine-learning

4

为什么KNN不是“基于模型的”？

ESL第2.4章似乎将线性回归归类为“基于模型”，因为它假设，而k最近邻没有类似的近似值。但是，不是两种方法都假设吗？f(x)≈x⋅βf(x)≈x⋅βf(x) \approx x\cdot\betaf(x)f(x)f(x) 后来在2.4中甚至说：最小二乘假设由全局线性函数很好地近似。f(x)f(x)f(x) k个近邻假设由局部常数函数很好地近似。f(x)f(x)f(x) KNN假设似乎也可以形式化（尽管不确定这样做是否会以假设为线性导致线性回归的方式导致 KNN算法）。fff 那么，如果KNN实际上不是基于模型的，那为什么呢？还是我误读了ESL？

10 machine-learning model k-nearest-neighbour

1

随机森林能否比MNIST上的2.8％测试误差好得多？

我还没有发现在随机森林的应用MNIST，CIFAR，STL-10等任何文学，所以我想我会尝试将其与排列不变 MNIST自己。在R中，我尝试： randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) 运行了2个小时，测试错误为2.8％。我也试过scikit学习，与 RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) 70分钟后，我得到了2.9％的测试错误，但是当n_estimators = 200时，仅7分钟后我得到了2.8％的测试错误。使用OpenCV，我尝试了 rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) 运行了6.5分钟，rf用于预测给出了15％的测试误差。我不知道它训练了多少棵树，因为它们对Random Forests的Python绑定似乎忽略了该params参数，至少在版本2.3.1中如此。我也无法弄清楚如何讲清楚OpenCV的，我想解决一个分类问题，而不是回归-我有我的怀疑，因为替换astype('int')用astype('float32')的结果相同。在神经网络中，对于不变排列的 MNIST基准，目前的技术水平是0.8％的测试错误，尽管在一个CPU上训练可能要花费2个小时以上。是否有可能比使用随机森林的MNIST上的2.8％测试错误好得多？我认为普遍的共识是随机森林通常至少与内核SVM一样好，我相信它可以得到1.4％的测试错误。

10 r machine-learning classification random-forest scikit-learn

2

仅一类的分类器

在简单的分类中，我们有两个类：class-0和class-1。在某些数据中，我只有Class-1的值，所以没有Class-0的值。现在，我正在考虑建立一个模型来对第1类的数据进行建模。因此，当有新数据出现时，该模型将应用于新数据，并找到一个概率，说明新数据与该模型相适应的可能性。然后，与阈值进行比较，我可以过滤不适当的数据。我的问题是：这是解决此类问题的好方法吗？可以在这种情况下使用RandomForest分类器吗？我是否需要为第0类添加人工数据，希望分类器将其视为噪声？还有其他想法可以解决这个问题吗？

10 machine-learning one-class

1

内核方法的局限性是什么？何时使用内核方法？

内核方法在许多监督分类任务中非常有效。那么内核方法的局限性是什么？何时使用内核方法？特别是在大规模数据时代，内核方法有哪些进步？内核方法和多实例学习之间有什么区别？如果数据为500x10000，500则为样本数，并且10000为每个特征的维数，那么在这种情况下，我们可以使用核方法吗？

10 machine-learning kernel-trick

2

可变重要性randomForest负值

我问自己，在回归上下文中删除负重要性重要性值（“％IncMSE”）的那些变量是否是一个好主意。如果能给我更好的预测？你怎么看？

10 machine-learning feature-selection random-forest importance

3

机器学习排名算法

我有一组元素，我可以根据特征来描述它们。从而：XXXññn X一世：{C我1，C我2，… ，C我ñ} |X一世∈ XX一世：{C一世1个，C一世2，…，C一世ñ}∣X一世∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X 其中是根据特性对元素的（数值）评估。因此，我的元素可以视为维空间中的点。C我ĴC一世Ĵc_{ij}一世一世iĴĴjññn 根据我的阅读，存在诸如“贝叶斯分类器”之类的算法，可以对我的集合中的任何元素提供“是”或“否”类型的答案，但前提是我确实使用了由一些我的集合中的元素以及算法的预期结果。基于该数据，该算法应该能够采用任何其他元素，而不是训练集的一部分，并根据从训练集中学到的知识提供“是”或“否”的答案。如果您对期望的内容（训练集）有某种想法，但不确定如何产生此结果的特定规则，那么这很好。我想对数据进行的处理不会得到“是”或“否”类型的答案，但是我想在元素中引入一个排名。其中一些比其他“更好”。就像贝叶斯过滤器一样，我对期望值有一个大致的了解。因此，我可以从元素的子集中生成一个“培训排名”，并将其输入到MLA中。根据该训练，我可以对我的整个作品进行排名。为此，我看到两种方法： MLA将为每个元素评分，然后根据该评分对元素进行排名。 MLA可以采用两个元素和并确定其中一个更好（成对比较）。使用该比较操作使用quicksort。X一世X一世x_iXĴXĴx_j 注意：基于分数，成对函数很容易实现，而基于成对函数，生成分数很简单，因此这只是两个产生相同结果的方法。是否有MLA可以提供评分功能或成对比较功能的示例？编辑：为了添加更多上下文：当前，我的项目是根据一种算法进行排名的，该算法通过对进行计算来生成每个项目的得分（实数）。尽管生成的排名非常正确，但是我经常必须修改算法以某种方式对其进行调整，因为我可以清楚地看到一些未按我期望的排名的项目。C一世ĴC一世Ĵc_{ij} 所以目前我的设计过程是：了解什么是完美的排名尝试（手动）派生一个算法来对此类项目进行排名观察结果调整算法所以我考虑了MLA，因为我的过程的起点就是可以用作训练数据。我可能会以当前的排名开始，根据我的需求交换项目并将其提供。

10 machine-learning algorithms ranking feature-construction

2

高维数据集的高斯过程回归

只是想看看是否有人对高维数据集应用高斯过程回归（GPR）有任何经验。我正在研究各种稀疏GPR方法（例如，稀疏伪输入GPR），以了解在特征选择是参数选择过程一部分的情况下，高维数据集可以使用的方法。任何有关论文/代码/或各种尝试方法的建议都值得赞赏。谢谢。

10 machine-learning predictive-models large-data gaussian-process

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

KNN应该使用哪种类型的数据规范化？

我知道有两种以上的规范化类型。例如， 1-使用z分数或t分数转换数据。这通常称为标准化。 2-重新缩放数据以使其值介于0和1之间。现在的问题，是否需要归一化 KNN应该使用哪种类型的数据规范化？为什么？

9 machine-learning normalization standardization k-nearest-neighbour

1

我的神经网络甚至无法学习欧几里得距离

因此，我试图自学神经网络（用于回归应用，而不是对猫的图片进行分类）。我的第一个实验是训练网络以实现FIR滤波器和离散傅立叶变换（在“之前”和“之后”信号上进行训练），因为这两个都是线性操作，可以由没有激活功能的单层实现。两者都很好。因此，我想看看是否可以添加abs()并使其学习幅度谱。首先，我考虑了在隐藏层中需要多少个节点，并意识到3个ReLU足以满足的粗略近似abs(x+jy) = sqrt(x² + y²)，因此我自己对孤复数（2个输入→3个ReLU节点隐藏层→1个）进行了该操作的测试。输出）。有时它起作用：但是在我尝试的大多数时候，它陷入了局部最小值，无法找到正确的形状：我已经在Keras中尝试了所有优化器和ReLU变体，但是它们并没有太大的区别。我还能做些其他事情来使像这样的简单网络可靠地融合吗？还是我只是以错误的态度来解决这个问题，而您应该在问题上抛出不必要的更多节点，如果其中一半死亡，这没什么大不了的？

9 machine-learning neural-networks optimization keras euclidean

3

通过机器学习预测几个时期

我最近回顾了自己的时间序列知识，并意识到机器学习通常只会提前一步。有了一步一步的预测，我的意思是进行预测，例如，如果我们有每小时的数据，请使用上午10点到上午11点的数据进行预测，而上午12点则使用12点的数据进行预测等等。机器学习方法可以产生提前h预测吗？有了h提前预测，我的意思是，例如，假设每小时的数据，我们使用上午10点的数据进行7提前预测，以获得11,12,13,14,15,16,17的估算值。时钟。图片示例：有关我的主要问题，我想知道：我没有看到任何人使用机器学习进行h提前预测的原因是什么？如果有一种使用机器学习的方法，它是否比ARIMA更为精确？

9 machine-learning time-series forecasting arima

2

贝叶斯不需要测试集是真的吗？

我最近观看了埃里克·马（Eric J. Ma）的演讲，并查看了他的博客文章，他引用了拉德福德·尼尔（Radford Neal）的观点，认为贝叶斯模型不会过拟合（但可以过拟合），并且在使用它们时，我们不需要测试集来验证它们（对于在我看来，引号似乎是在谈论使用验证集来调整参数）。老实说，这些论点并不能说服我，而且我也无权阅读这本书，因此，您能为这种说法提供更详细，更严格的论点吗？顺便说一句，在此同时，埃里克·马指出我讨论关于同一主题。

9 machine-learning bayesian cross-validation deep-learning

2

在哪里可以找到用于转移学习的预训练模型[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 2年前关闭。我是机器学习领域的新手，但是我想尝试使用Keras实现简单的分类算法。不幸的是，我的数据很少，因此我想尝试将转移学习应用于该问题。但是，我在网上找不到任何东西，因此我想了解哪些是寻找预训练神经网络的最佳场所。您对此有何建议？哪个网站最适合于了解如何启动机器学习项目？

9 machine-learning classification neural-networks transfer-learning

Questions tagged «machine-learning»