数据科学 machine-learning

1

这里的答案指的是sigmoid像激活函数一样已经消失的梯度和爆炸的梯度，但是我猜Relu它有一个缺点，那就是它的期望值。对的输出没有限制Relu，因此其期望值不为零。我记得之前的时间普及Relu这tanh是最流行之间机器学习专家，而不是sigmoid。原因是的期望值tanh等于零，并且有助于更深层次的学习，从而在神经网络中更快地学习。Relu没有这个特性，但是如果我们不考虑它的派生优势，为什么它会如此出色。而且，我猜导数也可能会受到影响。因为激活（输出Relu）用于计算更新规则。

17 machine-learning neural-network deep-learning gradient-descent activation-function

3

深度神经网络中的装袋与辍学

套袋是多个预测变量的生成，可以像单个预测变量一样进行混淆。辍学是一种教导神经网络求平均所有可能子网的技术。在最重要的Kaggle比赛中，这两种技术经常一起使用。除了实际的实现，我看不到任何理论上的差异。谁能解释我为什么在任何实际应用程序中都应同时使用它们？以及为什么同时使用它们时性能会提高？

17 machine-learning neural-network deep-learning

2

Doc2Vec-如何标记段落（gensim）

我想知道如何从gensim中使用doc2vec在gensim中标记（标记）句子/段落/文档。您是否需要使每个句子/段落/文档带有自己的唯一标签（例如“ Sent_123”）？如果您想说“哪些单词或句子与标记为“ Sent_123”的单个特定句子最相似”，这似乎很有用。能否根据内容重复标签？例如，如果每个句子/段落/文档都与某个特定产品有关（并且给定产品项目有多个句子/段落/文档），则可以根据该项目为句子加上标签，然后计算单词或词组之间的相似度句子和这个标签（我想这将是与产品有关的所有句子的平均值）？

17 machine-learning text-mining word-embeddings word2vec

3

最近的邻居搜索非常高维的数据

我对用户和他们喜欢的项目有一个稀疏的矩阵（按100万个用户和100K个项目的顺序排列，稀疏程度很低）。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试，我的假设是我将使用的方法必须是并行的或分布式的。因此，我正在考虑两类可能的解决方案：一种可以在单个多核计算机上使用（或以相当容易的方式实现），另一种可以在Spark集群上使用，即作为MapReduce程序。我考虑了以下三个主要思想：假设一个余弦相似性度量，通过其转置（作为外部乘积之和来实现）对归一化矩阵进行完全乘法使用位置敏感的哈希（LSH）首先使用PCA降低问题的维度对于任何其他可以解决此问题的方式的想法或建议，我将不胜感激。

17 machine-learning distributed map-reduce dimensionality-reduction

2

在大数据上使用liblinear进行语义分析

我使用Libsvm训练数据并预测语义分析问题的分类。但是由于语义分析涉及n维问题，因此在大规模数据上存在性能问题。去年，Liblinear发布了，它可以解决性能瓶颈。但这会占用太多内存。是的MapReduce解决大数据的语义分析问题的唯一途径？还是有其他方法可以改善Liblinear上的内存瓶颈？

17 machine-learning bigdata libsvm

5

通过异常检测在视觉上检测猫

我有一个业余项目，我正在考虑将其作为增加我迄今为止有限的机器学习经验的一种方式。我已经完成了有关该主题的Coursera MOOC。我的问题是关于该项目的可行性。任务如下：邻居的猫时不时在我的花园里逛，我不喜欢它们，因为它们倾向于在我的草坪上排便。我想有一个警告系统，当有猫在场时提醒我，以便我可以用我的超级浸泡器赶走它。为简单起见，假设我只关心黑白相间的猫。我已经设置了带有相机模块的树莓派，可以捕获花园一部分的视频和/或图片。样本图片：我的第一个想法是训练一个分类器来识别猫或类似猫的物体，但是在意识到我将无法获得足够多的阳性样本后，我放弃了这一方法，转而支持异常检测。我估计，如果我每隔一秒钟拍摄一张照片，最终可能会得到五张每天包含猫的照片（约有60,000张带有阳光）。使用异常检测是否可行？如果是这样，您会建议什么功能？到目前为止，我的想法是简单地计算具有某些颜色的像素数。进行某种类型的斑点检测/图像分割（我不知道该怎么做，因此希望避免），并对它们执行相同的颜色分析。

17 machine-learning

2

为什么同时使用验证集和测试集？

考虑一个神经网络：对于给定的数据集，我们将其分为训练，验证和测试集。假设我们以经典的60:20:20的比例进行操作，然后通过在验证集上检查网络来验证网络，以防止过度拟合。那么，需要在测试仪上对其进行测试以检查其性能吗？测试集上的错误与验证集上的错误会不会有些相同，因为对于网络来说，它是一个看不见的数据，就像验证集一样，并且两者的数量都相同？相反，我们不能通过将测试集合并到训练集上来增加训练集，以使我们拥有更多的训练数据并且网络训练得更好，然后使用验证集来防止过度拟合吗？我们为什么不这样做呢？

17 machine-learning neural-network cross-validation

2

如何提高分类器的准确性？

我正在使用OpenCV letter_recog.cpp示例来对随机树和其他分类器进行实验。此示例具有六个分类器的实现-随机树，boosting，MLP，kNN，朴素贝叶斯和SVM。使用具有20000个实例和16个功能的UCI字母识别数据集，我将其分为两半进行训练和测试。我具有SVM的经验，因此我迅速将其识别错误设置为3.3％。经过一些试验，我得到的是： UCI字母识别： RTrees-5.3％提升-13％ MLP-7.9％ kNN（k = 3）-6.5％贝叶斯-11.5％支持向量机-3.3％使用的参数： RTrees-max_num_of_trees_in_the_forrest = 200，max_depth = 20，min_sample_count = 1 提升-boost_type = REAL，weak_count = 200，weight_trim_rate = 0.95，max_depth = 7 MLP-method = BACKPROP，param = 0.001，max_iter = 300（默认值-太慢无法进行实验） kNN（k = 3）-k = 3 贝叶斯-无 SVM-RBF内核，C = 10，gamma = 0.01 之后，我使用相同的参数并通过首先提取梯度特征（向量大小为200个元素）对Digits和MNIST数据集进行了测试：位数： RTrees-5.1％提升-23.4％ …

17 machine-learning classification svm accuracy random-forest

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

在机器学习中合并稀疏和密集的数据以提高性能

我有可预测的稀疏特征，也有一些也可预测的密集特征。我需要将这些功能结合在一起，以提高分类器的整体性能。现在，当我尝试将它们组合在一起时，稠密特征往往比稀疏特征更占主导地位，因此与仅具有稠密特征的模型相比，AUC仅改善了1％。有人遇到过类似的问题吗？非常感谢您的投入，有点卡住。我已经尝试了许多不同的分类器，分类器的组合，特征转换以及使用不同算法的处理。先谢谢您的帮助。编辑：我已经尝试了评论中给出的建议。我观察到的是，对于几乎45％的数据，稀疏特征的性能确实很好，只有稀疏特征的AUC约为0.9，而对于其余稠密特征，AUC约为0.75的性能很好。我尝试将这些数据集分离出来，但得到的AUC为0.6，因此，我不能简单地训练模型并确定要使用的功能。关于代码段，我已经尝试了很多东西，以至于我不确定要分享什么：(

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

7

精度比召回率什么时候更重要？

谁能给我一些精度很重要的例子，而召回率很重要的例子？

17 machine-learning evaluation

2

我们也应该对测试数据应用归一化吗？

我正在做一个关于作者识别问题的项目。我已经将tf-idf规范化用于训练数据，然后在该数据上训练了一个svm。现在，当使用分类器时，我也应该标准化测试数据。我认为规范化的基本目的是使学习算法在学习时更加重视更重要的功能。因此，一旦经过培训，它就已经知道哪些功能很重要，哪些功能不重要。那么，是否还需要将规范化应用于测试数据？我是这个领域的新手。因此，请忽略该问题是否显得愚蠢？

17 machine-learning neural-network deep-learning

2

我们应该在工作流中的哪里处理丢失的数据？

我正在构建一个工作流，用于从一个非常大的数据库（这里是通过SQL和的Vertica）中提取的数据创建机器学习模型（在我的情况下，使用Python pandas和sklearn软件包）pyodbc，该过程中的关键步骤包括估算缺失预测值。在单个分析或统计平台（Python，R，Stata等）中，这很简单，但是我很好奇在多平台工作流程中该步骤的最佳位置。在Python中使用sklearn.preprocessing.Imputer类，使用pandas.DataFrame.fillna方法或手动进行此操作非常简单（取决于所使用的插补方法的复杂性）。但是由于我要在亿万个记录中的数十个或数百个列中使用它，所以我想知道是否存在一种更有效的方法来提前通过SQL直接进行此操作。除了在像Vertica这样的分布式平台上执行此操作的潜在效率之外，这还具有使我们能够创建用于构建“完整”表版本的自动化管道的额外好处，因此我们不需要填写新的表集每次我们要运行模型时，都会从头开始缺少值。我还没有找到很多指导，但是我想我们可以：为每个不完整的列创建一个替代值表（例如，平均值/中位数/众数，整体或按组）将替换值表与原始表连接起来，为每行和不完整的列分配一个替换值如果可用，使用一系列case语句获取原始值，否则使用替代值这是在Vertica / SQL中做的合理的事情，还是有充分的理由不打扰而只是在Python中处理它？如果是后者，是否有充分的理由在大熊猫而不是sklearn或相反的情况下这样做？谢谢！

16 machine-learning python pandas scikit-learn

1

机器学习中的LB分数是多少？

我正在阅读有关kaggle博客的文章。作者反复提到“ LB分数”和“ LB拟合”）作为衡量机器学习有效性的指标（以及交叉验证（CV）分数）。通过研究“ LB”的含义，我花了很多时间，我意识到通常人们没有太多背景就直接将其称为LB。所以我的问题是-什么是“ LB”？

16 machine-learning accuracy

3

深度学习中的体重和偏见是什么？

我开始从Tensorflow网站学习机器学习。对于深度学习程序遵循的流程，我已经有了非常基本的了解（这种方法使我可以快速学习，而不必阅读书籍和大型文章）。我遇到了一些令人困惑的事情，其中两个是：偏压重量在tensorflow网站上的MNIST教程中，他们提到我们需要偏见和权重才能找到图像中存在特定图案的证据。我不明白的是，在何处以及如何确定“偏差”和“权重”的值？我们是否必须提供这些值，或者TensorFlow库是否基于训练数据集自动计算这些值？另外，如果您可以提供一些有关如何加快我的深度学习速度的建议，那就太好了！ Tensorflow初学者教程

16 machine-learning deep-learning tensorflow

Questions tagged «machine-learning»