数据科学

2

我正在研究机器学习，我想知道如何计算VC维度。例如： h(x)={10if a≤x≤belse H（X）={1个如果一个≤X≤b0其他 h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ，使用的参数。(a,b)∈R2（一个，b）∈[R2(a,b) ∈ R^2 VC尺寸是多少？

12 machine-learning classification vc-theory

2

如何在Python Pandas中合并两个数据框？

我有两个数据帧df1和df2，我想将它们合并为一个数据帧。好像df1和df2是通过将单个数据帧沿垂直中心向下分割而创建的，就像将一张包含一个列表的纸张撕成两半一样，以便一半的列在一张纸上，一半的列在另一张纸上。我想将它们合并在一起。我该怎么做？

12 pandas

2

在频繁模式挖掘中，FPGrowth是否仍被视为“最新技术”？

据我所知，用于解决频繁模式挖掘（FPM）问题的算法的开发，改进之路有一些主要检查点。首先，Apriori算法是由Agrawal等人于1993年提出的。，以及问题的形式化。该算法能够通过使用网格来维护数据，从而从集合（功率集）中剥离一些集合2^n - 1。该方法的缺点是需要重新读取数据库以计算每个扩展集的频率。后来，在1997年，Zaki等人。提出了Eclat算法，该算法将每个集合的结果频率插入晶格中。这是通过在网格的每个节点处添加具有从根到所引用节点的项的事务ID集合来完成的。主要贡献在于，不必重新读取整个数据集即可知道每个集合的频率，但是保持这种数据结构建立所需的内存可能会超过数据集本身的大小。 2000年，Han等。提出了一种名为FPGrowth的算法，以及一个名为FPTree的前缀树数据结构。该算法能够提供显着的数据压缩，同时还可以仅产生频繁的项目集（不生成候选项目集）。这主要是通过按降序对每个事务的项目进行排序来完成的，以便最频繁的项目是树数据结构中重复次数最少的项目。由于频率仅在深度遍历树时下降，因此该算法能够剥离非频繁项集。编辑：据我所知，这可能被认为是最先进的算法，但是我想了解其他建议的解决方案。FPM还有哪些其他算法被认为是“最新技术”？这种算法的直觉 / 主要贡献是什么？在频繁模式挖掘中，FPGrowth算法是否仍被视为“最新技术”？如果不是，哪种算法可以更有效地从大型数据集中提取频繁项集？

12 bigdata data-mining efficiency state-of-the-art

2

大型数据集的有效降维

我有一个具有〜1M行和〜500K稀疏特征的数据集。我想将维数减少到1K-5K密集特征的数量级。 sklearn.decomposition.PCA在稀疏数据上不起作用，我已经尝试过使用，sklearn.decomposition.TruncatedSVD但是很快就会遇到内存错误。在这种规模的有效尺寸缩减方面，我有哪些选择？

12 python scikit-learn dimensionality-reduction

2

如何为随机森林分类拟合分类数据类型？

我需要通过应用随机森林算法来找到训练数据集的准确性。但是我的数据集类型既是分类的又是数字的。当我尝试拟合这些数据时，出现错误。 '输入包含NaN，无穷大或dtype（'float32'）太大的值。问题可能出在对象数据类型上。如何在不进行RF转换的情况下拟合分类数据？这是我的代码。

12 python data-mining random-forest

3

用恒定值替换pyspark数据框中的所有数值

考虑一个由'null'元素和数字元素组成的pyspark数据帧。通常，数字元素具有不同的值。如何用一个恒定的数值（例如值1）替换数据框的所有数值？提前致谢！ pyspark数据框的示例： 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ 3 & null & 1.2 & null \end{array} 结果应为： 123c111nullc21null1c311nullc1c2c3111121null13null1null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 1 …

12 python apache-spark

2

张量流中的一种热编码是什么？

我目前正在使用tensorflow上的课程，他们使用tf.one_hot（indices，depth）。现在我不明白这些索引如何变成二进制序列。有人可以向我解释确切的过程吗？？？

11 machine-learning python neural-network deep-learning tensorflow

4

Occam的Razor原理如何在机器学习中发挥作用

图片中显示的以下问题是最近一次考试中提出的。我不确定我是否正确理解了Occam的剃刀原理。根据问题中给出的分布和决策边界，并遵循Occam的剃刀，两种情况下的决策边界B都应作为答案。因为根据Occam的Razor，选择比较简单的分类器而不是复杂的分类器即可胜任。有人可以证明我的理解是正确的，选择的答案是否合适？请帮忙，因为我只是机器学习的初学者

11 machine-learning classification

3

是否有适用于python的好的即用型语言模型？

我正在为一个应用程序制作原型，我需要一个语言模型来计算一些生成的句子的困惑度。我可以随时使用经过训练的python语言模型吗？简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架，但找不到我想要的。我知道我可以使用类似： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布，但是我正在一些大型数据集（例如1b单词数据集）上寻找精心设计的模型。我可以真正相信一般领域的结果（不仅是新闻）

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

使用训练有素的CNN分类器并将其应用于其他图像数据集

你会如何优化一个预先训练 neural network将它应用到一个单独的问题？您是否将更多层添加到预训练模型中并在数据集上进行测试？例如，如果任务是使用CNN对墙纸组进行分类，那么我敢肯定，即使是猫和狗的图像分类器，也无法直接对经过图像猫和狗训练的预训练网络进行分类。

11 neural-network deep-learning classification convnet

1

如何使用Keras预测时间范围的未来值？

我刚刚用Keras 建立了LSTM神经网络 import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter = …

11 machine-learning python keras prediction forecasting

3

神经网络-查找最相似的图像

我正在使用Python，scikit-learn和keras。我有3000万个正面手表图像，如下所示： Watch_1，Watch_2，Watch_3。我想编写一个程序，以接收实际手表的照片作为输入，该照片可能比上面的照片（背景色不同，光线更暗等）在不太理想的条件下拍摄，并且在3000种手表中找到最相似的手表。类似地，我的意思是，如果我输入一张带有薄花边的棕色圆形手表的照片作为输入，那么我期望将其制成为圆形，深色和薄花边的棕色手表的输出。什么是最有效的机器学习算法？例如，通过点击此链接，我想到了两种不同的解决方案： 1）使用CNN作为特征提取器，并参考输入图像比较每对图像的这些特征之间的距离。 2）在暹罗神经网络中使用两个CNN来比较图像。这两个选项是此任务的最佳选择，还是您会提出其他建议？您是否知道用于此任务的任何预训练神经网络（具有预定的超参数）？我在StackOverflow上找到了一些有趣的帖子，但是它们已经很老了：Post_1，Post_2，Post_3。

11 python neural-network keras

2

我们什么时候说数据集不可分类？

我已经多次分析过一个数据集，在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器，我通常使用以下步骤：根据数值生成标签的箱形图。将维数减少到2或3，以查看类是否可分离，有时也尝试使用LDA。强制尝试适合SVM和随机森林，并查看特征的重要性，以查看特征是否有意义。尝试更改类和欠采样和过采样等技术的平衡，以检查类不平衡是否可能成为问题。我可以想到很多其他方法，但是还没有尝试过。有时我知道这些功能不好，并且与我们试图预测的标签完全无关。然后，我根据业务直觉结束练习，得出结论，我们需要更好的功能或完全不同的标签。我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法，然后查看验证指标是最佳选择？

11 machine-learning classification deep-learning class-imbalance bayes-error

2

样本外数据过拟合是否具有100％的模型准确性？

我刚刚在认知类.ai上完成了R课程的机器学习，并开始尝试使用随机森林。我已经通过使用R中的“ randomForest”库制作了一个模型。该模型分为好和坏两个类。我知道，当模型过拟合时，其自身训练集中的数据表现良好，而样本外数据则表现不佳。为了训练和测试我的模型，我将完整的数据集混洗并将其分成70％用于训练和30％用于测试。我的问题是：我对测试集所做的预测获得了100％的准确性。这不好吗？看起来真是太好了。目的是根据波形相互识别四个波形。数据集的特征是对具有目标波形的波形进行动态时间规整分析的成本结果。

11 r random-forest prediction overfitting

1

Windows中用于R的GPU加速数据处理

我目前正在撰写有关大数据的论文，该论文使我们大量利用R进行数据分析。出于游戏原因，我的电脑中恰巧装有GTX1070。因此，我认为如果可以使用它来加快我的老师正在做的某些事情的处理速度，那真的很酷，但是这样做似乎并不容易。我已经安装了gpuR，CUDA，Rtools和其他一些东西，例如，我可以从基因组表达数据中创建gpuMatrix对象，但是我还没有找到可以同时使用gpuMatrix对象的函数并且还提供了任何明显的性能差异。也许这只是与gpuR程序包固有的局限性有关-其他一些程序包似乎确实在谈论具有听起来像他们在寻找我想要的东西的功能，几乎所有这些软件包都是专用于Linux的，在Windows中实现对R的GPU支持是否特别困难？还是有其他原因导致Windows中可用的软件包太少？从某种意义上说，我只是很好奇，但是真正发挥作用也很酷。令我惊讶的是，Windows几乎没有可用的功能，通常情况恰恰相反。

11 r gpu parallel