数据科学 dataset

6

我是数据挖掘的CS硕士学生。我的主管曾经告诉我，在运行任何分类器或对数据集执行任何操作之前，我必须完全理解数据，并确保数据干净无误。我的问题：理解数据集（具有数值和名义属性的高维）的最佳实践是什么？如何确保数据集干净？是否要确保数据集没有错误值？

13 statistics dataset

4

大分类值的一种热门编码替代方案？

您好，数据框具有超过1600个类别的大分类值，有什么办法可以找到替代方法，使我没有超过1600列。我在下面的有趣链接中找到了此链接http://amunategui.github.io/feature-hashing/#sourcecode 但是他们正在转换为我不想要的类/对象。我希望最终输出为数据框，以便可以使用不同的机器学习模型进行测试吗？还是有什么方法可以使用生成的矩阵来训练除Logistic回归或XGBoost之外的其他机器学习模型？无论如何，我可以实施吗？

13 machine-learning dataset dimensionality-reduction encoding

2

为什么我们需要处理数据不平衡？

我需要知道为什么我们需要处理数据不平衡问题。我知道如何处理它以及通过上采样或下采样或使用Smote来解决该问题的不同方法。例如，如果我患一种罕见疾病，即100分之一，而我决定为我的训练集选择一个平衡的数据集，即：50/50样本不会使机器认为50％的患者会疾病？即使比率是100的1。所以为什么我们需要处理数据不平衡问题？设定余额的建议比率是多少

12 classification dataset sampling class-imbalance

2

航空公司票价-应该使用什么分析方法来检测竞争性的价格制定行为和价格相关性？

我想调查航空公司的定价行为-特别是航空公司对竞争对手定价的反应。就像我说的那样，我对更复杂的分析的知识是非常有限的，我几乎已经完成了所有基本方法来收集数据的整体视图。这包括简单的图形，这些图形已经有助于识别相似的模式。我也在使用SAS Enterprise 9.4。但是，我正在寻找一种基于数字的方法。数据集我正在使用的（自己）收集的数据集包含大约54.000的车费。每天（每天晚上00:00）在60天的时间范围内收集所有票价。因此，该时间窗口内的每个票价都会出现次，这要取决于票价的可用性以及航班的出发日期（如果超过了票价的收取日期）。（如果航班的出发日期是过去的日期，则无法为该航班收取票价）nnn 未经格式化的基本上看起来像这样：（伪数据） +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

12 data-mining dataset regression correlation visualization

4

将网络上的大型数据集直接下载到AWS S3

有谁知道是否可以从URL将大型数据集导入Amazon S3？基本上，我想避免下载大文件，然后通过Web门户将其重新上传到S3。我只想将下载URL提供给S3，然后等待他们将其下载到他们的文件系统中。这似乎很容易做到，但是我只是找不到有关它的文档。

12 dataset aws

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

是否有适用于python的好的即用型语言模型？

我正在为一个应用程序制作原型，我需要一个语言模型来计算一些生成的句子的困惑度。我可以随时使用经过训练的python语言模型吗？简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架，但找不到我想要的。我知道我可以使用类似： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布，但是我正在一些大型数据集（例如1b单词数据集）上寻找精心设计的模型。我可以真正相信一般领域的结果（不仅是新闻）

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

多少数据足以训练我的机器学习模型？

我从事机器学习和生物信息学研究已有一段时间了，今天我与一位同事就数据挖掘的主要一般问题进行了交谈。我的同事（是机器学习专家）说，他认为，机器学习最重要的实践方面是如何理解您是否收集了足够的数据来训练机器学习模型。这句话令我感到惊讶，因为我从未在这方面给予过如此重视。然后，我在Internet上寻找了更多信息，并且根据经验，我在FastML.com上发现了这篇文章，根据您的经验，您需要的数据实例大约是功能的10倍。两个问题： 1-这个问题在机器学习中真的特别重要吗？ 2 - 是的10倍规则工作？这个主题还有其他相关资料吗？

11 machine-learning data-mining dataset data-cleaning data

4

在哪里可以下载股票的历史市值和每日交易量数据？

有很多来源可以提供历史库存数据，但它们仅提供OHLC字段以及数量和调整后的收盘价。我发现还有两个来源提供了市值数据集，但它们仅限于美国股票。Yahoo Finance在线提供了这些数据，但是没有下载（或我不知道）的选项。在哪里可以使用股票代码来下载国家/地区各个顶级证券交易所股票的数据？是否可以通过Yahoo Finance或Google Finance下载它？我需要过去十年左右的数据，因此需要一些脚本或API来做到这一点。

11 dataset

3

我们什么时候应该认为数据集不平衡？

我面临的情况是数据集中正例和负例的数量不平衡。我的问题是，是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样，以便在数据集中实施某种平衡。例子：如果正面示例的数量是1,000，负面示例的数量是10,000，我应该在整个数据集中训练分类器，还是应该对负面示例进行二次抽样？ 1,000个肯定示例和100,000个否定示例的相同问题。 10,000个正数和1,000个负数的相同问题。等等...

10 classification dataset sampling class-imbalance

3

网络分析经典数据集

有一些用于机器学习分类/回归任务的经典数据集。最受欢迎的是：鸢尾花数据集 ; 泰坦尼克号数据集 ; 潮流汽车 ; 等等但是，有人知道类似的数据集用于网络分析/图论吗？更具体-我正在寻找用于比较/评估/学习的Gold标准数据集：集中度措施；网络聚类算法。我不需要大量可公开获得的网络/图表，但是需要几个实际上必须知道的数据集。编辑：为“黄金标准数据集”提供确切的功能非常困难，但是这里有一些想法。我认为，真正的经典数据集应满足以下条件：文章和教科书中有多个参考文献；包含在著名的网络分析软件包中；足够的生存时间；在许多有关图形分析的课程中的用法。关于我的兴趣领域，我还需要标记顶点的类和/或预先计算（或预定义）的“权限分数”（即中心度估计值）。问完这个问题后，我继续搜索，下面是一些合适的示例： Zachary的空手道俱乐部：成立于1977年，被引用超过1.5k次（根据Google Scholar），顶点具有Faction属性（可用于聚类）。鄂尔多斯协作网络：不幸的是，我还没有以数据文件的形式找到这个网络，但是它很有名，如果有人用数学家的专业数据丰富网络，它也可以用于测试聚类算法。

10 dataset graphs

1

HDF5是否可以通过单独的python进程可靠地同时写入和读取？

我正在编写一个脚本，将一段时间后的实时数据记录到一个HDF5文件中，该文件包括该项目的整个数据集。我正在使用Python 3.6，并决定创建一个click用于收集数据的命令行工具。我担心的是，如果数据收集脚本正在写入HDF5文件，而尚待开发的ML应用程序尝试从同一文件中读取数据，将会发生什么？我看了HDF Group关于HDF5并行I / O的文档，但这并没有真正为我弄清楚。

9 python dataset

2

基准数据集以进行协作过滤

我想测试一种用于协同过滤的新算法。典型的用例是根据类似于特定用户的用户偏好来推荐电影。研究人员经常使用哪些常见的基准数据集来测试其算法？我知道在计算机视觉中人们经常使用MNIST或CIFAR，但我还没有找到用于协作过滤的类似数据集。

9 dataset recommender-system

2

如何模拟用户在亚马逊上的购买行为？

在我们的数据科学最后课程项目中，我们提出了以下建议：给 Amazon Reviews数据集，我们计划提出一种算法（该算法大致基于Personalized PageRank），该算法确定将广告投放到Amazon的战略位置。例如，亚马逊上有数百万种产品。数据集使您了解哪些产品相关，哪些产品组合在一起，一起查看等。（我们可以使用还查看和购买的信息构建图表），还为您提供与每种产品相关的评论14年。使用所有这些信息，我们将在亚马逊上对产品进行评分/排名。现在，您是Amazon上的供应商，希望提高其产品页面的访问量。我们的算法可帮助您确定图表中的战略位置，您可以在其中放置广告，从而获得最大流量。现在，我们教授的问题是，在没有实际用户的情况下，您将如何验证算法？我们说- 我们可以为一组固定的用户建模。与第一跳或第五跳相比，某些用户更频繁地跟踪also_bought并also_viewed链接到第三跳。那里的用户行为是正态分布的。其他一些用户几乎无法超越第一跳。这组用户的行为呈指数分布。我们的教授说-无论用户遵循什么发行方式，用户都在使用相似产品的链接进行导航。您的排名算法还考虑了b / w 2个相似度产品对产品进行排名。因此，使用此验证算法有点cheating。带有其他一些用户行为，这些行为更逼真且与算法正交。关于如何模拟用户行为的任何想法？我很乐意提供有关该算法的更多详细信息。

9 machine-learning data-mining dataset recommender-system

4

建议文本分类器训练数据集

我可以使用哪些免费数据集来训练文本分类器？我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度，因此我们认为，如果我们根据预定义的单词袋对内容进行分类，那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现，如果使用与内容无关的预定义词袋，则特征向量将充满零，类别也可能与内容不相关。因此出于这些原因，我们尝试了另一种解决方案，该解决方案将内容分类而不是对其进行分类。谢谢：）

9 machine-learning classification dataset clustering text-mining

Questions tagged «dataset»