Questions tagged «dataset»

数据集是通常以表格或矩阵形式的数据集合。此标记不适用于数据请求(“我在哪里可以找到有关...的数据集”)->请参见OpenData

30
公开可用的数据集
数据科学中的常见问题之一是以某种方式清洗(半结构)的格式从各种来源收集数据,并结合各种来源的指标以进行更高级别的分析。查看其他人的努力,尤其是本网站上的其他问题,看来该领域的许多人正在做一些重复的工作。例如,分析推文,facebook帖子,Wikipedia文章等是许多大数据问题的一部分。 其中一些数据集可以使用提供商站点提供的公共API进行访问,但是通常,这些API中缺少一些有价值的信息或指标,每个人都必须一次又一次地进行相同的分析。例如,尽管群集用户可能取决于不同的用例和功能选择,但是对Twitter / Facebook用户进行基本群集在许多大数据应用程序中可能很有用,API既未提供该功能,也未在独立数据集中公开提供此功能。 是否有任何索引或公共可用的数据集托管站点包含有价值的数据集,可用于解决其他大数据问题?我的意思是像GitHub(或一组站点/公共数据集或至少一个完整的清单)这样的数据科学。如果没有,那么没有这样的数据科学平台的原因是什么?数据的商业价值,需要经常更新数据集吗?我们是否可以没有一个开放源代码的模型来共享为数据科学家设计的数据集?

5
我应该选择“平衡”数据集还是“代表性”数据集?
我的“机器学习”任务是将良性Internet流量与恶意流量分开。在现实世界中,大多数(例如90%或更多)的Internet流量都是良性的。因此,我觉得我也应该选择类似的数据设置来训练我的模型。但是我碰到了一份或两篇研究论文(在我的工作领域),他们使用“类平衡”数据方法来训练模型,这意味着良性和恶意流量实例的数量相等。 通常,如果我正在构建机器学习模型,我应该选择一个代表现实世界问题的数据集,还是一个更适合于构建模型的平衡数据集(因为某些分类器在类不平衡方面表现不佳,或者由于其他原因(我不知道)? 有人可以揭示更多的光线优点和缺点都的选择,以及如何决定去哪个选哪个?

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
培训高度不平衡的数据集的快速指南
我在训练集中有大约1000个正样本和10000个负样本的分类问题。因此,该数据集非常不平衡。普通随机森林只是试图将所有测试样本标记为多数类。 这里给出了有关子采样和加权随机森林的一些很好的答案:用高度偏向的数据集训练树群有什么意义? 除RF之外,还有哪些分类方法可以最好地解决问题?

7
公开可用的社交网络数据集/ API
作为我们的大量公共可用数据集的扩展,我想知道是否有任何公共可用社交网络数据集/爬网API列表。如果在链接到数据集/ API的同时添加可用数据的特征,那将非常好。此类信息应为但不限于: 社交网络的名称; 它提供什么样的用户信息(帖子,个人资料,友谊网络等); 是否允许通过API对其内容进行爬网(速率:10 / min,1k / month,...); 是否仅提供整个数据集的快照。 非常欢迎您提出任何建议和其他特征。

4
使用整个数据集训练最终模型总是更好吗?
在训练,验证和测试机器学习偏好模型之后,一种常见的技术是使用完整的数据集(包括测试子集)来训练最终模型,以将其部署到例如产品上。 我的问题是:这样做是否总是最好的?如果性能实际上下降了怎么办? 例如,让我们假设在分类测试子集时模型得分约为65%的情况。这可能意味着要么模型训练不足,要么测试子集包含异常值。在后一种情况下,与他们一起训练最终模型会降低其性能,并且只有在部署模型后才能发现。 重新表述我的最初问题: 如果您曾经进行过一次模型演示,例如将其部署在昂贵的火箭实验上的嵌入式电子设备上,那么您是否会信任在最后一步中已通过测试子集重新训练的模型,而无需重新进行?对其新性能进行了测试?

3
数据科学项目的想法[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 我不知道这是否是问这个问题的合适地点,但我认为,致力于数据科学的社区应该是最合适的地方。 我刚刚开始学习数据科学和机器学习。我正在寻找可以在大约8个月的时间里工作的长期项目构想。 数据科学和机器学习相结合会很棒。 一个足以帮助我理解核心概念并同时实施这些概念的项目将非常有益。


3
非正式文本中用于命名实体识别的数据集
我目前正在搜索带标签的数据集,以训练模型以从非正式文本中提取命名实体(类似于推文)。由于我的数据集中的文档中经常缺少大写字母和语法,因此我要寻找的域外数据比新闻和期刊条目更“非正式”,而当今的许多最新技术称为实体识别系统训练有素。 有什么建议吗?到目前为止,我只能从这里发布的Twitter上找到5万个令牌。
18 dataset  nlp 


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
为什么使用大写字母定义训练和测试数据的变量(在Python中)?
我希望这个问题最适合本网站... 在Python中,通常使用大写字母作为第一个字符来定义类名,例如 class Vehicle: ... 但是,在机器学习领域,通常将训练和测试数据定义为Xand Y-not x和y。例如,我现在正在阅读有关Keras的教程,但是它使用X和Y作为变量: from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target 为什么将这些定义为大写字母?机器学习领域之间是否存在任何约定(至少在Python中如此),最好使用大写字母来定义这些变量? 还是人们在机器学习中区分大小写变量? 实际上,同一教程稍后将区分这些变量,如下所示: from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)
15 python  dataset 

3
ImageNet中是否有人类?有没有与人类有关的课程?
如果我查看Internet上Imagenet类的众多资源之一,就找不到一个与人类有关的类(不,收割者不是一个收割者,但这就是我所知的爸爸长腿,一种蜘蛛:-)。那怎么可能?我想至少有预期person类,甚至更具体的东西,例如man,woman,toddler等之类的没有。为什么?难道飞翡丽和她的团队有意识地选择不具有人的图像数据库?我看错文件了吗?为了解决这个问题,我们可以考虑ImageNet2014年以后的版本。

2
使用独立的t检验分析非正态分布的A / B检验结果
我有一组来自A / B测试的结果(一个对照组,一个功能组),这些结果不符合正态分布。实际上,该分布与Landau分布更相似。 我认为独立的t检验要求样本至少近似正态分布,这使我不愿意将t检验用作有效的显着性检验方法。 但是我的问题是: 在什么时候可以说t检验不是一种重要的重要检验方法? 或换一种说法,仅给出数据集,如何确定t检验的p值的可靠性?

3
对于不平衡的类,我是否必须在验证/测试数据集上使用欠采样?
我是机器学习的初学者,正面临一种情况。我正在处理IPinYou数据集的实时出价问题,并且正在尝试进行点击预测。 事实是,您可能知道,数据集非常不平衡:大约1300个否定示例(非点击)中有1个肯定示例(点击)。 这是我的工作: 加载数据 将数据集分为3个数据集:A =训练(60%)B =验证(20%)C =测试(20%) 对于每个数据集(A,B,C),对每个负分类进行欠采样,以使比率为5(1个正样本的5个负样本)。这给了我3个更加平衡的新数据集:A'B'C' 然后,我用数据集A'和逻辑回归训练模型。 我的问题是: 我必须使用哪个数据集进行验证?B还是B'? 我必须使用哪个数据集进行测试?C或C' 哪些指标与评估我的模型最相关?F1Score似乎是一个很好使用的指标。但是这里由于类的不平衡(如果我使用数据集B和C),精度较低(低于0.20),F1Score受较低的召回率/精度的影响很大。使用aucPR或aucROC会更准确吗? 如果要绘制学习曲线,应该使用哪些指标?(知道如果我使用B'数据集进行验证,则%error与错误无关) 在此先感谢您的时间 ! 问候。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.