Questions tagged «data-mining»

在大型,复杂的数据集中寻找模式的活动。它通常强调算法技术,但也可能涉及与此目标相关的任何一组相关技能,应用程序或方法。


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
一类具有不平衡,异质负面背景的歧视性分类?
我正在努力改进现有的监督分类器,以将{蛋白质}序列归为特定类别(神经肽激素前体)或不属于特定类别。 在大约1300万个蛋白质序列的背景下(“未知/注释不充分的背景”),或大约100,000个经过审查的相关蛋白质,已知的“阳性”蛋白质带有多种属性(但很少有显式注释的蛋白质) “负”方式)。 我以前的实现将其视为二进制分类问题:阳性集=标记为Neuropeptides的蛋白质。阴性集:从剩余的蛋白质中随机抽取1300个样本(总计),这些蛋白质的长度方向分布大致相似。 那行得通,但是我想大大提高机器的辨别能力(目前,在多个随机采样的负数集上,按CV测得的精度,AUC,F1约为83-86%)。 我的想法是:1)使这成为一个多类问题,选择2-3种不同类型的蛋白质,这些蛋白质将根据其特性/功能类别以及(也许)另一组随机采样的样本确定为阴性。(这里的优先级将是负集合,其特征/特征与正集合相似,同时仍具有定义的特征)。2)一次课堂学习-很好,但是据我了解,它仅用于异常检测,并且其性能比歧视性方法差。 *)我听说过PU学习,听起来很整洁,但是我正在编程N00b,而且我不知道它的任何现有实现。(在Python / sci-kit中学习)。 那么,方法1在理论POV中是否有意义?有没有最好的方法来制作多个负数集?(我也可以简单地使用大量[50K]的“阴性”蛋白,但是它们彼此之间非常不同,因此我不知道分类器如何将它们作为一个大的不平衡混合物来​​处理)。谢谢!

2
Mahout中基于项目和基于用户的推荐差异
我想知道mahout基于用户的推荐与基于项目的推荐之间到底有何不同。 它定义了 基于用户:通过查找相似用户来推荐项目。由于用户的动态特性,这通常很难扩展。 基于项目:计算项目之间的相似度并提出建议。项目通常不会有太大变化,因此通常可以离线进行计算。 但是,尽管有两种建议可用,但据我了解,这两种建议都将采用某种数据模型(例如1,2或1,2,.5作为item1,item2,value或user1,user2,value,其中value不是必选),并将所有计算作为我们选择的相似性度量和推荐器内置函数,并且我们可以在同一数据上运行基于用户/项目的推荐(这是正确的假设??)。 因此,我想知道这两种算法在各个方面到底有何不同。

4
决策树与KNN
在哪种情况下最好使用决策树,而在其他情况下使用KNN? 为什么在某些情况下使用其中之一?还有其他情况不同吗?(通过查看其功能而不是算法) 有人对此有一些解释或参考吗?


2
使用属性来分类/集群用户配置文件
我有一个用户从网站购买产品的数据集。 我具有的属性是用户ID,用户的地区(州),产品的类别ID,产品的关键字ID,网站的关键字ID和产品的销售金额。 目的是使用产品和网站的信息来识别用户的身份,例如“年轻的男性玩家”或“待在家里的妈妈”。 我附上了一个示例图片,如下所示: 产品共有1940个唯一类别和13845个唯一关键字。对于该网站,有13063个唯一关键字。整个数据集非常庞大,因为这是每日的记录数据。 我正在考虑聚类,因为它们是无监督的,但是这些id是没有数字含义的有序数字。然后我不知道如何应用该算法。我也在考虑分类。如果我根据购买的产品的销售额添加一列类。我认为群集是更可取的。我不知道在这种情况下应该使用哪种算法,因为关键字id的尺寸可能会超过10000(每个产品可能有很多关键字,网站也是如此)。我需要在该项目中使用Spark。 有人可以帮我一些想法或建议吗? 非常感谢!

1
识别模糊记号序列中的语法
我有一些文本文档,其中主要包含项目列表。 每个项目都是一组不同名称的多个标记:名字,姓氏,出生日期,电话号码,城市,职业等。标记是一组单词。 项目可以位于多行上。 文档中的项目具有大致相同的令牌语法,但不一定必须完全相同。 它们可能是项目之间以及项目内部的更多/更少标记。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目的是识别所使用的语法,例如 Occupation City 最后找出所有项目,甚至认为它们不完全匹配。 为了简短易懂,让我们改用一些别名A,B,C,D ...来指定这些标记类型。 例如 A B C D F A B C …

1
Neo4j vs OrientDB vs泰坦
我正在从事与社会关系挖掘有关的数据科学项目,需要将数据存储在某些图形数据库中。最初,我选择Neo4j作为数据库。但是它接缝了Neo4j的伸缩性不好。我发现的替代方法是Titan和oriebtDB。我走过了这这三个数据库的比较,但我想获得这些数据库的更多细节。所以有人可以帮助我选择最好的人吗?我主要想比较这些数据库的性能,可扩展性,可用的在线文档/教程,Python库支持,查询语言复杂性和图算法支持。还有其他好的数据库选项吗?

4
大数据案例研究或用例示例
我已经阅读了很多关于大数据分析如何使用不同类型行业的博客\文章。但是这些文章大部分都没有提及 这些公司使用了什么样的数据。数据大小是多少 他们使用了什么样的工具技术来处理数据 他们面临的问题是什么,以及他们如何获得数据的洞察力如何帮助他们解决了问题。 他们如何选择适合自己需要的工具/技术。 他们从数据中识别出什么样的模式,以及他们从数据中寻找什么样的模式。 我想知道是否有人可以为我提供所有这些问题的答案,或者至少提供一些问题答案的链接。我正在寻找现实世界的例子。 如果有人分享金融业如何利用大数据分析,那就太好了。


2
是否有用于抓取论文摘要的API?
如果我的论文名列表很长,如何从互联网或任何数据库中获得这些论文的摘要? 论文名称类似于“针对公共卫生领域的Web挖掘中的实用性评估”。 有谁知道可以给我解决方案的任何API?我试图搜寻Google Scholar,但是Google阻止了我的搜寻器。

2
航空公司票价-应该使用什么分析方法来检测竞争性的价格制定行为和价格相关性?
我想调查航空公司的定价行为-特别是航空公司对竞争对手定价的反应。 就像我说的那样,我对更复杂的分析的知识是非常有限的,我几乎已经完成了所有基本方法来收集数据的整体视图。这包括简单的图形,这些图形已经有助于识别相似的模式。我也在使用SAS Enterprise 9.4。 但是,我正在寻找一种基于数字的方法。 数据集 我正在使用的(自己)收集的数据集包含大约54.000的车费。每天(每天晚上00:00)在60天的时间范围内收集所有票价。 因此,该时间窗口内的每个票价都会出现次,这要取决于票价的可用性以及航班的出发日期(如果超过了票价的收取日期)。 (如果航班的出发日期是过去的日期,则无法为该航班收取票价)nnn 未经格式化的基本上看起来像这样:(伪数据) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

2
在频繁模式挖掘中,FPGrowth是否仍被视为“最新技术”?
据我所知,用于解决频繁模式挖掘(FPM)问题的算法的开发,改进之路有一些主要检查点。首先,Apriori算法是由Agrawal等人于1993年提出的。,以及问题的形式化。该算法能够通过使用网格来维护数据,从而从集合(功率集)中剥离一些集合2^n - 1。该方法的缺点是需要重新读取数据库以计算每个扩展集的频率。 后来,在1997年,Zaki等人。提出了Eclat算法,该算法将每个集合的结果频率插入晶格中。这是通过在网格的每个节点处添加具有从根到所引用节点的项的事务ID集合来完成的。主要贡献在于,不必重新读取整个数据集即可知道每个集合的频率,但是保持这种数据结构建立所需的内存可能会超过数据集本身的大小。 2000年,Han等。提出了一种名为FPGrowth的算法,以及一个名为FPTree的前缀树数据结构。该算法能够提供显着的数据压缩,同时还可以仅产生频繁的项目集(不生成候选项目集)。这主要是通过按降序对每个事务的项目进行排序来完成的,以便最频繁的项目是树数据结构中重复次数最少的项目。由于频率仅在深度遍历树时下降,因此该算法能够剥离非频繁项集。 编辑: 据我所知,这可能被认为是最先进的算法,但是我想了解其他建议的解决方案。FPM还有哪些其他算法被认为是“最新技术”?这种算法的直觉 / 主要贡献是什么? 在频繁模式挖掘中,FPGrowth算法是否仍被视为“最新技术”?如果不是,哪种算法可以更有效地从大型数据集中提取频繁项集?

2
如何为随机森林分类拟合分类数据类型?
我需要通过应用随机森林算法来找到训练数据集的准确性。但是我的数据集类型既是分类的又是数字的。当我尝试拟合这些数据时,出现错误。 '输入包含NaN,无穷大或dtype('float32')太大的值。 问题可能出在对象数据类型上。如何在不进行RF转换的情况下拟合分类数据? 这是我的代码。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.