Questions tagged «data-mining»

在大型,复杂的数据集中寻找模式的活动。它通常强调算法技术,但也可能涉及与此目标相关的任何一组相关技能,应用程序或方法。

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
多少数据足以训练我的机器学习模型?
我从事机器学习和生物信息学研究已有一段时间了,今天我与一位同事就数据挖掘的主要一般问题进行了交谈。 我的同事(是机器学习专家)说,他认为,机器学习最重要的实践方面是如何理解您是否收集了足够的数据来训练机器学习模型。 这句话令我感到惊讶,因为我从未在这方面给予过如此重视。 然后,我在Internet上寻找了更多信息,并且根据经验,我在FastML.com上发现了这篇文章,根据您的经验,您需要的数据实例大约是功能的10倍。 两个问题: 1-这个问题在机器学习中真的特别重要吗? 2 - 是的10倍规则工作?这个主题还有其他相关资料吗?


7
LinkedIn网络抓取
我最近发现了一个新的R包,用于连接到LinkedIn API。不幸的是,LinkedIn API似乎很受限制。例如,您只能获取有关公司的基本数据,而这与有关个人的数据是分离的。我想获取有关给定公司的所有员工的数据,您可以在网站上手动进行操作,但无法通过API进行操作。 如果import.io能够识别LinkedIn分页,则将是完美的选择(请参阅页面末尾)。 有谁知道适用于LinkedIn网站当前格式的任何Web抓取工具或技术,或者如何弯曲API进行更灵活的分析?最好是在R或基于Web的环境中,但当然可以接受其他方法。

3
KS,AUROC和Gini之间的关系
诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!

4
使用HPC群集
在我的大学里,我们有一个HPC计算集群。我使用集群来训练分类器,依此类推。因此,通常,要将作业发送到集群(例如python scikit-learn脚本),我需要编写一个Bash脚本,其中包含(其中包括)一个命令qsub script.py。 但是,我发现此过程非常令人沮丧。通常会发生的事情是,我在笔记本电脑上编写了python脚本,然后登录到服务器并更新了SVN信息库,因此我在此处获得了相同的python脚本。然后,我编写该Bash脚本或对其进行编辑,以便可以运行bash脚本。 如您所见,这确实令人沮丧,因为对于python脚本的每个小小的更新,我都需要执行许多步骤才能在计算集群中执行它。当然,当我不得不将数据放在服务器上并在服务器上使用数据集的路径时,任务会变得更加复杂。 我敢肯定,这里有很多人正在将计算集群用于其数据科学任务。我只想知道你们是如何管理将作业发送到集群的?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
可视化经常一起购买的物品
我在CSV文件中插入了以下结构的数据集: Banana Water Rice Rice Water Bread Banana Juice 每行表示一起购买的物品的集合。例如,第一行表示的项目Banana,Water和Rice购在一起。 我想创建如下所示的可视化文件: 这基本上是一个网格图,但是我需要一些工具(可能是Python或R),该工具可以读取输入结构并生成类似于上述的图表作为输出。

3
哪个更快:大型JSON数据集上的PostgreSQL vs MongoDB?
我有一个大型数据集,其中有9m个JSON对象,每个对象约300个字节。它们是来自链接聚合器的帖子:基本上是链接(URL,标题和作者ID)和评论(文本和作者ID)+元数据。 它们很可能是表中的关系记录,但事实是它们具有一个数组字段,其ID指向子记录。 什么样的实现看起来更可靠? PostgreSQL数据库上的JSON对象(只有一个大表且只有一列,即JSON对象) MongoDB上的JSON对象 将JSON对象分解为列,并在PostgreSQL上使用数组 我想最大程度地提高联接的性能,因此我可以对数据进行按摩和探索,直到找到有趣的分析为止,这时我认为将数据转换为特定于每种分析的形式会更好。

4
如何抓取imdb网页?
我正在尝试自己使用Python学习网络抓取,作为学习数据分析的一部分。我正在尝试抓取网址为以下内容的imdb网页:http : //www.imdb.com/search/title? sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 我正在使用BeautifulSoup模块。以下是我正在使用的代码: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, genres,runtime, rating, year 我得到以下输出: The Shawshank Redemption …

2
可扩展的异常值/异常检测
我正在尝试使用Hadoop,Hive,Elastic Search(以及其他)建立大数据基础架构,并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性,因此不包括使用诸如Weka,R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择,它的特点为回归和聚类算法的任务。 我正在努力寻找一种异常或异常检测的解决方案。 由于Mahout具有隐马尔可夫模型和多种聚类技术(包括K-Means),所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议,我将不胜感激 如果有可能的话 怎么做,再加上 对所涉及工作的估计 这种方法的准确性/问题。

4
我应该使用哪些初始步骤来理解大型数据集,以及应该使用哪些工具?
警告:关于机器学习,我是一个完整的初学者,但渴望学习。 我有一个很大的数据集,我试图在其中找到模式。数据之间可能存在/不存在相关性,或者与已知变量相关,或者与数据中包含的变量相关,但是我尚未意识到它们实际上是变量/相关的。 我猜想这将是数据分析领域中一个熟悉的问题,所以我有几个问题: “银弹”将把所有这些数据都放入统计/数据分析程序中,并处理数据以寻找已知/未知模式以寻找关系。SPSS是否合适,或者是否存在其他更合适的应用程序。 我应该学习R之类的语言,并弄清楚如何手动处理数据。这样就不会像我必须手动指定要分析数据的方式以及如何分析这些关系那样使查找关系变得困难。 专业数据挖掘者将如何解决此问题,他/他将采取什么步骤?

4
为什么几种类型的模型会给出几乎相同的结果?
我一直在分析约40万条记录和9个变量的数据集。因变量是二进制。我已经安装了逻辑回归,回归树,随机森林和梯度增强树。当我在另一个数据集上验证拟合值时,它们全都具有拟合值的虚拟相同优势。 为什么会这样呢?我猜这是因为我对可变比率的观察如此之高。如果这是正确的,那么在不同的观察变量比率下,不同的模型将开始产生不同的结果?

1
提供用户产品肯定(点击数据)。如何生成否定(无点击数据)?
在推荐器中,很常见的是我们拥有带有标签的用户产品数据,例如“点击”。为了学习模型,我需要单击和不单击数据。 生成最简单的方法是获取在点击数据中找不到的用户产品对。但是,这可能会产生误导。例: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) 我可以将user1与product1以外的所有产品一起使用,并将它们标记为“ no_click”,依此类推。但是,事实可能并非如此。如果显示了product2,则user1可能会单击product2。但是仅仅因为向他展示了其他产品集-他没有机会决定点击/不点击product2。 那么如何解决一元数据问题呢?

1
给定前一卷积层的增量项和权重,如何计算卷积层的增量项?
我正在尝试训练具有两个卷积层(c1,c2)和两个隐藏层(c1,c2)的人工神经网络。我正在使用标准的反向传播方法。在反向遍历中,我根据前一层的误差,前一层的权重以及相对于当前层的激活函数的激活梯度来计算层(δ)的误差项。更具体地说,第l层的增量看起来像这样: delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l) 我能够计算c2的梯度,该梯度连接到常规层中。我只是将h1的权重乘以它的增量。然后,我将该矩阵重塑为c2输出的形式,将其与激活函数的梯度相乘就完成了。 现在,我有了c2的增量项-这是大小为4D的矩阵(featureMapSize,featureMapSize,filterNum,patternNum)。此外,我具有c2的权重,它们是大小为3D的矩阵(filterSize,filterSize,filterNum)。 有了这两个项以及c1激活的梯度,我想计算c1的增量。 长话短说: 给定前一个卷积层的增量项和该层的权重,我如何计算卷积层的增量项?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.