Questions tagged «data-mining»

在大型,复杂的数据集中寻找模式的活动。它通常强调算法技术,但也可能涉及与此目标相关的任何一组相关技能,应用程序或方法。

4
如何调试数据分析?
我遇到了以下问题,我很典型地进行侦察。 我有一些大数据,例如几百万行。我对它进行了一些非平凡的分析,例如,由几个子查询组成的SQL查询。我得到一些结果,例如,说明属性X随时间增加。 现在,有两种可能的结果可能导致这种情况: X确实随着时间增加 我的分析中有错误 如何测试第一次发生而不是第二次发生?逐步调试器(即使存在)也无济于事,因为中间结果仍然可以包含数百万行。 我唯一能想到的就是以某种方式生成一个小的合成数据集,该数据集具有我要测试的属性,并将其作为单元测试进行分析。有工具可以做到这一点吗?特别是但不限于SQL。

1
集群存储在ElasticSearch中的客户数据
我在弹性搜索集群中存储了一堆客户资料。这些配置文件现在用于为我们的电子邮件订阅创建目标组。 现在,目标群体是通过使用Elasticsearch多面搜索功能手动形成的(例如,让所有23岁的男性顾客拥有一辆汽车和3个孩子)。 如何使用数据科学,机器学习,集群或其他方法自动搜索有趣的组? r编程语言似乎是完成此任务的好工具,但我无法形成这种群体搜索的方法。一种解决方案是以某种方式找到最大的客户群并将其用作目标组,因此问题是: 如何自动选择相似客户的最大集群(按目前尚不知道的参数相似)? 例如:我的程序将连接到elasticsearch,将客户数据卸载到CSV,然后使用R语言脚本将发现很大一部分客户是没有孩子的男性,而另一大部分客户是汽车,并且眼睛是棕色。

5
如何创建一个好的停用词列表
我正在寻找有关如何整理停用词列表的一些提示。有人知道/可以推荐一个好方法从数据集中提取停用词列表以进行预处理和过滤吗? 数据: 数年来,大量的可变长度的人类文本输入(搜索词和整个句子(最多200个字符))。文本中包含大量垃圾邮件(例如来自机器人的机器输入,单个单词,愚蠢的搜索,产品搜索等),似乎只有几%有用。我意识到有时候(很少)人们会问一些很酷的问题来搜寻我的身边。这些问题是如此的酷,以至于我认为有必要更深入地研究它们,以了解人们随着时间的流逝如何搜索以及人们对使用我的网站感兴趣的主题。 我的问题: 是我真的在预处理方面苦苦挣扎(即丢弃垃圾邮件)。我已经从网络上尝试过一些停用词列表(NLTK等),但是这些并不能真正满足我对这个数据集的需求。 感谢您的想法和讨论!

2
如何模拟用户在亚马逊上的购买行为?
在我们的数据科学最后课程项目中,我们提出了以下建议: 给 Amazon Reviews数据集,我们计划提出一种算法(该算法大致基于Personalized PageRank),该算法确定将广告投放到Amazon的战略位置。例如,亚马逊上有数百万种产品。数据集使您了解哪些产品相关,哪些产品组合在一起,一起查看等。(我们可以使用还查看和购买的信息构建图表),还为您提供与每种产品相关的评论14年。使用所有这些信息,我们将在亚马逊上对产品进行评分/排名。现在,您是Amazon上的供应商,希望提高其产品页面的访问量。我们的算法可帮助您确定图表中的战略位置,您可以在其中放置广告,从而获得最大流量。 现在,我们教授的问题是,在没有实际用户的情况下,您将如何验证算法?我们说- 我们可以为一组固定的用户建模。与第一跳或第五跳相比,某些用户更频繁地跟踪also_bought并also_viewed链接到第三跳。那里的用户行为是正态分布的。其他一些用户几乎无法超越第一跳。这组用户的行为呈指数分布。 我们的教授说-无论用户遵循什么发行方式,用户都在使用相似产品的链接进行导航。您的排名算法还考虑了b / w 2个相似度产品对产品进行排名。因此,使用此验证算法有点cheating。带有其他一些用户行为,这些行为更逼真且与算法正交。 关于如何模拟用户行为的任何想法?我很乐意提供有关该算法的更多详细信息。

1
学习信号编码
我有大量样本,它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时,它是主要的频率成分,并且背景中始终有恒定的白噪声。 我已经手动解码了这些流,但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。 是否有可能建立一个可以学习解码多个编码方案的模型?这样的模型有多健壮,我想采用哪种技术?独立分量分析(ICA)似乎对隔离我关心的频率有用,但是我将如何学习编码方案?

1
不使用ILP的关系数据挖掘
我有一个来自关系数据库的庞大数据集,需要为其创建分类模型。通常在这种情况下,我会使用归纳逻辑编程(ILP),但由于特殊情况,我无法做到这一点。 解决此问题的另一种方法是,当我有外交关系时尝试合计价值观。但是,对于某些名义属性,我有成千上万的重要且不同的行(例如:与几种不同的药物处方有关的患者)。因此,如果不为该名义属性的每一行创建一个新属性,我就无法做到这一点,而且如果我这样做的话,大多数新列将具有NULL值。 是否有任何非ILP算法可以让我在不使用数据透视之类的技术的情况下对关系数据库进行数据挖掘,该技术会创建成千上万的新列?

2
使用智能手机数据集问题的人类活动识别
我是这个社区的新手,希望我的问题很适合这里。作为我的本科数据分析课程的一部分,我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言,这个主题与机器学习和支持向量机有关。我对这种技术还不太熟悉,因此我需要一些帮助。 我已决定遵循此项目构想http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html(顶部的第一个项目)该项目的目标是确定一个人的活动根据智能手机(三星Galaxy S II)在对象腰部记录的数据进行(例如,行走,行走,向上,行走,下坐,坐着,站立,躺着)。使用其嵌入式加速度计和陀螺仪,数据包括以50Hz恒定速率的3轴线性加速度和3轴角速度。 所有数据集在一个文件夹中给出,带有一些描述和功能标签。数据分为“测试”和“训练”文件,其中数据以这种格式表示: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 这只是文件包含内容的很小一部分。 我真的不知道这些数据代表什么以及如何解释。另外,对于数据的分析,分类和聚类,我需要使用哪些工具?有什么办法可以将包含标签的数据放入excel,例如使用R或python提取示例数据并进行处理? 任何提示/技巧将不胜感激。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.