Questions tagged «data-mining»

在大型,复杂的数据集中寻找模式的活动。它通常强调算法技术,但也可能涉及与此目标相关的任何一组相关技能,应用程序或方法。

13
用于混合数值和分类数据的K-Means聚类
我的数据集包含许多数字属性和一个类别。 说NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 其中CategoricalAttr采用的三个可能的值之一:CategoricalAttrValue1,CategoricalAttrValue2或CategoricalAttrValue3。 我正在为Octave使用默认的k-means聚类算法实现https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/。它仅适用于数字数据。 所以我的问题是:将类别属性拆分CategoricalAttr为三个数字(二进制​​)变量是否正确IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?

8
Python中的开源异常检测
问题背景: 我正在从事一个项目,该项目涉及类似于IT监视空间中的日志文件(以我对IT空间的最佳理解)。这些日志文件是时间序列数据,组织成成百上千的各种参数的行。每个参数都是数字(浮点),并且每个时间点都有一个非平凡/非错误的值。我的任务是监视所述日志文件以进行异常检测(峰值,跌落,某些参数不同步的异常模式,奇怪的1st / 2nd / etc。派生行为等)。 在类似的任务中,我曾在Prelert尝试过Splunk,但此刻我正在探索开源选项。 限制: 我限制自己使用Python,因为我很了解Python,并希望延迟切换到R和相关的学习过程。除非似乎对R(或其他语言/软件)提供了压倒性的支持,否则我将坚持使用Python来完成此任务。 另外,我目前正在Windows环境中工作。我想继续在Windows上的小型日志文件上进行沙箱测试,但是如果需要的话可以移至Linux环境。 资源: 我已经检查了以下带有死角的结果: 的Python或R用于实现机器学习算法用于欺诈检测。这里的一些信息是有帮助的,但是不幸的是,我正在努力寻找合适的包装,因为: Twitter的“ AnomalyDetection”在R中,我想坚持使用Python。此外,Python端口特性对我来说似乎在Windows环境中实现时会引起问题。 我下一次尝试的天际线似乎已经停产了(来自github issue)。鉴于似乎很少有在线支持,所以我没有深入研究这一点。 scikit-learn我仍在探索中,但这似乎更加手动。杂草丛生的方法对我来说是可以的,但是我在学习工具方面的背景很薄弱,因此对于像Splunk + Prelert这样的技术方面来说,就像黑盒子一样。 问题定义和问题: 我正在寻找开源软件,该软件可以帮助我自动通过包或库从Python中的时间序列日志文件进行异常检测过程。 是否存在这样的事情来辅助我的紧迫任务,或者它们在我心中是虚构的? 任何人都可以协助具体步骤来帮助我实现我的目标,包括背景基础知识或概念吗? 这是最好的StackExchange社区,还是Stats,Math甚至Security或Stackoverflow是更好的选择? 编辑[2015-07-23] 请注意,对于pyculiarity的最新更新似乎已在Windows环境中修复!我尚未确认,但是应该成为社区的另一个有用工具。 编辑[2016-01-19] 较小更新。我没有时间进行此工作和研究,但是在继续进行具体细节研究之前,我已退后一步来了解此问题的基本原理。例如,我正在采取的两个具体步骤是: 从用于异常检测的Wikipedia文章开始[ https://en.wikipedia.org/wiki/Anomaly_detection ],全面理解,然后在其他链接的Wikipedia文章的概念层次结构中上移或下移,例如[ https:// en.wikipedia.org/wiki/K-nearest_neighbors_algorithm ],然后转到[ https://en.wikipedia.org/wiki/Machine_learning ]。 在Chandola等人2009年“异常检测:调查” [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]和Hodge等人2004年所做的大型调查中探索技术。“异常值检测方法概述” [ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 一旦更好地理解了这些概念(我希望在开发实际方面时也能玩一些玩具示例),我希望了解哪种开源Python工具更适合我的问题。

2
支持向量机是否仍被视为利基市场中的“最新技术”?
这个问题是我在另一个问题上看到的评论的回应。 评论是关于Coursera上的机器学习课程提纲的,并且遵循“如今SVM的使用率不高”的思路。 我本人只是刚刚完成了相关的讲座,而我对SVM的理解是它们是一种强大且高效的分类学习算法,并且在使用内核时,它们具有“利基”特性,涵盖了大约10到1000个特征,以及训练样本的数量可能在100到10,000之间。训练样本的限制是因为核心算法围绕优化从方形矩阵生成的结果进行了优化,该矩阵的尺寸基于训练样本的数量,而不是原始特征的数量。 因此,我看到的评论是否对课程进行了一些实际的改变,如果是这样,那是什么改变:一种同样涵盖SVM的“最佳点”的新算法,更好的CPU意味着SVM的计算优势不那么值得?抑或是评论者的意见或个人经验? 我尝试搜索例如“支持向量机过时了”,但没有发现任何暗示它们被抛弃的理由。 Wikipedia拥有:http : //en.wikipedia.org/wiki/Support_vector_machine#Issues。。。主要的症结似乎是难以解释模型。这使SVM可以很好地用于黑匣子预测引擎,但对于生成见解却不是那么好。我认为这不是主要问题,在选择合适的工作工具时(考虑到培训数据和学习任务的性质等),这只是一件小事。


1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
SVD和PCA如何处理大数据?
我有大量数据(大约8GB)。我想使用机器学习对其进行分析。因此,我认为我应该先使用SVD再使用PCA来降低数据维数以提高效率。但是,MATLAB和Octave无法加载如此大的数据集。 我可以使用哪些工具对大量数据执行SVD?

3
基尼系数vs基尼杂质-决策树
问题是决策树的建立。根据维基百科,“ 基尼系数 ”不应与“ 基尼杂质 ” 相混淆。但是,在构建决策树时可以同时使用两种方法-在拆分项目集时,这些方法可以支持我们的选择。 1)'基尼杂质'-它是标准的决策树拆分指标(请参见上面的链接); 2)'基尼系数'-可以基于AUC标准评估每个分裂。对于每种拆分方案,我们都可以构建ROC曲线并计算AUC度量。根据维基百科AUC =(GiniCoeff + 1)/ 2; 问题是:这两项措施是否相等?一方面,我被告知不要将基尼系数与基尼杂质混淆。另一方面,这两种措施都可以用于做同一件事-评估决策树拆分的质量。



4
潜在功能的含义?
我正在学习推荐系统的矩阵分解,并且看到该词latent features出现得太频繁了,但我无法理解它的含义。我知道功能是什么,但我不了解潜在功能的概念。请解释一下吗?或者至少将我指向可以阅读的论文/地方?

4
数据科学与数据挖掘一样吗?
我敢肯定,本论坛将要讨论的数据科学具有几个同义词,或者至少是相关领域,用于分析大数据。 我的特定问题是关于数据挖掘的。几年前,我参加了数据挖掘的研究生班。数据科学与数据挖掘之间有什么区别,尤其是我需要进一步了解才能精通数据挖掘?

2
如何应对季节性或其他模式变化的时间序列?
背景 我正在研究电度表读数的时间序列数据集。系列的长度因米而异-有的我有几年,有的则只有几个月,等等。许多都表现出明显的季节性,并且通常是多层的-在一天,一周或一年之内。 我一直在努力的事情之一就是这些时间序列的聚类。目前,我的工作是学术性的,在我也对数据进行其他分析时,我有一个特定的目标来进行一些聚类。 我做了一些初步工作,计算了各种功能(周末与工作日使用的百分比,不同时间段使用的百分比,等等)。然后,我继续着眼于使用动态时间规整(DTW)获得不同序列之间的距离,以及基于差值进行聚类,并且发现了与此相关的几篇论文。 题 特定系列的季节性变化会导致我的聚类不正确吗?如果是这样,我该如何处理? 我担心的是,在时间序列中的模式已更改的情况下,DTW获得的距离可能会产生误导。这可能导致不正确的群集。 如果以上不清楚,请考虑以下示例: 例子1 仪表从午夜到晚上8点具有较低的读数,然后读数在接下来的一个小时内急剧增加,从上午9点直到5PM保持较高的读数,然后在接下来的一个小时内急剧下降,然后从6PM直到午夜保持较低的读数。仪表连续数月每天都保持这种模式,但随后变为一天中读数始终保持在恒定水平的模式。 例子2 仪表显示每个月消耗的能量大致相同。几年后,它变成一种模式,在夏季,能源使用量较高,然后恢复到正常水平。 可能的方向 我想知道是否可以继续比较整个时间序列,但是如果模式发生很大变化,可以将它们分开并考虑为一个单独的序列。但是,为此,我需要能够检测到此类更改。另外,我只是不知道这是合适的方法还是处理数据。 我还考虑过拆分数据并将其视为许多单独的时间序列。例如,我可以将每天/米的组合视为一个单独的系列。但是,如果我想考虑每周/每月/每年的模式,则需要做类似的事情。我认为这行得通,但可能会很繁重,如果我找不到更好的方法,我不愿意走这条路。 进一步说明 这些是评论中出现的事情,或者由于评论而我想到的事情,这可能是相关的。我把它们放在这里,这样人们就不必阅读所有内容来获取相关信息。 我正在使用Python工作,但是在R更适合的地方使用了rpy。不过,我不一定要寻找Python答案-如果有人对应该做什么有实际的答案,我很乐意自己找出实现细节。 我有很多工作的“草稿”代码-我已经完成了一些DTW运行,已经完成了几种不同类型的集群,等等。我想我在很大程度上理解了我的发展方向以及我的目标。我真正寻找的是与我在查找距离,运行聚类等之前处理数据的方式有关。鉴于此,我怀疑答案是相同的,无论是通过DTW还是通过更简单的欧氏距离(ED)计算序列之间的距离。 我发现这些论文特别有助于您了解时间序列和DTW,如果需要主题领域的某些背景知识,它们可能会有所帮助:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm


4
我应该使用哪种统计模型来分析单个事件影响纵向数据的可能性
我试图找到一种公式,方法或模型来分析特定事件影响某些纵向数据的可能性。我很难弄清楚在Google上搜索什么。 这是一个示例方案: 您拥有一家每天平均有100个客户的公司。有一天,您决定要增加每天到达商店的客源客户的数量,因此您会在商店外进行疯狂的表演以引起注意。在下一周,您平均每天会看到125位客户。 在接下来的几个月中,您再次决定要获得更多的业务,也许还要维持更长的时间,因此您尝试其他一些随机的事情来在商店中吸引更多的客户。不幸的是,您不是最佳的营销人员,您的某些策略几乎没有效果,甚至没有效果,有些甚至产生了负面影响。 我可以使用哪种方法来确定任何一个单独事件正面或负面地影响到门顾客数量的可能性?我完全意识到关联并不一定等于因果关系,但是在特定事件发生之后,我可以使用哪些方法来确定您的业务在客户日常活动中可能增加或减少? 我不希望分析您尝试增加无障碍顾客数量之间是否存在关联,而是要分析一个事件是否独立于其他事件是否具有影响力。 我意识到这个示例是非常人为的和简单的,因此,我还将简要介绍一下我正在使用的实际数据: 我正在尝试确定特定的市场营销代理商在发布新内容,进行社交媒体宣传等活动时对其客户的网站的影响。对于任何一个特定的代理商,他们可能拥有1至500个客户。每个客户拥有的网站范围从5页到超过一百万个不等。在过去的5年中,每个代理商都为每个客户注释了他们的所有工作,包括已完成的工作类型,受影响的网站页面数量,花费的时间等。 使用我已经组装到数据仓库中的上述数据(放入一堆星型/雪花模式),我需要确定任何一件工作(及时发生的任何事件)对以下项目产生影响的可能性:流量触及受特定作品影响的任何/所有页面。我已经为网站上找到的40种不同类型的内容创建了模型,这些模型描述了从发布日期到现在,具有所述内容类型的页面可能遇到的典型流量模式。相对于适当的模型进行规范化之后,我需要确定由于特定工作而获得的特定页面所增加或减少的访问者的最高和最低数量。 虽然我有基本数据分析(线性和多元回归,相关性等)的经验,但我对如何解决这个问题一无所知。过去,我通常使用给定轴的多次测量数据来分析数据(例如,温度,口渴和动物之间的关系,并确定温度升高对动物的口渴的影响),但我觉得上面我正在尝试分析影响非线性但可预测(或至少可建模)的纵向数据集在某个时间点的单个事件的统计。我很沮丧:( 任何帮助,提示,指示,建议或指示都将非常有帮助,我将永远感激不已!


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.