Questions tagged «data-mining»

数据挖掘在数据库环境中使用来自人工智能的方法来发现以前未知的模式。因此,这些方法通常是无监督的。它与机器学习密切相关,但并不相同。数据挖掘的关键任务是聚类分析,异常值检测和关联规则的挖掘。

2
如何根据先前事件的时间预测下一个事件何时发生?
我是一名高中生,并且正在从事计算机编程项目,但是我在高中统计课程之外的统计和数据建模方面没有很多经验,所以我有点困惑。 基本上,我有一个相当大的列表(假设它足够大,可以满足任何统计测试或度量的假设),而这个时间决定了某人决定打印文档。基于此列表,我想构建某种统计模型,该模型将在给定所有先前事件时间的情况下预测下一次打印作业的最可能时间。 我已经读过这篇文章,但是对于我在项目中的想法,回答并不能完全解决问题。我进行了一些额外的研究,发现“ 隐马尔可夫模型”可能可以使我准确地做到这一点,但是我无法找到有关如何仅使用时间列表来生成“隐马尔可夫模型”的链接。我还发现,在列表上使用卡尔曼过滤器可能有用,但从根本上讲,我想从实际使用过它们的人那里获得一些有关它的更多信息,然后才尝试尝试并希望它能起作用。 谢谢一群!

7
机器学习中的有偏数据
我正在一个机器学习项目中,该项目的数据已经(严重)受到数据选择的影响。 假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时,您如何构建一个机器学习模型来替换它? 为了明确起见,我猜最好的例子是信用风险评估:任务是过滤所有可能无法付款的客户。 现在,您拥有的唯一(带有标签的)数据来自该组规则已接受的客户,因为只有在接受之后,您才能看到有人付款(显然)。您不知道这套规则有多好,它们将对有偿分配到无偿分配产生多大影响。此外,再次由于规则集,您已经拒绝了来自客户端的未标记数据。因此,您不知道如果这些客户被接受,将会发生什么情况。 例如,规则之一可能是:“如果客户年龄小于18岁,则不接受” 分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式? 忽略此问题,将导致模型暴露于从未遇到过的数据中。基本上,我想在x在[a,b]之外时估计f(x)的值。

3
交互式数据可视化什么时候有用?
在准备一个演讲中,我将尽快给,我最近开始挖成两个主要(免费)工具,交互式数据可视化:GGobi和蒙德里安 -都提供大范围的能力(即使他们有点马车)。 我想请您帮助阐明(对我自己,以及对我的未来听众​​)何时使用交互式图解会有所帮助?用于数据探索(针对我们自己)和数据表示(针对“客户”)? 对于向客户解释数据时,我可以看到以下动画的值: 使用“标识/链接/画笔”来查看图形中的哪个数据点是什么。 呈现数据的敏感性分析(例如:“如果我们删除这一点,这将是我们得到的) 在数据中显示不同组的影响(例如:“让我们看看我们的男性图表,现在是女性图表”) 显示时间的影响(或年龄,或总体而言,为演示文稿提供另一个维度) 对于我们自己探索数据时,在我们正在研究的数据集中探索异常值时,我可以看到标识/链接/刷涂的价值。 但是除了这两个示例之外,我不确定这些技术还提供了哪些实际用途。特别是对于我们自己的数据探索! 可以说,交互部分对于探索(例如)数据中不同组/集群的不同行为非常有用。但是,当(在实践中)我遇到这种情况时,我倾向于做的是运行相关的统计程序(以及事后检验),然后我发现很重要的事情会用彩色清楚地将数据划分为相关群体。从我所看到的情况来看,这是一种比“游刃有余”的数据更安全的方法(这很容易导致数据疏导(校正所需的多重比较的范围甚至不清楚)。 我很高兴阅读您在此问题上的经验/想法。 (此问题可以是Wiki-尽管它不是主观的,并且经过深思熟虑的答案将很乐意赢得我的“答案”标记:))


2
高度不平衡数据集的培训方法
我有一个高度不平衡的测试数据集。正集包含100个案例,而负集包含1500个案例。在训练方面,我有一个更大的候选库:正面训练集有1200个案例,负面训练集有12000个案例。对于这种情况,我有几种选择: 1)在整个训练集中使用加权SVM(P:1200,N:12000) 2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个否定案例。 在确定哪种方法更好方面是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡训练集?


10
数据挖掘软件工具概述
尽管我曾经接受过工程师培训,但是发现我对数据挖掘越来越感兴趣。现在,我正在尝试进一步调查该领域。特别是,我想了解现有的软件工具的不同类别,以及每个类别中值得注意的工具以及原因。(请注意,我并不是说“最佳”工具,只是那些著名的工具,以免我们发动火焰大战。)尤其要注意开放源代码和免费提供的工具,尽管这并不意味着我只对开源和免费感兴趣。

4
潜在功能的含义?
我试图理解推荐系统的矩阵分解模型,并且我总是读“潜在特征”,但这意味着什么?我知道功能对训练数据集意味着什么,但我无法理解潜在功能的概念。我所能找到的有关该主题的每篇论文都太浅了。 编辑: 如果您至少可以指出一些指导我想法的论文。

1
Logistic回归和支持向量机之间的区别?
我知道逻辑回归可以找到一个将训练样本分开的超平面。我也知道,支持向量机会找到具有最大余量的超平面。 我的问题:逻辑回归(LR)和支持向量机(SVM)之间的区别是,LR找到任何将训练样本分开的超平面,而SVM找到具有最大余量的超平面吗?还是我错了? 注意:记得在LR中,当,逻辑函数给出。如果我们假设作为分类阈值,则是超平面或决策边界。θ ·&X = 0θ⋅X=0\theta \cdot x = 00.50.50.50.50.50.5θ ·&X = 0θ⋅X=0\theta \cdot x = 0

3
为什么我们使用k-means代替其他算法?
我研究了k均值,这就是我得到的:k均值是最简单的算法之一,它使用无监督学习方法来解决已知的聚类问题。它对于大型数据集非常有效。 但是,K均值也存在以下缺点: 对异常值和噪声具有很强的敏感性 不适用于非圆形的簇形状-簇的数量和初始种子值需要事先指定 通过局部最优的能力低。 k均值有什么好处,因为缺点似乎超出了k均值的好处。 请教我。

2
分位数建模中的模型性能
我正在使用分位数回归(例如,通过gbm或quantreg在R中)-不关注中位数,而是关注较高的分位数(例如,第75位)。来自预测建模的背景,我想衡量模型在测试集上的拟合程度,并能够向业务用户进行描述。我的问题是?在具有连续目标的典型设置中,我可以执行以下操作: 计算总体RMSE 根据预测值对数据集进行十进制分析,然后将实际平均值与每个十分位数中预测的平均值进行比较。 等等。 在这种情况下,如果确实没有实际值(至少我不认为)可以与预测进行比较,该怎么办? 这是示例代码: install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage or learning rate, # 0.001 to 0.1 usually work interaction.depth=5, # 1: additive model, …

3
帮助您选择适当的分析技术和测试的流程图
作为需要统计知识但不是经过正式培训的统计学家的人,我发现有一个流程图(或某种决策树)来帮助我选择解决特定问题的正确方法(例如,“需要这个并且知道那个并且认为数据是正态分布的吗?使用技术X。如果数据不是正态,则使用Y或Z“。 经过一番谷歌搜索后,我看到了几次尝试,尝试了各种覆盖范围和质量(目前尚不可用)。在图书馆查阅的统计教科书中,我也看到了类似的流程图。 奖励是一个交互式站点,除了仅提供图表之外,它还将提供额外的信息(例如假设),并指出如何在流行的统计数据包中执行这些技术。“需要在R中进行ANOVA吗?您需要软件包X,这是一个教程”。 我作为社区Wiki问题问,希望有更好的资源我找不到。由于统计是一个很大的主题,我认为这样的流程图将适合具有初学者或中级水平知识的人可以采用的技术。任何更复杂的事情都需要经过正规培训的人员。



2
分类和回归树背后的数学
有人可以帮助解释CART中分类背后的一些数学吗?我想了解两个主要阶段是如何发生的。例如,我在数据集上训练了CART分类器,并使用测试数据集来标记其预测性能,但是: 如何选择树的初始根? 每个分支为何以及如何形成? 我的数据集包含15列23类的40万条记录,从混淆矩阵中获得了100%的准确性,我对数据集使用了10倍交叉验证。如果有人能帮助解释CART分类的阶段,我将非常感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.