Questions tagged «data-mining»

数据挖掘在数据库环境中使用来自人工智能的方法来发现以前未知的模式。因此,这些方法通常是无监督的。它与机器学习密切相关,但并不相同。数据挖掘的关键任务是聚类分析,异常值检测和关联规则的挖掘。

5
如何理解K均值的弊端
K均值是聚类分析中广泛使用的方法。以我的理解,该方法不需要任何假设,即给我一个数据集和一个预先指定的聚类数k,而我只是应用了这种算法,该算法将平方误差之和(SSE)最小化,聚类内平方错误。 因此,k-means本质上是一个优化问题。 我阅读了一些有关k均值缺点的材料。他们大多数说: k-均值假设每个属性(变量)的分布方差是球形的; 所有变量具有相同的方差; 所有k个聚类的先验概率是相同的,即每个聚类具有大约相等数量的观察值; 如果违反了这三个假设中的任何一个,则k均值将失败。 我不明白这句话背后的逻辑。我认为k-means方法基本上不做任何假设,只是将SSE最小化,因此我看不到将SSE最小化与这3个“假设”之间的联系。

12
数据挖掘,统计,机器学习和AI之间有什么区别?
数据挖掘,统计,机器学习和AI之间有什么区别? 可以准确地说,它们是试图解决非常相似的问题但使用不同方法的4个领域吗?它们到底有什么共同之处,又有何不同?如果它们之间存在某种等级关系,那会是什么? 以前曾问过类似的问题,但我仍然不明白: 数据挖掘与统计分析 两种文化:统计与机器学习?

4
用简单的英语表达科恩的河童
我正在阅读一本数据挖掘书,其中提到了Kappa统计信息,作为评估分类器预测性能的一种手段。但是,我只是不明白这一点。我还检查了Wikipedia,但它也没有帮助:https : //en.wikipedia.org/wiki/Cohen's_kappa。 科恩的kappa如何帮助评估分类器的预测性能?这说明了什么? 我了解100%的kappa表示​​分类器与随机分类器完全一致,但是我不知道这对评估分类器的性能有何帮助? 40%的kappa是什么意思?这是否意味着40%的时间分类器与随机分类器一致?如果是这样,这对我有什么帮助或帮助我评估分类器?

9
从随机森林中获取知识
随机森林被认为是黑匣子,但是最近我在想可以从随机森林中获得什么知识? 最明显的是变量的重要性,在最简单的变体中,只需计算变量的出现次数即可完成。 我正在考虑的第二件事是交互。我认为,如果树的数量足够大,则可以测试变量对的出现次数(类似于卡方独立性)。第三件事是变量的非线性。我的第一个想法只是看可变Vs得分的图表,但我不确定这是否有意义。 添加23.01.2012 动机 我想利用这些知识来改进logit模型。我认为(或至少希望如此)可以找到被忽略的相互作用和非线性。

11
在没有博士学位的情况下从事数据挖掘工作
一段时间以来,我对数据挖掘和机器学习一直很感兴趣,部分原因是我在学校主修该领域,还因为我真的很兴奋,尝试解决需要更多思考而不只是编程的问题知识及其解决方案可以有多种形式。我没有研究人员/科学家背景,我来自计算机科学背景,重点是数据分析,我拥有硕士学位而不是博士学位。我目前有一个与数据分析相关的职位,即使这不是我正在做的工作的主要重点,但我至少对此有一定的了解。 前段时间我在几家公司工作时面试,并与一些招聘人员交谈,我发现一种常见的模式,人们似乎认为您需要拥有博士学位才​​能进行机器学习,即使我可能概括得太多了(有些公司并不是特别在意博士学位)。 虽然我认为在该领域拥有博士学位是件好事,但我认为这不是绝对必要的。我对大多数现实世界的机器学习算法有相当不错的了解,我自己(在学校或个人项目中)已经实现了大多数算法,并且在解决涉及机器学习/数据挖掘和统计的问题时感到非常自信。而且我有一些朋友具有相似的个人资料,他们似乎对此也非常了解,但同时也感到,如果您不是博士学位,那么一般而言,公司对于聘用数据挖掘人员会非常害羞。 我想获得一些反馈,您认为博士学位对于在这个领域非常专注是绝对必要的吗? (在将这个问题发布到这里之前,我有所犹豫,但是由于它似乎是meta上可以接受的主题,因此我决定将这个问题发布了我已经思考了一段时间的问题。)


8
在机器学习者中很难找到技能?
似乎数据挖掘和机器学习变得如此流行,以至于现在几乎每个CS学生都知道分类器,聚类,统计NLP等。因此,如今寻找数据挖掘者似乎并不困难。 我的问题是:数据挖掘者可以学习哪些技能,从而使其与众不同?要使他成为一个不太容易找到像他这样的人。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

2
为什么只有三个分区?(培训,验证,测试)
当您尝试将模型适合大型数据集时,通常的建议是将数据分为三个部分:训练,验证和测试数据集。 这是因为模型通常具有三个“级别”的参数:第一个“参数”是模型类(例如SVM,神经网络,随机森林),第二个参数集是“正则化”参数或“超参数”(例如套索罚分系数,核的选择,神经网络结构)和第三组通常被认为是“参数”(例如协变量的系数)。 给定一个模型类和一组超参数,就可以通过选择使训练集上的误差最小的参数来选择参数。给定一个模型类,可以通过最小化验证集上的误差来调整超参数。一个人根据测试集的性能选择模型类别。 但是为什么不增加分区呢?通常,一个人可以将超参数分为两组,并使用“验证1”适合第一个,使用“验证2”适合第二个。或者甚至可以将训练数据/验证数据分割的大小视为要调整的超参数。 在某些应用程序中这已经是普遍的做法吗?关于数据的最佳分区,是否有任何理论上的工作?

12
从图形中抓取数据所需的软件
任何人都具有使用软件(最好是免费的,最好是开放源代码)的经验,该软件将拍摄在笛卡尔坐标上绘制的数据图像(标准的日常绘制),并提取图中绘制的点的坐标? 本质上,这是一个数据挖掘问题和一个反向数据可视化问题。

8
在“大数据”时代采样是否有意义?
或更“会是”吗?大数据使统计数据和相关知识变得更加重要,但似乎不重视抽样理论。 我已经看到围绕“大数据”的这种炒作,并且不禁怀疑我为什么要分析所有内容?是否没有理由设计/实施/发明/发现“抽样理论”?我不想分析数据集的整个“人口”。仅仅因为您可以做到并不意味着您应该这样做(愚蠢是一种特权,但您不应该滥用它:) 所以我的问题是:分析整个数据集在统计上是否相关?您可能要做的最好是,如果您进行采样,则将误差降到最低。但是,最小化该错误的成本真的值得吗?“信息价值”真的值得在大型并行计算机上分析大数据时所付出的努力,时间成本等吗? 即使对整个人群进行分析,其结果充其量也只能是猜测,而正确的可能性更高。可能比抽样要高一点(或者会更高吗?)通过分析总体与分析样本所获得的见解是否会大相径庭? 还是我们应该接受它,因为“时代变了”?考虑到足够的计算能力,将抽样作为一项活动变得不那么重要了:) 注意:我不是要开始辩论,而是在寻找答案,以了解大数据为何会执行其功能(即分析所有内容)而无视采样理论(或不这样做)。

3
我们有“可怜的投票”问题吗?
我知道,这听起来像是题外话,但请听我说。 在Stack Overflow上,我们在这里对文章进行投票,所有信息都以表格形式存储。 例如: 帖子ID投票者ID投票类型日期时间 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等等。投票类型2是反对,投票类型3是反对。您可以在http://data.stackexchange.com上查询此数据的匿名版本。 有一种看法认为,如果帖子的得分达到-1或更低,则更有可能被推荐。这可能仅仅是确认偏差,也可能是根源。 我们将如何分析这些数据以确认或否认这一假设?我们将如何衡量这种偏见的影响?

3
用K-Means和EM进行聚类:它们之间有何关系?
我研究了用于对数据进行聚类(无监督学习)的算法:EM和k-means。我继续阅读以下内容: k-means是EM的一种变体,假设簇是球形的。 有人可以解释以上句子吗?我不了解球形的含义,以及kmeans和EM之间的关系,因为一个以概率方式进行分配,而另一个以确定性方式进行。 另外,在哪种情况下使用k均值聚类更好?或使用EM群集?


3
隐马尔可夫模型和神经网络之间有什么区别?
我只是想弄清楚统计数字,所以对不起这个问题,我感到抱歉。我已经使用马尔可夫模型来预测隐藏状态(不正当赌场,掷骰子等)和神经网络来研究用户在搜索引擎上的点击。两者都有隐藏状态,我们试图使用观察来弄清楚。 据我了解,它们都可以预测隐藏状态,所以我想知道何时在神经网络上使用马尔可夫模型?它们只是解决类似问题的不同方法吗? (我对学习感兴趣,但是我也有另一个动机,我有一个问题,我正在尝试使用隐藏的马尔可夫模型来解决,但是这使我大吃一惊,所以我很想知道是否可以改用其他东西。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.