Questions tagged «data-mining»

数据挖掘在数据库环境中使用来自人工智能的方法来发现以前未知的模式。因此,这些方法通常是无监督的。它与机器学习密切相关,但并不相同。数据挖掘的关键任务是聚类分析,异常值检测和关联规则的挖掘。

2
如何按常见主题对字符串进行分组?
我试图将例如关于编程的字符串与其他关于编程的字符串,关于物理的字符串与关于物理的其他字符串等进行分组,以涵盖广泛的主题。尽管问题在语言学方面令人眼花aspect乱,但我仍希望使用编程/软件来实际执行此操作。 总结:给定大量字符串,我该如何按语义主题对它们进行分组? 特定的应用程序:我有大约200,000个琐事问题,我想将其归类为常见的组别(汽车,计算机,政治,加拿大,食品,巴拉克·奥巴马(Barack Obama)等)。 我研究的内容: Wikipedia 列出了自然语言处理工具包(假设我要尝试的工作实际上是NLP),因此我查看了一些内容,但似乎没有一个能满足我的需求。 注意:已经指出,这样做需要更多的知识(例如,保时捷是汽车,C ++是编程语言)。当时我认为需要训练数据,但是如果我只有问题和答案的列表,那么如何生成训练数据?然后如何使用训练数据? 更多说明:如果我的问与答帮助的当前格式(尽管看起来像JSON,但基本上是原始文本文件): // row 1: is metadata // row 2: is a very specific kind of "category" // row 3: is the question // row 4: is the answer { 15343 A MUSICAL PASTICHE Of classical music's "three B's", he was the …

3
乍一看数据集
请原谅我的无知,但是... 我不断遇到自己设法找到的大量新数据的情况。这些数据通常看起来像这样: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常乍一看,我真的无法分辨这里是否有任何趋势。各个列之间的相关性可能不是很重要,但是如果我不必为每种可能的列/类别组合手动创建图,我将感到非常高兴。 是否有工具可以接受数据表以及信息,哪些列应被视为数字,日期和类别,然后进行绘制: 每两个数值列之间的相关性 每两个数值列之间的相关性,每个类别具有单独的趋势线 每个数字列作为时间序列, 每个数字列都是一个时间序列,按类别分开, 等等 最后,这将生成大量图,其中大多数图仅显示噪声。理想情况下,该工具可以通过相关性对图进行评分,最后显示从得分最高的图开始的幻灯片显示。这将是非常不完美的,但乍一看对数据集很有用。 所以?是否有每个人都使用的工具,而我对此却一无所知,还是我们需要制作此工具?

1
如何找到崩溃与系统环境之间的关联?
有空时,我正在一个小型的基于Web的系统上工作,该系统收集从Delphi Windows应用程序发送的崩溃报告(但不收集其他非崩溃的错误报告)。 为了进行故障排除,用户希望使用数据挖掘功能来查找硬件或操作系统版本与特定错误和/或崩溃之间的关系。 例如,这应该如何工作: 对于每个崩溃,数据库中都有一个报告,该报告在崩溃时具有堆栈跟踪(调用堆栈)的指纹/哈希码,以识别重复项 该算法检查错误报告的所有重复项是否还具有其他一些常见属性,例如缺少操作系统的服务包 分析结果列出了错误报告共有的所有属性 假设这些自动错误报告包含所有关键信息,例如当前正在运行的所有进程的名称,文件名,已加载的DLL的版本信息等。 如何找到反复崩溃与环境之间的关联?是否有特定的算法或统计方法会有所帮助?

1
成功的实际应用中的计量经济学方法的书面/可复制示例?
这个问题听起来可能很广泛,但这就是我想要的。我知道有许多关于计量经济学方法的优秀书籍,以及关于计量经济学技术的许多出色的说明性文章。如此CrossValidated 问题中所述,甚至还有极好的可重复的计量经济学示例。实际上,此问题中的示例与我要寻找的非常接近;这些示例中唯一缺少的是它们仅是研究报告,而没有提及研究结果在实际应用中的表现。 我正在寻找的是计量经济学理论在现实世界中应用的已记录/可复制的示例,这些示例理想地具有以下特征: 它们应该是可重复的,即,包含的详细描述(并指针)的数据,计量技术,和代码。理想情况下,代码将使用R语言。 根据详细量化的成功指标,应该有详细的文档显示该技术在现实世界中取得了成功(例如“该技术有助于增加收入,因为它可以改善需求预测,这是其中涉及的数字”) 我在这里广泛使用“ 计量经济学 ”一词-我的意思是任何种类的数据挖掘,统计数据分析,预测,预测或机器学习技术。查找此类示例的一个直接问题是:计量经济学的许多成功应用都是在营利性环境中完成的,因此是专有的,因此,如果一项技术行之有效,则可能不会公开(特别是在专有交易的情况下)策略),但我仍然希望有一些已发布的示例至少具有上述属性(2),如果不是同时具有(1)和(2)。

2
功能数据分析和高维数据分析有什么区别
在统计文献中,有很多关于“ 功能数据 ”(即曲线数据)的参考,也有许多关于“ 高维数据 ”(即当数据是高维向量时)的参考。我的问题是两种数据之间的区别。 当谈论在情况1中应用的应用统计方法时,可以理解为是从情况2通过投影到函数空间的有限维子空间中对方法进行的表述,它可以是多项式,样条,小波,傅立叶等。并将函数问题转化为有限维向量问题(因为在应用数学中,所有事情在某些时候都是有限的)。 我的问题是: 我们可以说适用于功能数据的任何统计程序也可以(几乎直接)适用于高维数据,而专用于高维数据的任何程序也可以(几乎直接)适用于功能数据吗? 如果答案是否定的,您能举例说明吗? 在Simon Byrne的答案的帮助下进行编辑/更新: 稀疏性(S-稀疏假设,球和弱升p球p &lt; 1)被用作在高维统计分析的结构的假设。升p升pl^p升p升pl^pp &lt; 1p&lt;1个p<1 “平滑度”在功能数据分析中用作结构假设。 另一方面,傅里叶逆变换和小波逆变换将稀疏性转换为平滑度,而通过小波和傅立叶变换将平滑度转换为稀疏度。这使得西蒙提到的关键差异不是那么关键吗?

6
可疑地使用信号处理原理来识别趋势
我建议尝试在一些非常嘈杂的长期数据中找到趋势。数据基本上是在大约8个月的时间内每周对大约5mm的物体进行测量。数据精确到1毫米,并且非常嘈杂,每周定期更改+/- 1或2毫米。我们只有到最接近毫米的数据。 我们计划使用一些具有快速傅立叶变换的基本信号处理来从原始数据中分离出噪声。基本的假设是,如果我们镜像数据集并将其添加到现有数据集的末尾,则可以创建数据的完整波长,因此我们的数据将以快速傅立叶变换显示,我们希望可以将其分离出来。 考虑到这对我来说有点怀疑,这是值得推荐的方法,还是镜像和附加我们的数据集的方法在某种程度上有根本性的缺陷?我们正在寻找其他方法,例如也使用低通滤波器。

1
K-均值:实际情况下有多少次迭代?
我没有数据挖掘或大数据方面的行业经验,所以很高兴听到您分享一些经验。 人们实际上在一个非常大的数据集上运行k-means,PAM,CLARA等吗?还是他们只是从中随机抽取一个样本?如果他们只是对数据集进行抽样,如果数据集不是正态分布的,结果是否可靠? 在实际情况下,运行这些算法时,我们能否说出收敛之前通常需要进行多少次迭代?还是迭代次数总是随数据大小而增长? 我之所以这样问,是因为我正在考虑开发一种在收敛之前终止迭代算法的方法,但是结果仍然可以接受。我认为值得尝试的是,如果迭代次数大于1,000,则可以节省一些计算成本和时间。你怎么看?

2
最高和经常关闭-包括答案
中号ÿ d一个吨一个小号ë 吨:中号ÿ d一个Ť一个sËŤ:My \ \ dataset: 1 :A ,B ,C,E1个:一个,乙,C,Ë1: A,B,C,E 2 :A ,C,D ,E2:一个,C,d,Ë2:A,C,D,E 3 :B ,C ,E3: 乙,C,Ë3:\ \ \ \ \ B,C,E 4 :A ,C,D ,E4:一个,C,d,Ë4:A,C,D,E 5 :C ,D ,E5: C,d,Ë5:\ \ \ \ C, D, E 6 :A ,D ,E 6: 一个,d,Ë6: \ \ \ …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
袋外误差估计是否可以增强?
在随机森林中,每棵树都是在数据的唯一Boostrap样本上并行生长的。由于预计每个Bo​​ostrap样本将包含约63%的独特观测值,因此将约37%的观测值排除在外,可用于测试树。 现在,似乎在随机梯度增强中,还有一个类似于RF中的估计:OOBerrorOOBerrorOOB_{error} 如果bag.fraction设置为大于0(建议为0.5),则gbm将计算出袋装的预测性能改善估计值。它评估在选择下一个回归树时未使用的那些观察结果的偏差减少。 资料来源:Ridgeway(2007),第3.3节(第8页)。 我无法理解其工作方式/是否有效。说我要按顺序添加一棵树。我正在原始数据集的随机子样本上生长这棵树。我可以在不用于生长的观察结果上测试这棵树。同意 但是,由于Boosting是顺序的,所以我宁愿使用到目前为止构建的整个树序列来为那些遗漏的观察提供预测。而且,前面的许多树木很有可能已经看到了这些观察结果。因此,不是真的像RF一样在每个回合上都未对模型进行过测试,对吗? 那么,这怎么称为“袋外”误差估计呢?对我来说,似乎已经被发现了吗?

2
CART树是否捕获预测变量之间的交互?
此纸的权利要求,在CART,因为在每一步骤的单个协变量执行二进制分裂,所有分割是协变量之间正交,并因此相互作用不考虑。 但是,相反,许多非常严肃的参考文献声称,树的层次结构可以保证自动对预测变量之间的交互进行建模(例如,本文,当然还有Hastie)。 谁是对的?CART生长的树是否捕获输入变量之间的相互作用?

1
为局部离群因子(LOF)检测分析选择k值
我有一组三维数据,并且尝试使用局部离群值因子分析来识别最独特或最奇怪的值。如何确定LOF分析中使用的k值?我知道k值决定了什么,因此使用不同的k会看到略有不同的结果,对此我并不感到惊讶,但是我不确定我的数据集是否存在应该将我推向另一个值的特征。 。谢谢!

1
使用文本挖掘/自然语言处理工具进行计量经济学
我不确定这个问题在这里是否完全合适,否则请删除。 我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(&gt; 200k)。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息,最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。 自然语言处理对此有多有用?还有哪些其他有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?会有所帮助吗,以前做过类似的事情吗?就回报而言,是否值得?也就是说,我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究? 可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目,有可能申请更多的资金。如果绝对必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语,而不是英语。 关于资格,我主要接受计量经济学方面的培训,并且在Hastie等人的水平上对计算统计有所了解。书。我知道Python,R,Stata,并且可能很快就会熟悉Matlab。给定这些库,我认为Python是为此选择的工具。如果相关的话,根本就不需要定性方法方面的培训,但是我知道我可以联系一些人。 我很高兴为此提供任何输入,即,如果这可能有用,那么,从哪里开始阅读,以及特别关注哪些工具。

5
预先聚类有助于建立更好的预测模型吗?
对于流失建模的任务,我正在考虑: 计算数据的k个聚类 分别为每个集群构建k个模型。 这样做的理由是,没有证据可以证明子代客群体是同质的,因此有理由假设数据生成过程可能因不同的“组”而异。 我的问题是,这是否合适?它违反任何东西,还是出于某种原因被认为是不好的?如果是这样,为什么? 如果不是,您是否会分享有关该问题的一些最佳实践?第二件事-做预聚类通常比模型树好还是坏(如Witten,Frank中定义的那样,分类/回归树在叶子上有模型。直觉上看来,决策树阶段只是聚类的另一种形式,但是如果它比“常规”群集有任何优势,请访问idk。)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.