Questions tagged «data-mining»

数据挖掘在数据库环境中使用来自人工智能的方法来发现以前未知的模式。因此,这些方法通常是无监督的。它与机器学习密切相关,但并不相同。数据挖掘的关键任务是聚类分析,异常值检测和关联规则的挖掘。

2
确定组中最大的贡献者
我对统计信息了解不多,请多多包涵。假设我有一组1000名工人。我想弄清楚谁是最努力的人,但我只能以一个小时的工作量为一组,以1-100人为单位来衡量完成的工作量。假设每个工人总是做相同数量的工作,那么在大量的试验和组合中,我能按谁最努力的方式对工人进行排名吗? 注意:这只是一个隐喻,因此不必担心实际运行测试,只需假设我已经有大量数据即可。 编辑: 当我说“假设每个工人总是做相同数量的工作”时,我的意思是每个人每天都做相同数量的工作。因此,乔伊每天将做大约100个工作单元,格雷格将做大约50个工作单元。问题是我只能观察小组完成的工作单元数。 更多编辑: 关于一次工作的工人数量及其工作频率。可能有许多工人同时工作。一些工人可能最终会比其他工人工作更多,也就是说,我们可以假设一些工人将近90%的时间在工作,而其他工人几乎永远不会。 我知道这很困难,但是我将拥有一个非常大的数据集,因此希望这会使它变得容易一些。 对于每个小时,我们知道哪些工人在工作以及完成了多少工作。从这些信息中,我想找出谁做得最多。 如果数据为JSON格式,则将如下所示: [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] }, { "work_done": 432, "Workers": [ "steve", "joe", "andy"] }, { "work_done": 59042, "Workers": [ "bob", "aaron", "michelle", "scott", "henry" ] }, ... ]



2
从训练集中删除重复项以进行分类
假设我有很多关于分类问题的行: X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量,是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行,我正在使用它来拟合分类器。我只是想知道是否可以删除重复项(我基本上group by X1 ... XN Y在SQL中执行a )?谢谢。 PS: 这是针对仅二进制存在的数据集,其中类先验非常偏斜

5
除了Pearson相关性之外,我还能做什么?
在检查两个变量是否相关时,我观察到应用Pearson相关得出的数字低至0.1,表明没有相关性。我能做些什么来加强这一主张? 我正在查看的数据集(由于发布限制而被细分)是这样的: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 0.867394771 5357.506176 0.052263122 3612.97728 0.091337414 6162.178176 0.053065652 867.436416 0.129116092 556.833024 1.01107509 1517.611392 168.1484478 1517.611392 35.11570899 4675.14432 0.053902079 4182.685056 0.070289777 2808.30528 0.071929502 5969.056896 0.47193385 3247.656192 0.896646636 4387.071744 0.056985619 6273.222912 0.046547047 4387.071744 0.034875199 7946.940672 0.074997414 …

3
普通英语的Apriori算法?
我阅读了有关Apriori的Wiki文章。我在理解修剪和加入步骤时遇到了麻烦。谁能用简单的术语解释我Apriori算法的工作原理(这样像我这样的新手都可以轻松理解)? 如果有人解释其中涉及的逐步过程,那将是很好的。

3
如何从非常大的数据集中快速选择重要变量?
我有一个约有2,000个二进制变量/ 200,000行的数据集,我正在尝试预测一个二进制因变量。在此阶段,我的主要目标不是提高预测的准确性,而是确定其中哪些变量是重要的预测因子。我想将最终模型中的变量数减少到100个左右。 是否有相对快速的方法来获取最重要的变量?randomForest似乎要花费很长时间。 我不必全部使用200,000个观察值,因此采样是表上的一个选项。

2
双层集群入门
我一直在做一些关于bicluster的互联网研究。(我已经阅读了Wiki文章多次。)到目前为止,似乎没有什么定义或标准术语。 我想知道是否有任何对寻找二聚体算法感兴趣的标准论文或书籍。 是否可以说该领域的最新技术水平?我对使用遗传算法找到双聚类的想法很感兴趣,因此,尤其是在其他方法的背景下,我将对该方法的评论表示赞赏。 通常在群集中,目标是将数据集划分为组,其中每个元素都位于某个组中。bicluster算法是否还试图将所有元素放在一个特定的组中?

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.