统计和大数据 data-mining

2

我对统计信息了解不多，请多多包涵。假设我有一组1000名工人。我想弄清楚谁是最努力的人，但我只能以一个小时的工作量为一组，以1-100人为单位来衡量完成的工作量。假设每个工人总是做相同数量的工作，那么在大量的试验和组合中，我能按谁最努力的方式对工人进行排名吗？注意：这只是一个隐喻，因此不必担心实际运行测试，只需假设我已经有大量数据即可。编辑：当我说“假设每个工人总是做相同数量的工作”时，我的意思是每个人每天都做相同数量的工作。因此，乔伊每天将做大约100个工作单元，格雷格将做大约50个工作单元。问题是我只能观察小组完成的工作单元数。更多编辑：关于一次工作的工人数量及其工作频率。可能有许多工人同时工作。一些工人可能最终会比其他工人工作更多，也就是说，我们可以假设一些工人将近90％的时间在工作，而其他工人几乎永远不会。我知道这很困难，但是我将拥有一个非常大的数据集，因此希望这会使它变得容易一些。对于每个小时，我们知道哪些工人在工作以及完成了多少工作。从这些信息中，我想找出谁做得最多。如果数据为JSON格式，则将如下所示： [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] }, { "work_done": 432, "Workers": [ "steve", "joe", "andy"] }, { "work_done": 59042, "Workers": [ "bob", "aaron", "michelle", "scott", "henry" ] }, ... ]

9 r regression data-mining

2

Gamma参数与支持向量机一起使用

使用时libsvm，参数是内核函数的参数。其默认值设置为γγ\gammaγ=1个功能数量。γ=1个功能数量。\gamma = \frac{1}{\text{number of features.}} 除了现有方法（例如网格搜索）以外，是否有任何理论指导来设置此参数？

9 machine-learning svm data-mining libsvm kernel-trick

2

了解和应用情绪分析

我刚刚被分配了一个对某些文档收集进行情感分析的项目。通过谷歌搜索，涌现出许多与情感相关的研究。我的问题是：在机器学习和统计分析领域中，进行情感分析的主要方法/算法是什么？有没有确定的结果？是否有任何现有的可执行情感分析的开源软件？

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

从训练集中删除重复项以进行分类

假设我有很多关于分类问题的行： X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量，是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行，我正在使用它来拟合分类器。我只是想知道是否可以删除重复项（我基本上group by X1 ... XN Y在SQL中执行a ）？谢谢。 PS：这是针对仅二进制存在的数据集，其中类先验非常偏斜

9 machine-learning classification data-mining logistic stratification

5

除了Pearson相关性之外，我还能做什么？

在检查两个变量是否相关时，我观察到应用Pearson相关得出的数字低至0.1，表明没有相关性。我能做些什么来加强这一主张？我正在查看的数据集（由于发布限制而被细分）是这样的： 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 0.867394771 5357.506176 0.052263122 3612.97728 0.091337414 6162.178176 0.053065652 867.436416 0.129116092 556.833024 1.01107509 1517.611392 168.1484478 1517.611392 35.11570899 4675.14432 0.053902079 4182.685056 0.070289777 2808.30528 0.071929502 5969.056896 0.47193385 3247.656192 0.896646636 4387.071744 0.056985619 6273.222912 0.046547047 4387.071744 0.034875199 7946.940672 0.074997414 …

9 correlation data-mining pearson-r

3

普通英语的Apriori算法？

我阅读了有关Apriori的Wiki文章。我在理解修剪和加入步骤时遇到了麻烦。谁能用简单的术语解释我Apriori算法的工作原理（这样像我这样的新手都可以轻松理解）？如果有人解释其中涉及的逐步过程，那将是很好的。

9 data-mining algorithms frequentist

3

如何从非常大的数据集中快速选择重要变量？

我有一个约有2,000个二进制变量/ 200,000行的数据集，我正在尝试预测一个二进制因变量。在此阶段，我的主要目标不是提高预测的准确性，而是确定其中哪些变量是重要的预测因子。我想将最终模型中的变量数减少到100个左右。是否有相对快速的方法来获取最重要的变量？randomForest似乎要花费很长时间。我不必全部使用200,000个观察值，因此采样是表上的一个选项。

9 machine-learning data-mining large-data

2

双层集群入门

我一直在做一些关于bicluster的互联网研究。（我已经阅读了Wiki文章多次。）到目前为止，似乎没有什么定义或标准术语。我想知道是否有任何对寻找二聚体算法感兴趣的标准论文或书籍。是否可以说该领域的最新技术水平？我对使用遗传算法找到双聚类的想法很感兴趣，因此，尤其是在其他方法的背景下，我将对该方法的评论表示赞赏。通常在群集中，目标是将数据集划分为组，其中每个元素都位于某个组中。bicluster算法是否还试图将所有元素放在一个特定的组中？

9 clustering data-mining

2

计算数据的ROC曲线

因此，我进行了16次试验，试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下，只有试验1为“真阳性”： Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是，我真的不确定如何根据此数据制作ROC曲线（FPR与TPR或FAR与FRR）。哪一个都不重要，但是我只是对如何进行计算感到困惑。任何帮助，将不胜感激。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Questions tagged «data-mining»