统计和大数据 data-mining

4

我是一个新手，他将开始阅读有关数据挖掘的文章。我具有AI和统计方面的基础知识。既然许多人说机器学习在数据挖掘中也起着重要作用，那么在继续进行数据挖掘之前是否有必要阅读一下机器学习的知识？

14 machine-learning references data-mining

3

我正在运行kmeans以识别客户群。我大约有100个变量来识别集群。这些变量中的每一个都代表客户在类别上花费的百分比。因此，如果我有100个类别，则我拥有这100个变量，这样每个客户的这些变量之和为100％。现在，这些变量彼此之间具有很强的相关性。在运行kmeans之前，是否需要删除其中一些以消除共线性？这是示例数据。实际上，我有100个变量和1000万个客户。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

14 clustering data-mining k-means multicollinearity compositional-data

2

什么是一类SVM，它如何工作？

我使用的是 Scikit-learn中实现的一类SVM，用于我的研究工作。但是我对此没有很好的理解。任何人都可以对一类SVM进行简单，良好的解释吗？

14 machine-learning svm data-mining novelty-detection

2

混沌理论在数据挖掘中已知的，现有的实际应用是什么？

在过去几年中随便阅读一些有关混沌理论的大众市场作品时，我开始想知道它的各个方面如何应用于数据挖掘和相关领域，例如神经网络，模式识别，不确定性管理等。到目前为止，我在已发表的研究中遇到了如此少的此类应用实例，我想知道是否a）它们实际上已在已知的，已发表的实验和项目中付诸实践，b）如果没有，为什么在这些相互关联的过程中却很少使用它们领域？迄今为止，我所看到的大多数关于混沌理论的讨论都围绕着完全有用的科学应用展开，但与数据挖掘和模式识别等相关领域关系不大。物理学上的三体问题就是一个典型的例子。我想放弃对此类普通科学应用程序的讨论，而仅将问题局限于那些与数据挖掘和相关领域显然相关的应用程序，这些应用程序在文献中似乎很少。下面的潜在应用程序列表可以用作搜索已发表研究的起点，但是我只对那些实际上已经投入实践的应用程序感兴趣（如果有的话）。我正在寻找的是混沌理论对数据挖掘的已知实现，与潜在应用的清单相反，后者的范围要广得多。这是我在阅读时想到的有关数据挖掘应用程序的现成想法的一小部分；也许它们都不是实用的，也许有些在我们讲话时已经投入实际使用，但是按照我还不熟悉的术语去讲：像几十年前Mandelbrot在模拟电话线中出现错误突发的情况下，Mandelbrot实际采用的方式一样，它可以识别模式识别中的相似结构。在挖掘结果中遇到费根堡姆常数（也许以类似于弦理论家的方式震惊，他们发现麦克斯韦方程组在研究过程中突然出现在意外的地方）。确定神经网络权重和各种挖掘测试的最佳位深度。我想知道这一点是因为数值尺度逐渐消失，对初始条件的敏感性开始发挥作用，部分原因是与混沌相关的函数的不可预测性。以其他不一定与迷人的分形好奇心相关的方式使用分数维的概念，例如Menger Sponges，Koch Curves或Sierpinski Carpets。通过将该概念视为分数，可以以某种有益的方式将其应用于挖掘模型的维度吗？推导幂函数定律，例如在分形中起作用的定律。由于分形中遇到的函数是非线性的，所以我想知道非线性回归是否有实际应用。混沌理论与熵之间存在切线（有时被夸大）关系，因此我想知道是否存在某种方法可以根据混沌理论中使用的函数来计算香农的熵（或对其及其亲属的限制），反之亦然。识别数据中的周期倍增行为。通过以一种有用的方式智能地选择最有可能“自我组织”的神经网络，从而确定神经网络的最佳结构。混沌和分形等也与计算复杂度成切线关系，因此我想知道是否可以使用复杂度来识别混沌结构，反之亦然。我首先听说了有关混沌理论的李雅普诺夫指数，从那时起，在特定神经网络的配方和熵的讨论中已经注意到了几次。我可能没有在这里列出其他数十种关系。所有这些都浮现在我的头上。我对这些推测的具体答案并没有特别的兴趣，只是将它们作为可能在野外存在的应用程序类型的示例而扔掉了。我希望看到包含当前研究示例和此类想法的现有实现的答复，只要这些应用程序特别适用于数据挖掘。即使在我更熟悉的领域（例如信息论，模糊集和神经网络），可能还有其他一些我不知道的现有实现，而我在其他领域的能力更弱，例如回归，因此输入更多不客气。我在这里的实际目的是确定是否对学习混沌理论的特定方面进行更多的投资，如果找不到明显的实用性，我将把它放在后面。我搜索了CrossValidated，但没有看到任何直接解决混沌理论在数据挖掘中的功利性应用的主题。我能找到的最接近的主题是混沌理论，无方程建模和非参数统计。与特定的子集。

13 self-study mathematical-statistics references data-mining fractal

3

随机森林和增强算法是参数化还是非参数化？

通过阅读出色的统计模型：这两种文化（Breiman 2001），我们可以抓住传统统计模型（例如线性回归）和机器学习算法（例如Bagging，Random Forest，Boosted tree ...）之间的所有差异。布雷曼批评数据模型（参数化），因为它们基于这样的假设：观测值是由统计学家规定的已知的正式模型生成的，该模型可能无法很好地模仿自然。另一方面，机器学习算法不采用任何形式化的模型，而是直接从数据中学习输入变量和输出变量之间的关联。我意识到Bagging / RF和Boosting也是某种参数：例如，ntree，RF中的mtry，学习率，包率，随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值，因此我们还需要根据数据估算这些参数。那有什么区别呢？RF和Boosted Trees参数模型吗？

13 machine-learning data-mining random-forest boosting bagging

2

自我学习能带给我多远？

我从未参加过官方或结构化的数据分析或机器学习课程（最近的在线产品除外），并且从阅读和尝试中学到了很多我所知道的知识。我知道我离找到工作很远。我的问题不是哪个更好（像这个问题一样），而是我可以达到一个可以申请工作并且实际上有机会独自学习的水平吗？另外，是否可以在合理的时间范围内（可能是10年？我现在31岁了...）？还是我必须找到一种参加某种大学/大学的方法？

13 machine-learning data-mining careers

2

采用过采样进行打包以建立罕见事件预测模型

有谁知道是否描述了以下内容以及（无论哪种方式）听起来像是一种学习目标变量非常不均衡的预测模型的合理方法？通常在数据挖掘的CRM应用程序中，我们将寻求一个模型，其中相对于大多数事件（负面事件）而言，积极事件（成功）非常罕见。例如，我可能有500,000个实例，其中只有0.1％是感兴趣的正类（例如，购买的客户）。因此，为了创建预测模型，一种方法是对数据进行采样，从而保留所有正类实例，而仅保留一个负类实例的样本，以使正类与负类的比率更接近1（可能为25％达到75％（从正面到负面）。文献中有过采样，欠采样，SMOTE等所有方法。我很好奇的是将上面的基本采样策略与否定类的装袋相结合。保留所有积极的课堂实例（例如1,000个）对否定类实例进行采样，以创建一个平衡的样本（例如1,000）。拟合模型重复有人听说过吗？似乎没有装袋的问题是，当存在500,000个样本时，仅对1,000个否定类实例进行采样是因为预测变量空间将稀疏，并且您很可能无法表示可能的预测变量值/模式。套袋似乎对此有所帮助。我看了rpart，当其中一个样本没有一个预测变量的所有值时都没有“中断”（然后用这些预测变量的值预测实例时也没有中断）： library(rpart) tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova") predict(tree,newdata=subset(solder,PadType =='D6')) 有什么想法吗？更新：我获取了一个真实世界的数据集（营销直接邮件响应数据），并将其随机划分为训练和验证。有618个预测变量和1个二进制目标（非常罕见）。 Training: Total Cases: 167,923 Cases with Y=1: 521 Validation: Total Cases: 141,755 Cases with Y=1: 410 我从训练集中选取了所有阳性样本（521），并从平衡样本中随机抽取了相同大小的阴性样本。我适合一棵rpart树： models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class") 我重复了此过程100次。然后针对这100个模型中的每一个，在验证样本的情况下预测Y = 1的概率。我只是将这100个概率取平均值进行最终估算。我在验证集上确定了概率，并在每个十分位中计算了Y = 1（模型估算能力的传统方法）的百分比。 Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 表演如下：为了了解与没有套袋相比的情况，我仅使用第一个样本（所有阳性病例和相同大小的随机样本）预测了验证样本。显然，所采样的数据太稀疏或过拟合，以至于无法对保留的验证样本生效。当发生罕见事件且n和p较大时，建议套袋程序的有效性。

13 data-mining predictive-models

2

时空预测误差的探索性分析

数据：我最近致力于分析风电产量预测误差的时空场的随机特性。在形式上，可以说是一个过程在时间上两次索引（分别为t和h），在空间上一次索引（p），其中H为超前次数（等于约24，有规律地采样），T为“预测时间”（即发布预测的时间，在我的情况下大约为30000，定期进行采样），n为多个空间位置（未网格化，在我的情况下为300）。由于这是与天气有关的过程，因此我也有大量可以使用的天气预报，分析和气象测量。（ϵpt + h | Ť）t = 1 … ，T;h = 1 ，... ，H，p = p1个，… ，pñ(ϵt+h|tp)t=1…,T;h=1,…,H,p=p1,…,pn \left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}ŤttHhhpppHHH242424ŤŤTññn 问题：您能否描述一下您将对此类数据执行的探索性分析，以了解过程的相互依赖结构（可能不是线性的）的本质，以便为它提出更好的模型。

13 forecasting data-mining stochastic-processes spatial spatio-temporal

4

汇总和分析数据的最佳方法

最近刚开始自学机器学习和数据分析，我发现自己对创建和查询大量数据的需求感到困惑。我想对自己在职业和个人生活中积累的数据进行分析，但是我不确定执行以下操作的最佳方法：我应该如何存储这些数据？Excel？SQL？?? 初学者开始尝试分析这些数据的好方法是什么？我是一名专业的计算机程序员，所以复杂性不在于编写程序，而是或多或少地针对数据分析领域。编辑：为我的含糊而道歉，当您第一次开始学习某些东西时，很难知道您不知道的内容，是吗？;）话虽如此，我的目的是将其应用于两个主要主题：软件团队指标（考虑敏捷速度，量化风险，在x个故事点数的情况下成功完成迭代的可能性）机器学习（例如，在给定的一组模块中发生了系统异常），一个模块将在现场抛出异常的可能性是多少，代价是多少，数据可以告诉我哪些关键模块需要改进，从而获得最好的解决方案，预测用户接下来要使用哪个系统部分以开始加载数据，等等）。

13 data-mining dataset eda

3

使数据具有零均值的想法

我经常看到人们通过删除所有元素的均值来使数据集的维/特征为零均值。但是我从来不明白为什么要这么做？将其作为预处理步骤有什么作用？它会提高分类性能吗？回答有关数据集的问题是否有帮助？在进行可视化以了解数据时是否有帮助？

12 data-mining dataset

5

术语频率/文档反向频率（TF / IDF）：加权

我有一个数据集，代表1000个文档以及其中出现的所有单词。因此，行代表文档，列代表单词。因此，例如，单元格代表单词j在文档i中出现的时间。现在，我必须使用tf / idf方法找到单词的“权重”，但实际上我不知道该怎么做。有人可以帮我吗？(i,j)(i,j)(i,j)jjjiii

12 r data-mining feature-selection

3

数据挖掘和人工智能算法的数学基础

您能否给我一些有关数据挖掘和人工智能算法的澄清？他们使用了什么数学基础？您能否以数学为起点，来理解这些类型的算法？

12 mathematical-statistics references data-mining algorithms artificial-intelligence

1

PROC Mixed和LME / LMER在R自由度上的区别

注意：这个问题是一个转贴，因为我的上一个问题出于法律原因不得不删除。在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时，我偶然发现了一些相当混乱的差异。更具体地说，不同测试的自由度在PROC MIXED和之间有所不同lme，我想知道为什么。从以下数据集（以下给出的R代码）开始： ind：指示进行测量的个人的因子 fac：进行测量的器官 trt：表示治疗的因素 y：一些连续响应变量这个想法是建立以下简单模型： y ~ trt + (ind)：ind作为随机因子 y ~ trt + (fac(ind))：fac嵌套在ind作为随机因子需要注意的是最后一个模型应引起奇异性，因为只有1的值y对每一个组合ind和fac。第一模型在SAS中，我建立以下模型： PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程，R中使用的相同模型nlme应为： > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计，但是在对F的影响进行F检验时trt，它们使用的自由度不同： SAS : Type …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

当PR只有一个值时，如何形成Precision-Recall曲线？

我有一个数据挖掘任务，负责制作基于内容的图像检索系统。我有5张动物的20张图像。因此，总共100张图片。我的系统将10个最相关的图像返回到输入图像。现在，我需要使用Precision-Recall曲线评估系统的性能。但是，我不理解精确召回曲线的概念。假设我的系统返回了10张大猩猩图像，但其中只有4张是大猩猩。返回的其他6张图片是其他动物的图片。从而，精度为4/10 = 0.4（返回的相关数）/（所有返回的数）召回是4/20 = 0.2（返回的相关人员）/（所有相关人员）所以我只有一个点<0.2,0.4>，没有曲线。如何绘制曲线（即一组点）？我应该更改返回的图像数量（在我的情况下固定为10）吗？

12 data-mining matlab precision-recall curves computer-vision

1

黑森矩阵和协方差矩阵之间的关系

在研究最大似然估计时，要进行最大似然估计的推论，我们需要知道方差。要找出方差，我需要知道Cramer的Rao下界，它看起来像是在曲率上具有二阶导数的Hessian矩阵。我有点混在一起来定义协方差矩阵和粗麻布矩阵之间的关系。希望听到有关该问题的一些解释。一个简单的例子将不胜感激。

12 machine-learning mathematical-statistics maximum-likelihood data-mining

Questions tagged «data-mining»