统计和大数据 data-mining

3

负二项式分布和二项式分布有什么区别？我尝试在线阅读，发现当数据点离散时使用负二项式分布，但是我认为即使二项分布也可以用于离散数据点。

22 categorical-data data-mining binomial negative-binomial

8

我想对我拥有的对象执行K-均值聚类，但是这些对象并未描述为空间中的点，即按objects x features数据集。但是，我能够计算任何两个对象之间的距离（它基于相似度函数）。因此，我处理了距离矩阵objects x objects。我之前已经实现了K-means，但这是通过点数据集输入实现的。而且在没有输入距离矩阵的情况下，我不清楚如何将群集更新为没有点表示的群集“中心”。通常如何做？为此，是否存在K均值或方法的版本？

22 machine-learning clustering data-mining k-means distance

3

大数据的第一步（，）

假设您正在分析每天有数十亿个观测值的巨大数据集，其中每个观测值都有数千个稀疏值，可能还有多余的数值和类别变量。假设存在一个回归问题，一个不平衡的二元分类问题，以及一项“找出最重要的预测变量”的任务。我对如何解决该问题的想法是：在数据的越来越大（随机）子样本上拟合一些预测模型，直到：拟合和交叉验证模型在计算上变得困难（例如，我的笔记本电脑运行异常缓慢，R内存不足等），或者训练和测试RMSE或精度/召回值稳定。如果训练和测试错误不稳定（1.），请使用更简单的模型和/或实施该模型的多核或多节点版本，然后从头开始。如果训练和测试错误稳定下来（2.）：如果（即，我仍然可以在上运行算法，因为它还不太大），请尝试通过扩展特征空间或使用更复杂的模型并从头开始重新启动来提高性能。X 小号ü b 小号Ë 吨ñš ü b 小号Ë 吨≪ NñsübsËŤ≪ñN_{subset} \ll NXš ü b 小号Ë 吨XsübsËŤX_{subset} 如果是'large'并且进行进一步的分析是昂贵的，则分析变量的重要性并结束分析。ñš ü b 小号Ë 吨ñsübsËŤN_{subset} 我打算使用像包biglm，speedglm，multicore，和ffR中最初，并在以后使用更复杂的算法和/或多节点（上EC2）是必要的。这听起来像是一种合理的方法吗？如果是，那么您是否有任何具体建议或建议？如果没有，那么您将尝试使用这种大小的数据集吗？

21 r machine-learning data-mining large-data

5

革命性的数据挖掘新方式？

以下摘录来自施瓦格的对冲基金市场风云作者（2012年5月），这是对一贯成功的对冲基金经理贾夫里·伍德里夫（Jaffray Woodriff）的采访：问一个问题：“人们在数据挖掘中会犯哪些最严重的错误？”：许多人认为他们还可以，因为他们使用样本内数据进行训练，而使用样本外数据进行测试。然后，他们根据对样本内数据的执行方式对模型进行排序，并选择最佳模型对样本外数据进行测试。人类的趋势是采用在样本外数据中继续表现良好的模型，然后选择那些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分，因为它挑选了在样本外期间效果最好的模型。这是人们最常见的错误之一，也是通常应用数据挖掘产生可怕结果的原因之一。然后，面试官问：“您应该怎么做？”：您可以寻找平均而言所有样本外模型都能正常运行的模式。您知道，如果样本外模型的平均值占样本内分数的很大百分比，则您做得很好。一般而言，如果样本外结果超过样本内结果的50％，您的确可以得到帮助。如果SAS和IBM正在构建出色的预测建模软件，则QIM的业务模型将永远无法运作。我的问题这有意义吗？他什么意思？您是否有线索-甚至可能是提议方法的名称和一些参考资料？还是这个人找到了其他人都无法理解的圣杯？他甚至在这次采访中说，他的方法有可能彻底改变科学。

21 data-mining curve-fitting out-of-sample

4

决策树几乎总是二叉树吗？

我遇到的几乎每个决策树示例都恰好是一棵二叉树。这是普遍的吗？大多数标准算法（C4.5，CART等）仅支持二进制树吗？据我所知，CHAID不限于二叉树，但这似乎是一个例外。在其中一个孩子上进行双向拆分然后再进行双向拆分与一次三元拆分是不同的事情。这可能是一个学术观点，但是我试图确保我了解最常见的用例。

21 machine-learning data-mining cart

2

选择模型后进行交叉验证（错误归纳）

注意：大小写为n >> p 我正在阅读《统计学习的元素》，关于交叉验证的“正确”方法有很多提及（例如，第60页，第245页）。具体来说，我的问题是在进行模型搜索时，如何使用k倍CV或自举法评估最终模型（没有单独的测试集）？似乎在大多数情况下（没有嵌入式功能选择的ML算法）功能选择步骤元参数选择步骤（例如，SVM中的成本参数）。我的问题：我已经看到，可以在整个训练集上进行特征选择并放在一边的情况下，进行特征选择步骤。然后，使用k折CV，在每折中使用特征选择算法（获得每次可能选择的不同特征）并平均误差。然后，您将使用通过所有数据（预留的数据）选择的特征来训练最终模式，但是将交叉验证中的错误用作模型未来性能的估计。它是否正确？当您使用交叉验证选择模型参数时，随后如何估算模型性能？您是使用第54页（pdf）所示的嵌套简历还是其他方法，还是上面＃1的相同过程？当您同时执行两个步骤（功能和参数设置）时.....然后您会做什么？复杂的嵌套循环？如果您有单独的保留样本，那么担心会消失吗，您可以使用交叉验证来选择功能和参数（不必担心，因为您的性能估算将来自保留集）？

21 machine-learning model-selection data-mining cross-validation

2

如果k均值聚类是高斯混合建模的一种形式，那么当数据不正常时可以使用它吗？

我正在阅读Bishop有关GMM的EM算法以及GMM和k均值之间的关系。在这本书中，它说k均值是GMM的硬分配版本。我想知道这是否意味着如果我要聚类的数据不是高斯，我就不能使用k-means（或者至少不适合使用）？例如，如果数据是手写数字的图像，该图像由8 * 8像素组成，每个像素的值为0或1（并假设它们是独立的，因此应该是伯努利的混合物）？我对此有些困惑，将不胜感激。

21 clustering data-mining k-means gaussian-mixture

4

如何知道数据是否可以线性分离？

数据具有许多功能（例如100个），实例数量大约为100,000。数据稀疏。我想使用逻辑回归或svm拟合数据。我如何知道要素是线性的还是非线性的，以便在非线性的情况下可以使用内核技巧？

21 machine-learning logistic svm data-mining

2

深度学习在哪里以及为什么会发光？

如今，随着所有媒体对深度学习的讨论和炒作，我读到了一些基本的东西。我刚刚发现，这只是从数据中学习模式的另一种机器学习方法。但是我的问题是：这种方法在哪里发光，为什么发光？为什么现在都在谈论它？即是什么大惊小怪的？

20 machine-learning data-mining deep-learning deep-belief-networks

2

StackExchange问题的“趣味性”功能

该问题是从Mathematics Stack Exchange 迁移而来的，因为可以通过交叉验证来回答。迁移 8年前。我正在尝试为StackExchange网站整理一个数据挖掘程序包，尤其是，我一直试图确定“最有趣”的问题。我想使用问题分数，但是要消除由于观看次数而引起的偏见，但是我不知道如何严格地解决这一问题。在理想世界中，我可以通过计算来对问题进行排序，其中是总投票数，是观看次数。毕竟，它将衡量支持该问题的人数的百分比，减去支持该问题的人数的百分比。 vñvñvn\frac{v}{n}vvvñnn 不幸的是，投票方式要复杂得多。投票趋于“平稳”到一定水平，这会大大低估广受欢迎的问题。实际上，具有1个视图和1个投票的问题肯定会比其他任何具有10,000个视图但票数少于10,000的问题得分更高。我目前正在使用作为经验公式，但我想精确一点。我如何用严谨的数学方法解决这个问题？v日志n +1vlog⁡n+1\frac{v}{\log{n}+1} 为了解决一些评论，我将尝试以更好的方式重述该问题：假设我有一个问题，共票，次观看。我希望能够估计当视图达到时，最有可能通过总票数进行投票。n 0 v 1 n 1v0v0v_0ñ0n0n_0v1个v1v_1ñ1个n1n_1 这样，我可以简单地为选择一个标称值，然后根据期望的总数对所有问题进行排序。对1ñ1个n1n_1v1个v1v_1 我在SO数据转储上创建了两个查询，以更好地显示我正在谈论的效果：平均得分得分结果：平均观看次数得分（100次观看桶）结果：两个公式比较结果，不确定更直是否更好：（蓝色为，红色为） vvñvn\frac{v}{n}v升Ò 克n +1vlogn+1\frac{v}{log{n}+1}

20 data-mining predictive-models

1

远距离监督：监督，半监督或两者兼而有之？

“远距离监督”是一种学习方案，其中在给定标记较弱的训练集的情况下学习分类器（训练数据基于启发式/规则自动标记）。我认为监督学习和半监督学习都可以通过“启发式/自动标记”来标记这种“远程监督”。但是，在此页面中，“远程监督”被定义为“半监督学习”（即，仅限于“半监督”）。所以我的问题是，“远程监管”是否专门指半监管？我认为它可以应用于监督学习和半监督学习。请提供任何可靠的参考。

20 machine-learning data-mining dataset references unsupervised-learning

2

提升：为什么将学习率称为正则化参数？

所述学习率参数（在梯度）推进收缩每个新的基础模型-通常浅树形是在串联加入的贡献。它被证明可以极大地提高测试仪的精度，这是可以理解的，因为步数越小，损耗函数的最小值就可以越精确地达到。 ν∈[0,1]ν∈[0,1]\nu \in [0,1] 我不明白为什么学习率被视为正则化参数？引用统计学习的要素，第10.12.1节，第364页：控制树的数量不是唯一可能的正则化策略。与山脊回归和神经网络一样，也可以使用收缩技术。值越小（收缩率越大），对于相同数量的迭代M，导致更大的训练风险。因此，ν和M都控制训练数据的预测风险。νν\nuMMMνν\nuMMM 正则化意味着“避免过度拟合的方式”，因此很明显迭代次数在这方面至关重要（M太大会导致过度拟合）。但：MMMMMM 值越小（收缩率越大），对于相同数量的迭代M，导致更大的训练风险。νν\nuMMM 仅仅意味着在低学习率的情况下，需要更多的迭代才能在训练集上达到相同的准确性。那么，这与过度拟合有何关系？

19 machine-learning data-mining predictive-models boosting overfitting

3

数据挖掘中关联规则和决策树之间的实际区别是什么？

对这两种技术之间的实际区别是否有一个非常简单的描述？两者似乎都用于有监督的学习（尽管关联规则也可以处理无监督的学习）。两者都可以用于预测我发现最接近“良好”描述的是Statsoft教科书。他们说关联规则用于： ...检测大型数据集中分类变量的特定值之间的关系或关联。虽然决策树分类器被描述为用于： ...根据案例或对象在一个或多个预测变量上的度量来预测类别因变量类别中的成员资格。但是，在R Data Mining上，他们给出了与目标字段一起使用的关联规则的示例。因此，两者都可以用来预测组成员身份，这是决策树可以处理非分类输入数据而关联规则不能处理的关键区别吗？还是有更根本的东西？一个站点（sqlserverdatamining.com）说，主要区别在于：决策树规则基于信息获取，而关联规则基于流行度和/或置信度。因此（可能回答了我自己的问题）是否意味着纯粹根据关联规则在数据集中出现的频率（以及它们为“真”的频率）进行评估，而决策树实际上正在尝试最小化方差？如果有人知道一个好的描述，他们愿意指出我的观点，那就太好了。

19 data-mining association-rules

6

希望进入机器学习领域的程序员

我是一名软件开发人员（主要是.NET和Python大约5年的经验）。我可以做些什么来帮助我在机器学习领域找到一份工作，或者实际上有什么可以帮助我在该领域开始的？研究生学位是硬性要求吗？

19 machine-learning data-mining careers

6

数据挖掘和统计分析之间有什么区别？

数据挖掘和统计分析之间有什么区别？在某些背景下，我认为我的统计教育很传统。提出一个特定的问题，设计研究，并收集和分析数据以提供对该问题的一些见解。结果，我一直对我认为的“数据挖掘”持怀疑态度，即在大型数据集中寻找模式并使用这些模式得出结论。我倾向于将后者与数据挖掘相关联，并且一直认为这有点原则（以及诸如算法变量选择例程之类的东西）。但是，关于数据挖掘的文献越来越多。通常，我看到这个标签指的是诸如聚类，基于树的分类等特定技术。但是，至少从我的角度来看，这些技术可以在一组数据上“设置为松散”或以结构化方式用于解决题。我将前者称为数据挖掘，而将后者称为统计分析。我从事学术管理工作，被要求做一些“数据挖掘”以发现问题和机会。与我的背景相一致，我的第一个问题是：您想学习什么？您认为有助于事情发展的是什么？从他们的回答中可以明显看出，我和提出问题的人对数据挖掘的性质和价值有不同的看法。

19 data-mining terminology analysis

Questions tagged «data-mining»