数据科学 classification

3

我将对非结构化文本文档进行分类，即结构未知的网站。我要分类的课程数量有限（目前，我相信不超过三个）。有人对我的入门提出建议吗？在这里“言语袋”方法可行吗？后来，我可以基于文档结构（也许是决策树）添加另一个分类阶段。我对Mahout和Hadoop有点熟悉，所以我更喜欢基于Java的解决方案。如果需要，我可以切换到Scala和/或Spark引擎（ML库）。

12 machine-learning classification text-mining beginner

2

表情符号的情绪数据

为了进行实验，我们希望将嵌入许多推文中的Emoji用作基本事实/训练数据，以便进行简单的定量分析。推文通常过于结构化，NLP无法正常工作。无论如何，Unicode 6.0中有722个表情符号，Unicode 7.0中可能还会添加250个表情符号。是否有一个数据库（例如SentiWordNet）包含针对它们的情感注释？（请注意，SentiWordNet的确也允许模棱两可的含义。考虑一下例如funny，这不仅是肯定的：“这听起来很有趣”可能不是肯定的…… ;-)例如，同样适用。但是我不认为这更难表情符号比普通单词更适合...）另外，如果您有使用它们进行情感分析的经验，我很想听听。

12 machine-learning classification parsing

3

在不同样本量下测量不同分类器的性能

我目前正在对从文本中提取的各种实体使用几种不同的分类器，并将精度/召回率用作总结每个单独的分类器在给定数据集中的表现的摘要。我想知道是否存在一种有意义的方式来以类似方式比较这些分类器的性能，但是该方法还考虑了要分类的测试数据中每个实体的总数？目前，我正在使用精度/召回率作为性能指标，因此可能会有类似以下内容： Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% 但是，我正在运行这些数据集的数据集中可能包含10万员工，5000家公司，500种奶酪和1个鸡蛋。那么，我是否可以在上表中添加一个汇总统计信息，其中还考虑了每个项目的总数？还是有某种方法可以衡量一个事实，例如，仅使用一个数据项，Egg分类器上的100％prec / rec可能就没有意义？假设我们有数百个这样的分类器，我想我正在寻找一种很好的方法来回答诸如“哪些分类器表现不佳？哪些分类器缺乏足够的测试数据来判断它们是否表现不佳？”之类的问题。

12 classification performance

1

全局压缩方法和通用压缩方法有什么区别？

我知道压缩方法可以分为两个主要组：全球本地第一组工作与所处理的数据无关，也就是说，它们不依赖于数据的任何特征，因此不需要在数据集的任何部分上执行任何预处理（在压缩本身之前）。另一方面，局部方法分析数据，提取通常可以提高压缩率的信息。在阅读其中一些方法时，我注意到一元方法不是通用方法，这使我感到惊讶，因为我认为“全局性”和“通用性”是同一件事。一元方法不依赖数据的特性来产生其编码（即，它是一种全局方法），因此它应该是全局/通用的，不是吗？我的主要问题：通用方法和全局方法有什么区别？这些分类不是同义词吗？

12 classification algorithms encoding

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

如何计算VC尺寸？

我正在研究机器学习，我想知道如何计算VC维度。例如： h(x)={10if a≤x≤belse H（X）={1个如果一个≤X≤b0其他 h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ，使用的参数。(a,b)∈R2（一个，b）∈[R2(a,b) ∈ R^2 VC尺寸是多少？

12 machine-learning classification vc-theory

4

Occam的Razor原理如何在机器学习中发挥作用

图片中显示的以下问题是最近一次考试中提出的。我不确定我是否正确理解了Occam的剃刀原理。根据问题中给出的分布和决策边界，并遵循Occam的剃刀，两种情况下的决策边界B都应作为答案。因为根据Occam的Razor，选择比较简单的分类器而不是复杂的分类器即可胜任。有人可以证明我的理解是正确的，选择的答案是否合适？请帮忙，因为我只是机器学习的初学者

11 machine-learning classification

3

是否有适用于python的好的即用型语言模型？

我正在为一个应用程序制作原型，我需要一个语言模型来计算一些生成的句子的困惑度。我可以随时使用经过训练的python语言模型吗？简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架，但找不到我想要的。我知道我可以使用类似： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布，但是我正在一些大型数据集（例如1b单词数据集）上寻找精心设计的模型。我可以真正相信一般领域的结果（不仅是新闻）

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

使用训练有素的CNN分类器并将其应用于其他图像数据集

你会如何优化一个预先训练 neural network将它应用到一个单独的问题？您是否将更多层添加到预训练模型中并在数据集上进行测试？例如，如果任务是使用CNN对墙纸组进行分类，那么我敢肯定，即使是猫和狗的图像分类器，也无法直接对经过图像猫和狗训练的预训练网络进行分类。

11 neural-network deep-learning classification convnet

2

我们什么时候说数据集不可分类？

我已经多次分析过一个数据集，在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器，我通常使用以下步骤：根据数值生成标签的箱形图。将维数减少到2或3，以查看类是否可分离，有时也尝试使用LDA。强制尝试适合SVM和随机森林，并查看特征的重要性，以查看特征是否有意义。尝试更改类和欠采样和过采样等技术的平衡，以检查类不平衡是否可能成为问题。我可以想到很多其他方法，但是还没有尝试过。有时我知道这些功能不好，并且与我们试图预测的标签完全无关。然后，我根据业务直觉结束练习，得出结论，我们需要更好的功能或完全不同的标签。我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法，然后查看验证指标是最佳选择？

11 machine-learning classification deep-learning class-imbalance bayes-error

2

使用卷积神经网络进行文档分类

我正在尝试使用CNN（卷积神经网络）对文档进行分类。短文本/句子的CNN已在许多论文中进行了研究。但是，似乎没有论文将CNN用于长文本或文档。我的问题是文档中的功能太多。在我的数据集中，每个文档都有1000多个标记/单词。为了将每个示例提供给CNN，我使用word2vec或手套将每个文档转换成矩阵，从而得到一个大矩阵。对于每个矩阵，高度是文档的长度，宽度是单词嵌入矢量的大小。我的数据集有9000多个示例，并且训练网络需要花费大量时间（整整一周），这使得难以微调参数。另一种特征提取方法是对每个单词使用一个热向量，但这会创建非常稀疏的矩阵。当然，这种方法比以前的方法花费更多的时间进行训练。那么，有没有一种在不创建大型输入矩阵的情况下提取特征的更好方法？以及如何处理可变长度的文件？当前，我添加了特殊字符串以使文档具有相同的长度，但是我认为这不是一个很好的解决方案。

11 classification neural-network text-mining convnet word2vec

3

班级不平衡-如何最大程度地减少误报？

我有一个具有二进制类属性的数据集。有623个类别为+1的实例（癌症阳性）和101,671个实例为-1的实例（癌症阴性）。我尝试了各种算法（朴素贝叶斯，随机森林，AODE，C4.5），并且所有算法都有不可接受的假负比率。随机森林具有最高的总体预测准确度（99.5％）和最低的假阴性率，但仍错过了79％的阳性分类（即未能检测到79％的恶性肿瘤）。有什么想法可以改善这种情况吗？谢谢！

11 classification random-forest decision-trees unbalanced-classes

3

仅使用正数和未标记的数据构建二进制分类器

我有2个数据集，一个具有要检测的阳性实例，另一个具有未标记的实例。我可以使用哪些方法？作为示例，假设我们想了解基于一些结构化电子邮件特征的检测垃圾邮件。我们有10000个垃圾邮件的数据集，还有一个100000电子邮件的数据集，而我们不知道它们是否为垃圾邮件。我们如何解决这个问题（不手动标记任何未标记的数据）？如果我们有关于垃圾邮件在未标记数据中所占比例的其他信息，该怎么办（即，如果我们估计100000未标记电子邮件中有20-40％是垃圾邮件，该怎么办）？

11 classification semi-supervised-learning

4

生成分类规则的算法

因此，我们有潜力将一种机器学习应用程序很好地适合分类器所解决的传统问题领域，即，我们拥有一组属性，这些属性描述了最终出现的项目和“存储桶”。但是，不是创建模型对于诸如朴素贝叶斯（Naive Bayes）或类似分类器之类的概率，我们希望我们的输出是一组大致人类可读的规则，可由最终用户查看和修改。关联规则学习看起来像解决这类问题的算法家族，但是这些算法似乎专注于识别功能的常见组合，并且不包括这些功能可能指向的最终存储桶的概念。例如，我们的数据集如下所示： Item A { 4-door, small, steel } => { sedan } Item B { 2-door, big, steel } => { truck } Item C { 2-door, small, steel } => { coupe } 我只想要说“如果大而有两扇门，那是一辆卡车”的规则，而不是说“如果是四成之门也很小”的规则。我可以想到的一种解决方法是，仅使用关联规则学习算法，而忽略不涉及结束存储桶的规则，但这似乎有些hacker。我是否错过了一些算法系列？还是我一开始就错误地解决了这个问题？

11 machine-learning classification

3

在多党系统中使用什么回归来计算选举结果？

我想对议会选举的结果作出预测。我的输出将是每一方收到的百分比。有超过2个参与方，因此逻辑回归不是可行的选择。我可以为每个参与方进行单独的回归，但在那种情况下，结果将在某种程度上彼此独立。它不能确保结果的总和为100％。我应该使用哪种回归（或其他方法）？是否可以通过特定的库在R或Python中使用此方法？

11 classification r python regression predictive-modeling

Questions tagged «classification»