统计和大数据 naive-bayes

1

朴素贝叶斯分类器是基于最大化类成员资格的后验P （C | x ）将项分配给类C的分类器，并假定项的特征是独立的。xxxCCCP(C|x)P(C|x)P(C|x) 0-1损失是指将任何未分类归类为“ 1”的损失，并将任何正确分类为“ 0”的损失。我经常读（1），“朴素贝叶斯”分类器对于0-1损失是最佳的。为什么会这样呢？（1）一个示例性来源：贝叶斯分类器和贝叶斯误差

13 machine-learning bayesian optimization naive-bayes loss-functions

3

朴素贝叶斯（Naive Bayes）功能概率：我应该对单词重复计数吗？

我正在为自己的Naive Bayes bag o'word模型制作原型，而我对计算特征概率有疑问。假设我有两个类，我将只使用垃圾邮件，而不会使用垃圾邮件，因为这是每个人都使用的。让我们以“伟哥”一词为例。我的培训集中有10封电子邮件，5封垃圾邮件和5封非垃圾邮件。“ viagra”出现在所有5个垃圾邮件文档中。在其中一份培训文档中，它出现了3次（这是我的问题是关于的），因此，垃圾邮件总数达到了7次。在非垃圾邮件训练集中，它出现1次。如果我想估计p（伟哥|垃圾邮件），是否简单： p（伟哥|垃圾邮件）= 5个包含伟哥的垃圾邮件/ 5个垃圾邮件总计= 1 换句话说，一个文件提到伟哥3次而不是一次的事实真的没有关系吗？编辑：这是一篇博客文章，作者使用了我刚才列出的方法：http : //ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/ 这是一篇博客文章，作者说：p（viagra | spam）= 7个伟哥垃圾邮件提及次数/ 8个总提及次数 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply朴素贝叶斯分类器到文档分类问题然后，下面的答案之一应该是：p（viagra | spam）=垃圾邮件中提及7个伟哥/垃圾邮件中的术语总数任何人都可以链接到对此有意见的来源吗？

12 classification conditional-probability naive-bayes

4

Logistic回归的预测概率可以解释为分类中的置信度吗

我们能否将从输出预测分类值和概率（例如，逻辑回归或朴素贝叶斯）的分类器获得的后验概率解释为分配给该预测分类值的某种置信度得分？

12 probability logistic naive-bayes

2

Akinator.com和朴素贝叶斯分类器

上下文：我是一名程序员，在单门课程的统计方面有一些（被遗忘的）经验。最近，我偶然发现了http://akinator.com，并花了一些时间尝试使其失败。谁不是？:) 我决定找出它是如何工作的。在查阅并阅读了相关的博客文章并将一些（有限的）知识添加到结果组合中之后，我想到了以下模型（我确定我会使用错误的符号，请不要为此而杀了我）：有主题（S）和问题（Q）。预测器的目的是在给定的问题和答案的情况下，选择具有最大后验概率成为用户正在考虑的主题的主题S。让游戏G为一系列问题和给出的答案：。{q1,a1},{q2,a2}...{qn,an}{q1,a1},{q2,a2}...{qn,an}\{q_1, a_1\}, \{q_2, a_2\} ... \{q_n, a_n\} 然后，预测变量正在寻找。P(S|G)=P(G|S)∗P(S)P(G)P(S|G)=P(G|S)∗P(S)P(G)P(S|G) = \frac{P(G|S) * P(S)}{P(G)} 主题的先验值（P(S)P(S)P(S)）可以是猜测主题的次数除以游戏总数。假设所有答案都是独立的，给定游戏G，我们可以计算出主题S的可能性，如下所示： P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S) = \prod_{i=1..n} P(\{q_i, a_i\} | S) 如果我们跟踪当使用了给定主题时给出了哪些问题和答案，我们可以计算：P({qi,ai}|S)P({qi,ai}|S)P(\{q_i, a_i\} | S) P(q,a|S)=answer a was given to question q in the game when S was the subjectnumber of times q was asked in the …

12 machine-learning naive-bayes

2

我可以用朴素的贝叶斯分类器预测什么样的事情？

我是统计学的初学者（仅参加了一门大学课程），但是我有编程背景。我刚刚开始使用针对Ruby的贝叶斯分类器库，并且正在寻找想法进行分析。现在，我在搞乱Tweet的分类，但是您有什么想法吗？更重要的是，我如何了解哪种数据类型适合朴素的贝叶斯分类。谢谢。

11 bayesian naive-bayes

1

哪种深度学习模型可以对不互斥的类别进行分类

示例：我的职位描述中有一句话：“英国Java高级工程师”。我想使用深度学习模型将其预测为2类：English 和IT jobs。如果我使用传统的分类模型，则只能预测softmax最后一层具有功能的标签。因此，我可以使用2个模型神经网络来预测两个类别的“是” /“否”，但是如果我们有更多类别，那就太贵了。那么，我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别？ “编辑”：使用传统方法使用3个标签，它将由[1,0,0]编码，但在我的情况下，它将由[1,1,0]或[1,1,1]编码示例：如果我们有3个标签，并且所有这些标签都适合一个句子。因此，如果softmax函数的输出为[0.45，0.35，0.2]，我们应该将其分类为3个标签或2个标签，或者可以是一个？我们这样做的主要问题是：分类为1个，2个或3个标签的最佳阈值是多少？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

朴素贝叶斯是否变得越来越受欢迎？为什么？

这是2004年1月至2017年4月从“朴素贝叶斯”短语获得的Google趋势结果（链接）。根据此数字，2017年4月“朴素贝叶斯”的搜索率比整个时间段内的最高值高出约25％。这是否意味着这种简单而古老的方法正在获得更多关注？为什么？一个合理的解释（根据Sycorax的评论）是，这种流行是对机器学习的日益关注的间接影响。但是，似乎某些方法（例如朴素贝叶斯）比其他方法（例如决策树和SVM）获得了更多关注。从下图可以清楚地看出：

9 naive-bayes trend

1

代数分类器，更多信息？

我已经阅读了代数分类器：一种用于快速交叉验证，在线训练和并行训练的通用方法，并且对派生算法的性能感到惊讶。但是，似乎除朴素贝叶斯（和GBM）之外，没有多少算法适合该框架。还有其他针对不同分类器的论文吗？（支持向量机，随机森林）

9 cross-validation references random-forest computational-statistics naive-bayes

2

计算数据的ROC曲线

因此，我进行了16次试验，试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下，只有试验1为“真阳性”： Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是，我真的不确定如何根据此数据制作ROC曲线（FPR与TPR或FAR与FRR）。哪一个都不重要，但是我只是对如何进行计算感到困惑。任何帮助，将不胜感激。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Questions tagged «naive-bayes»