统计和大数据 naive-bayes

3

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

了解朴素贝叶斯

来自StatSoft，Inc.（2013），电子统计教科书，“朴素贝叶斯分类器”：为了演示朴素贝叶斯分类的概念，请考虑上图中显示的示例。如图所示，对象可以分类为绿色或红色。我的任务是在新案例到达时对其进行分类，即根据当前存在的对象确定它们所属的类别标签。由于GREEN对象的数量是RED的两倍，因此有理由相信，新案例（尚未发现）具有成员资格GREEN的可能性是RED的两倍。在贝叶斯分析中，此信念称为先验概率。先前概率基于先前的经验，在本例中为GREEN和RED对象的百分比，通常用于预测结果实际发生的时间。因此，我们可以这样写：由于总共有60个对象，其中40个是GREEN和20 RED，因此我们获得类成员资格的先验概率为：在确定了先验概率之后，我们现在就可以对新对象进行分类（白色圆圈）。由于对象很好地聚集在一起，因此可以合理地假设X附近的绿色（或红色）对象越多，则新案例属于该特定颜色的可能性就越大。为了测量这种可能性，我们在X周围画了一个圆，该圆包含与点的类别标签无关的多个点（将被优先选择）。然后，我们计算属于每个类标签的圆圈中的点数。由此我们计算出可能性：从上面的插图中可以明显看出，给定GREEN的X的似然性小于给定RED的X的似然性，因为该圆包含1个GREEN对象和3个RED对象。从而：尽管先验概率表明X可能属于GREEN（假设GREEN的数量是RED的两倍），但可能性则相反；X的类成员资格是RED（假设X附近的RED对象比GREEN多）。在贝叶斯分析中，通过使用所谓的贝叶斯规则（以托马斯·贝叶斯（Bayes）1702-1761牧师命名），将信息的两个来源（即先验概率和可能性）组合在一起形成后验概率，从而产生最终分类。最后，由于X的类成员资格具有最大的后验概率，因此我们将其分类为RED。这就是我数学理解的困难所在。 p（Cj | x1，x2，x ...，xd）是类成员资格的后验概率，即X属于Cj的概率，但为什么这样写呢？计算可能性？后验概率？我从来没有上过数学，但是我对朴素贝叶斯的理解很好，我认为就这些分解方法而言，这让我感到困惑。有人可以帮助可视化这些方法以及如何以一种易于理解的方式将数学写出来吗？

47 machine-learning naive-bayes

3

为什么朴素的贝叶斯分类器表现如此出色？

朴素贝叶斯分类器是分类问题的流行选择。造成这种情况的原因很多，包括： “ Zeitgeist”-大约十年前垃圾邮件过滤器成功之后，人们的广泛意识容易写分类器模型可以快速建立可以使用新的训练数据修改模型，而无需重建模型但是，它们是“幼稚的”（即它们假定特征是独立的），这与其他分类器（例如最大熵分类器）（计算速度较慢）形成对比。通常不能假定独立性假设，并且在很多（大多数）情况下，包括垃圾邮件过滤器示例，这都是错误的。那么，即使这些功能不是彼此独立的，为什么朴素贝叶斯分类器在这些应用程序中仍然表现出色？

38 classification naive-bayes

3

天真贝叶斯如何成为线性分类器？

我在这里看到了另一个主题，但我认为答案不能满足实际问题。我一直读到的是，朴素贝叶斯是使用对数赔率演示的线性分类器（例如：here）（它绘制了线性决策边界）。但是，我模拟了两个高斯云并拟合了决策边界，并得到了这样的结果（r中的库e1071，使用naiveBayes（））如我们所见，决策边界是非线性的。是否要说参数（条件概率）是对数空间中的线性组合，而不是说分类器本身是线性地分离数据？

31 classification naive-bayes

2

朴素贝叶斯与多项式朴素贝叶斯之间的区别

我之前已经处理过朴素贝叶斯分类器。我最近一直在阅读有关朴素贝叶斯的多项式。也后验概率=（现有*似然）/（证据）。我发现朴素贝叶斯与多项式朴素贝叶斯之间的唯一主要区别（在对这些分类器进行编程时）是多项式朴素贝叶斯计算似然度是单词/令牌（随机变量）的计数，朴素贝叶斯计算似然度如下：如果我错了纠正我！

29 bayesian classification text-mining naive-bayes

7

在朴素贝叶斯（Naive Bayes）中，当我们在测试集中有未知单词时，为什么还要打扰Laplace平滑？

我今天正在阅读朴素贝叶斯分类法。我在Parameter Estimation的标题下加上了1 smoothing进行了阅读：令指代一个类（例如正或负），而令指代一个标记或单词。cccwww 用于最大似然估计是P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. 这种估计可能会产生问题，因为它会使单词未知的文档的概率为。解决此问题的常用方法是使用拉普拉斯平滑。P(w|c)P(w|c)P(w|c)000 令V为训练集中的单词集合，向单词集合添加一个新元素（未知）。UNKUNKUNK 定义P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1}, 其中表示词汇表（训练集中的单词）。VVV 特别是，任何未知单词的概率都为 1count(c)+|V|+1.1count(c)+|V|+1.\frac{1}{\text{count}(c) + |V| + 1}. 我的问题是：为什么我们要完全不理会Laplace平滑处理？如果我们在测试集中遇到的这些未知单词的概率显然几乎为零，即，将它们包括在模型中有什么意义？为什么不忽略它们并删除它们呢？ …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

3

机器学习预测班级概率

我正在寻找可输出示例属于两个类之一的概率的分类器。我知道逻辑回归和朴素的贝叶斯，但是您能告诉我其他类似的工作方式吗？也就是说，分类器不是预测示例所属的类，而是预测示例适合特定类的概率吗？您可以分享关于这些不同分类器（包括逻辑回归和朴素贝叶斯）的优缺点的任何想法的加分。例如，对于多类别分类是否有更好的选择？

20 machine-learning probability logistic classification naive-bayes

1

朴素贝叶斯何时比SVM表现更好？

在我正在研究的一个小型文本分类问题中，朴素贝叶斯（Naive Bayes）表现出与SVM相似或更高的性能，我感到非常困惑。我想知道是什么因素决定一种算法胜过另一种算法。是否存在没有必要在SVM上使用朴素贝叶斯的情况？有人可以阐明这一点吗？

17 machine-learning classification svm naive-bayes

3

除了SVM之外，哪些算法需要功能缩放？

我正在使用许多算法：RandomForest，DecisionTrees，NaiveBayes，SVM（内核=线性和rbf），KNN，LDA和XGBoost。除了SVM之外，所有其他功能都非常快。那就是当我知道它需要功能缩放以更快地工作时。然后，我开始怀疑是否应该对其他算法执行相同的操作。

17 machine-learning svm random-forest naive-bayes xgboost

3

在Kneser-Ney平滑中，如何处理看不见的单词？

从我所看到的，（二阶）Kneser-Ney平滑公式在某种程度上给定为 P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 归一化因子为λ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} 和单词w_n的延续概率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} 其中N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)是在以下单词中看到的上下文数www，或更简单地，是在给定单词w之前的不同单词\ bullet的数量。据我了解，该公式可以递归应用。∙∙\bulletwww 现在，对于不同的n-gram长度，此方法可以很好地处理未知上下文中的已知单词，但是无法解释的是当词典单词超出单词时该怎么办。我尝试按照此示例进行说明，该示例指出在unigram的递归步骤中，Pcont(/)=P0KN(/)=1VPcont(/)=PKN0(/)=1VP_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}。然后，文档使用这两个引号Chen和Goodman来证明上述公式为P1KN(w)=Pcont(w)PKN1(w)=Pcont(w)P^1_{KN}(w) = P_{cont}(w)。 …

15 machine-learning natural-language naive-bayes smoothing language-models

3

为什么没人使用贝叶斯多项式朴素贝叶斯分类器？

因此，在（无监督的）文本建模中，潜在狄利克雷分配（LDA）是概率潜在语义分析（PLSA）的贝叶斯版本。本质上，LDA = PLSA + Dirichlet优先于其参数。我的理解是，LDA现在是参考算法，并以各种程序包实现，而PLSA不再使用。但是在（监督）文本分类中，我们可以对多项式朴素贝叶斯分类器执行完全相同的操作，并将Dirichlet放在参数之前。但是我认为我从未见过有人这样做，并且多项朴素贝叶斯的“点估计”版本似乎是大多数软件包中实现的版本。有什么理由吗？

15 bayesian multinomial prior naive-bayes dirichlet-distribution

2

功能数量的增加会导致准确性下降，但prec / recall会增加

我是机器学习的新手。目前，我正在使用Naive Bayes（NB）分类器，通过NLTK和python将小文本分为正，负或中性3类。在进行了一些测试之后，使用由300,000个实例（16,924个正值，7,477个负值和275,599个中性值）组成的数据集，我发现当我增加特征数量时，精度下降，但是正负类的精度/召回率却上升。这是NB分类器的正常行为吗？我们可以说使用更多功能会更好吗？一些数据： Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 F_Measure Class Neutral 0.904684 F_Measure Class Positive 0.223353 F_Measure Class Negative 0.134942 提前致谢... 编辑2011/11/26 我已经使用朴素贝叶斯分类器测试了3种不同的特征选择策略（MAXFREQ，FREQENT，MAXINFOGAIN）。首先是每类的准确性和F1度量：然后，在将MAXINFOGAIN与前100个和前1000个功能一起使用时，我用增量训练集绘制了火车误差和测试误差：因此，在我看来，尽管使用FREQENT可以获得最高的准确性，但是最好的分类器是使用MAXINFOGAIN的分类器，对吗？吗？使用前100个功能时，我们会产生偏差（测试错误接近训练错误），添加更多训练示例将无济于事。为了改善这一点，我们将需要更多功能。具有1000个功能，偏差会减少，但误差会增加...这样可以吗？我是否需要添加更多功能？我真的不知道该怎么解释... 再次感谢...

15 machine-learning classification naive-bayes precision-recall

5

一类文字怎么做分类？

我必须处理文本分类问题。Web搜寻器搜寻特定域的网页，对于每个网页，我都想找出它是否仅属于一个特定类别。也就是说，如果我将此类称为Positive，则每个已抓取的网页都属于Positive类或Non-Positive类。我已经有大量关于正面课程的培训网页。但是，如何为非阳性课程创建尽可能具有代表性的训练集呢？我的意思是，我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于正类的任意页面吗？我确定文本分类算法的性能（我更喜欢使用朴素贝叶斯算法）在很大程度上取决于我为非正类选择的网页。那我该怎么办？有人可以给我个建议吗？非常感谢你！

14 classification text-mining naive-bayes binary-data

2

朴素贝叶斯如何处理连续变量？

就我（非常基础）的理解而言，朴素贝叶斯根据训练数据中每个要素的类频率来估计概率。但是，它如何计算连续变量的频率？在进行预测时，如何对可能与训练集中的任何观测值不相同的新观测值进行分类？它使用某种距离测量还是找到1NN？

14 machine-learning classification bayesian naive-bayes

3

在朴素贝叶斯中如何使用log-sum-exp技巧的示例

我已经在很多地方（例如here和here）阅读了有关log-sum-exp技巧，但从未见过将其专门应用于Naive Bayes分类器的示例（例如，具有离散功能和两个类）使用该技巧如何完全避免数字下溢的问题？

14 naive-bayes underflow

Questions tagged «naive-bayes»