统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
如何统计比较机器学习分类器的性能?
基于估计的分类准确性,我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器,我从基本集中随机选择一个训练和测试样本,训练模型并测试模型。每个分类器我都会做十次。因此,每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用?Ç 升一个小号小号我˚F我ë - [R 1C升一种ss一世F一世Ë[R1个classifier 1Ç 升一个小号小号我˚F我ë - [R 2C升一种ss一世F一世Ë[R2classifier 2

1
交叉验证泊松模型的误差度量
我正在交叉验证试图预测计数的模型。如果这是二进制分类问题,那么我将计算出不匹配的AUC,如果这是回归问题,则将计算出不匹配的RMSE或MAE。 对于Poisson模型,我可以使用哪些误差度量来评估样本外预测的“准确性”?是否存在AUC的Poisson扩展,可以查看预测对实际值的排序程度? 似乎很多Kaggle竞赛都在使用根均方根平方误差或RMLSE来进行计数(例如,一次yelp审查将获得的有用票数或患者在医院花费的天数)。 /编辑:我一直在做的一件事是计算预测值的十分之一,然后查看实际计数,并按分位数进行分组。如果十分位数1低,十分位数10高且两者之间的十分位数都在增加,则我一直将该模型称为“好”,但是我一直难以量化此过程,并且我相信会有更好的方法方法。 /编辑2:我正在寻找一个公式,该公式采用预测值和实际值并返回一些“错误”或“准确性”指标。我的计划是在交叉验证过程中根据折叠数据计算此函数,然后将其用于比较各种模型(例如,泊松回归,随机森林和GBM)。 例如,一个这样的函数是RMSE = sqrt(mean((predicted-actual)^2))。另一个这样的功能是AUC。这两个函数似乎都不适合泊松数据。

3
K折vs.蒙特卡洛交叉验证
我正在尝试学习各种交叉验证方法,主要是打算将其应用于监督的多元分析技术。我遇到的两个是K折和蒙特卡洛交叉验证技术。我读过K折是Monte Carlo的一种变体,但我不确定我是否完全理解组成Monte Carlo的定义。有人可以解释这两种方法之间的区别吗?

2
为内核密度估计器选择带宽
对于单变量内核密度估计量(KDE),我使用Silverman规则计算:HHh 0.9 分钟(小号d,我Q R / 1.34 )× n− 0.20.9分(sd,一世问[R/1.34)×ñ-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} 多元KDE(假设普通内核)的标准规则是什么?

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …


4
为什么吴安德为什么更喜欢使用SVD而不是协方差矩阵的EIG来进行PCA?
我正在从Andrew Ng的Coursera课程和其他材料中学习PCA。在斯坦福大学自然语言处理课程中,cs224n的第一次作业,以及安德鲁·伍的演讲视频(,他们进行奇异值分解而不是协方差矩阵的特征向量分解,而且吴还说SVD在数值上比特征分解更稳定。 根据我的理解,对于PCA,我们应该对(m,n)大小的数据矩阵进行SVD ,而不是对大小的协方差矩阵进行SVD (n,n)。以及协方差矩阵的特征向量分解。 为什么他们使用协方差矩阵而不是数据矩阵的SVD?

1
sklearn分类报告中的数字是什么意思?
下面是从sklearn的sklearn.metrics.classification_report文档中提取的示例。 我不明白的是,为什么我认为班级是预测变量的标签,为什么每个班级都有f1-得分,精度和召回率值?我认为f1分数可以告诉您模型的整体准确性。另外,支持专栏告诉我们什么?我找不到任何相关信息。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

2
运行glm时出现错误“系统在计算上是奇异的”
我正在使用robustbase程序包来运行glm估计。但是,当我这样做时,出现以下错误: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 这是什么意思/表示?我该如何调试呢? PS。如果您需要任何答案(公式/规格或数据),我将很乐意提供。

3
为什么分类准确度较低的AUC比准确度较高的分类器更高?
我有两个分类器 答:朴素的贝叶斯网络 B:树(单连接)贝叶斯网络 在准确性和其他度量方面,A的性能比B差。但是,当我使用R包ROCR和AUC进行ROC分析时,事实证明A的AUC高于B的AUC。这是为什么发生了什么? 真阳性(tp),假阳性(fp),假阴性(fn),真阴性(tn),敏感性(sen),特异性(spec),阳性预测值(ppv),阴性预测值(npv)和A和B的精度(acc)如下。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

4
如何测量分布的不均匀性?
我正在尝试提出一个指标,用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量,该变量在大多数情况下应均匀分布,并且我希望能够识别(并且可能测量)数据集示例,其中该变量在一定范围内不均匀分布。 三个数据系列的示例每个都有10个测量值,它们代表我正在测量的事物的发生频率,可能是这样的: a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] 我希望能够区分c之类的分布与a和b之类的分布,并测量c与均匀分布的偏差。同样,如果存在度量分布均匀性的标准(标准偏差接近零?),我也许可以用它来区分具有高方差的分布。但是,我的数据可能只有一个或两个异常值,例如上面的c示例,并且不确定是否可以通过这种方式轻松检测到。 …

2
Statistics.com是否发布了错误的答案?
Statistics.com发布了本周的问题: 居民保险欺诈率是10%(十分之一的请求是欺诈性的)。一位顾问提出了一种机器学习系统,以审查索赔并将其分类为欺诈或无欺诈。该系统在检测欺诈性索赔方面有90%的效率,但在正确分类非欺诈性索赔方面只有80%的效率(错误地将五分之一标记为“欺诈”)。如果系统将索赔分类为欺诈,那么它真的是欺诈的概率是多少? https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true 我和我的同伴都分别提出了相同的答案,但与发布的解决方案不符。 我们的解决方案: (.9 * .1)/((。9 * .1)+(。2 * .9))= 1/3 他们的解决方案: 这是条件概率中的问题。(这也是一个贝叶斯问题,但是在贝叶斯规则中应用该公式仅有助于掩盖正在发生的事情。)考虑100个索赔。10个是欺诈性的,系统会正确地将其中9个标记为“欺诈”。90个索赔将是正确的,但系统会将72(80%)错误地分类为“欺诈”。因此总共标记了81个索赔作为欺诈行为,但实际上只有9个(占11%)是欺诈行为。 谁是对的

2
SVM算法背后的统计模型是什么?
我了解到,在使用基于模型的方法处理数据时,第一步是将数据过程建模为统计模型。然后,下一步就是基于此统计模型开发有效/快速的推理/学习算法。所以我想问问支持向量机(SVM)算法背后的统计模型是什么?

3
如果两个均态分布变量的均值相差至少两倍于普通标准偏差,为什么只将它们混合在一起是双峰的?
在两个正态分布的混合下: https://zh.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions “两个正态分布的混合具有五个参数来估计:两个均值,两个方差和混合参数。两个具有标准偏差相等的正态分布的混合只有在其均值相差至少普通标准偏差两倍的情况下才是双峰的。 ”。 我正在寻找关于这为何如此的推论或直观解释。我相信可以用两个样本t检验的形式来解释它: μ1−μ2σpμ1−μ2σp\frac{\mu_1-\mu_2}{\sigma_p} 其中是合并的标准偏差。σpσp\sigma_p
28 bimodal 

4
外推v。内插
外推法和内插法有什么区别,使用这些术语的最精确方法是什么? 例如,我在论文中看到了一个使用插值的语句: “该过程在bin点之间插入估计函数的形状” 同时使用外推法和内插法的句子例如: 在上一步中,我们使用内核方法将内插函数外推到左侧和右侧的温度尾部。 有人可以提供一种清晰易用的方法来区分它们,并通过示例指导如何正确使用这些术语吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.