Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
交叉验证中的均值(分数)vs分数(串联)
TLDR: 我的数据集很小(120个)样本。在进行10倍交叉验证时,我应该: 收集每个测试折叠的输出,将它们连接成一个向量,然后在这个完整的预测向量(120个样本)上计算误差? 或者我应该代替计算上的输出我得到的错误的一个折(每个折痕12个样本),然后让我最终误差估计为平均10点的误差估计? 是否有任何科学论文争论这些技术之间的差异? 背景:多标签分类中与宏观/微观得分的潜在关系: 我认为这个问题可能与micro和Macro之间的差异有关经常在多标签分类任务(例如说5个标签)中使用的平均值平均值。 在多标签设置时,微平均得分是通过使计算的聚集对120个样本的所有5个分类器预测真阳性,假阳性,真阴性,假阴性权变表,。然后,该列联表用于计算微观精度,微观召回率和微观f测度。因此,当我们有120个样本和5个分类器时,将根据600个预测(120个样本* 5个标签)计算出微观指标。 使用Macro变体时,每个标签独立计算度量(精度,召回率等),最后将这些度量平均。 微观估算与宏观估算之间的差异背后的思想可能会扩展到二进制分类问题中以K倍设置可以完成的工作。对于10倍,我们可以对10个值进行平均(宏观测量),也可以将10个实验连接起来并计算微观措施。 背景-扩展示例: 以下示例说明了该问题。假设我们有12个测试样本,并且有10折: 折1:TP = 4,FP = 0,TN = 8 精度 = 1.0 折2:TP = 4,FP = 0,TN = 8 精度 = 1.0 折3:TP = 4,FP = 0,TN = 8 精度 = 1.0 折4:TP = 0,FP = 12, 精度 = …

2
通过掷硬币来组合分类器
我正在学习机器学习课程,并且讲义幻灯片包含的信息与我推荐的书不符。 问题如下:存在三个分类器: 分类器A在较低的阈值范围内提供更好的性能, 分类器B在较高的阈值范围内提供更好的性能, 分类器C我们通过翻转p硬币并从两个分类器中进行选择来获得什么。 从ROC曲线上看,分类器C的性能如何? 演讲幻灯片指出,只需翻转硬币,我们就可以得到分类器A和B的ROC曲线的神奇“ 凸包 ”。 我不明白这一点。仅仅通过掷硬币,我们如何获得信息? 演讲幻灯片 这本书怎么说 推荐的书(《数据挖掘...》,作者:伊恩·H·威腾(Ian H. Witten),艾比·弗兰克(Eibe Frank)和马克·A。另一方面,)指出: 要看到这一点,请为方法A选择一个特定的概率临界值,分别给出真实的和错误的正比率tA和fA,为方法B选择另一个临界值,给出tB和fB。如果您以概率p和q随机使用这两种方案,其中p + q = 1,那么您将获得p的真假率。tA + q tB和p。fA + q fB。这表示位于连接点(tA,fA)和(tB,fB)的直线上的点,并且通过改变p和q可以找出这两个点之间的整条线。 以我的理解,这本书所说的是要真正获得信息并到达凸包,我们需要做的事情比简单地抛掷p硬币还要先进。 AFAIK,正确的方法(如书中所建议的)如下: 我们应该找到分类器A的最佳阈值Oa 我们应该找到分类器B的最佳阈值Ob 将C定义如下: 如果t <Oa,则将分类器A与t一起使用 如果t> Ob,则将分类器B与t一起使用 如果Oa <t <Ob,则用概率作为我们在Oa和Ob之间的线性组合,在带Oa的分类器A和带Ob的B之间进行选择。 它是否正确?如果是,则与幻灯片建议的内容有一些主要差异。 这不是简单的掷硬币,而是一种更高级的算法,该算法需要根据我们所处的区域手动定义点和拾取。 它永远不会使用阈值介于Oa和Ob之间的分类器A和B。 你能给我解释一下这个问题,什么是正确的理解方式,如果我的理解是不正确的? 如果我们像幻灯片所示那样简单地翻转p硬币,将会发生什么?我认为我们会得到一个介于A和B之间的ROC曲线,但是在给定的点上永远不会比更好的ROC曲线“更好”。 据我所知,我真的不理解幻灯片的正确性。左侧的概率计算对我来说没有意义。 更新: 找到了发明凸包方法的原始作者写的文章:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf

4
高脂肪数据分类
我需要在笔记本电脑上训练带有数十万个数据点和约一万个功能的线性分类器。我有什么选择?这种问题的最新状态是什么? 似乎随机梯度下降是有前途的方向,我的感觉是这是最新技术: “ Pegasos:SVM的原始估计次GrAdient求解器”,Shai Shalev-Shwartz,Yoram Singer,Nathan Srebro,Andrew Cotter。“数学编程,系列B,127(1):3-30,年份:2007。”。 这是共识吗?我应该朝其他方向看吗?

2
功能数量的增加会导致准确性下降,但prec / recall会增加
我是机器学习的新手。目前,我正在使用Naive Bayes(NB)分类器,通过NLTK和python将小文本分为正,负或中性3类。 在进行了一些测试之后,使用由300,000个实例(16,924个正值,7,477个负值和275,599个中性值)组成的数据集,我发现当我增加特征数量时,精度下降,但是正负类的精度/召回率却上升。这是NB分类器的正常行为吗?我们可以说使用更多功能会更好吗? 一些数据: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 F_Measure Class Neutral 0.904684 F_Measure Class Positive 0.223353 F_Measure Class Negative 0.134942 提前致谢... 编辑2011/11/26 我已经使用朴素贝叶斯分类器测试了3种不同的特征选择策略(MAXFREQ,FREQENT,MAXINFOGAIN)。首先是每类的准确性和F1度量: 然后,在将MAXINFOGAIN与前100个和前1000个功能一起使用时,我用增量训练集绘制了火车误差和测试误差: 因此,在我看来,尽管使用FREQENT可以获得最高的准确性,但是最好的分类器是使用MAXINFOGAIN的分类器,对吗?吗?使用前100个功能时,我们会产生偏差(测试错误接近训练错误),添加更多训练示例将无济于事。为了改善这一点,我们将需要更多功能。具有1000个功能,偏差会减少,但误差会增加...这样可以吗?我是否需要添加更多功能?我真的不知道该怎么解释... 再次感谢...

5
有什么好资源可以比较不同分类器的优缺点?
最好的现成2类分类器是什么?是的,我想这是一百万美元的问题,是的,我知道没有免费的午餐定理,而且我还阅读了前面的问题: 什么是最适合您的应用程序的现成2类分类器? 和最差的分类 不过,我仍然有兴趣阅读有关该主题的更多信息。 什么是良好的信息来源,包括对不同分类器的特征,优势和特征的一般比较?

4
时间序列的统计相似性
假设一个人有一个时间序列,从中可以进行各种测量,例如周期,最大值,最小值,平均值等,然后使用它们来创建具有相同属性的模型正弦波,是否可以使用任何可以量化的统计方法实际数据与假设模型的拟合程度如何?该系列中的数据点数量将在10到50点之间。 我的一个非常简单的第一个想法是为正弦波的定向运动赋予一个值,即+1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 +1,对实际数据进行相同处理,然后以某种方式量化方向运动的相似度。 编辑:在考虑了我真正想对数据做些什么之后,并根据对原始问题的回答,我需要的是一种决策算法,可以在相互竞争的假设之间进行选择:即我的数据基本上是线性的(或趋势)带有可能包含循环元素的噪声;我的数据基本上是周期性的,没有方向性可言。数据本质上只是噪声;或正在这些状态之间转换。 我现在的想法是将贝叶斯分析和欧几里德/ LMS度量结合起来。这种方法的步骤将是 根据数据测量创建假定的正弦波 使LMS直线适合数据 推导一个欧几里德或LMS度量标准,以与上述各项的原始数据产生偏差 根据此指标为每个指标创建一个贝叶斯先验,即60%的合并偏离附加到一个,40%附加到另一个,因此有利于40% 沿数据滑动一个数据点并重复上述操作,以获取此稍有变化的数据集的新%指标-这是新证据-做贝叶斯分析以创建后验并更改有利于每个假设的概率 使用此滑动窗口(窗口长度为10-50个数据点)在整个数据集(3000个以上的数据点)中重复。希望/意图是确定数据集中任何时候的主要/偏爱的假设以及这种假设随时间的变化 对于这种潜在方法的任何评论都将受到欢迎,尤其是在如何实际实施贝叶斯分析部分方面。


2
神经网络与其他一切
我没有从google找到满意的答案。 当然,如果我拥有的数据量达到数百万,那么深度学习就是一种方法。 我已经读到,当我没有大数据时,也许最好在机器学习中使用其他方法。给出的原因是过度拟合。机器学习:即查看数据,特征提取,从收集的内容中构建新特征等。例如删除高度相关的变量等。整个机器学习9码。 我一直想知道:为什么具有一层隐藏层的神经网络不是解决机器学习问题的灵丹妙药?它们是通用估计器,可以通过辍学,l2正则化,l1正则化,批归一化来管理过度拟合。如果我们只有50,000个培训示例,那么培训速度通常不会成为问题。在测试时,它们比随机森林要好。 那么为什么不呢?-像通常那样清理数据,估算缺失值,将数据居中,标准化数据,将其扔到具有一个隐藏层的神经网络集合中并应用正则化,直到看不到过度拟合为止,然后进行训练他们到最后。梯度爆炸或梯度消失是没有问题的,因为它只是2层网络。如果需要较深的层,则意味着要学习分层功能,然后其他机器学习算法也不好。例如,SVM是仅具有铰链损耗的神经网络。 一个示例,其中其他一些机器学习算法的性能将超过经过精心调整的2层(也许是3?)神经网络。您可以给我链接到问题,然后我将训练最好的神经网络,我们可以看到2层或3层神经网络是否低于其他任何基准机器学习算法。

3
支持向量机和超平面的直觉
在我的项目中,我想创建一个逻辑回归模型来预测二进制分类(1或0)。 我有15个变量,其中2个是分类变量,其余的则是连续变量和离散变量的混合。 为了适应逻辑回归模型,建议我使用SVM,感知器或线性编程检查线性可分离性。这与此处提出的有关线性可分离性测试的建议有关。 作为机器学习的新手,我了解上述算法的基本概念,但从概念上讲,我很难想象如何分离具有多个维度(例如15个)的数据。 在线资料中的所有示例通常都显示两个数值变量(高度,重量)的二维图,这些二维变量在类别之间显示出明显的差距,并且易于理解,但在现实世界中,数据通常具有更高的维度。我一直被虹膜数据集吸引,试图通过这三个物种拟合一个超平面,以及如何在两个物种之间做到这一点特别困难,即使不是不可能,这两个类现在也让我无法幸免。 当我们具有更高的维数时,如何假设当我们超过一定数量的特征时,我们使用内核映射到更高的维空间以实现这种可分离性,这是怎么实现的? 同样为了测试线性可分离性,使用的度量标准是什么?是SVM模型的准确性,即基于混淆矩阵的准确性吗? 任何有助于更好地理解该主题的帮助将不胜感激。下面也是我的数据集中两个变量的图的样本,它显示了这两个变量的重叠程度。

3
对于线性分类器,更大的系数是否意味着更重要的特征?
我是从事机器学习的软件工程师。根据我的理解,线性回归(例如OLS)和 线性分类(例如对数回归和SVM)基于已训练系数 和特征变量→ x之间的内积进行预测:w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 我的问题是:训练模型后(即在计算系数之后),对于对于模型更准确地预测更重要的特征变量,系数是否会变大?wiwiw_i 换句话说,我想问的是,仅通过按系数值对变量排序,然后选择系数最高的特征,是否可以将系数的相对大小用于特征选择?如果此方法有效,那么为什么不选择功能(以及包装器和过滤器方法等)。 我之所以这样问,是因为我遇到了关于L1与L2正则化的讨论。有一个说明说: 经常提到内置特征选择是L1规范的有用属性,而L2规范则没有。这实际上是L1范数的结果,它倾向于产生稀疏系数(如下所述)。假设该模型有100个系数,但其中只有10个具有非零系数,这实际上是在说“其他90个预测变量对预测目标值无用”。 在两行之间阅读时,我猜想如果系数接近0,则具有该系数的特征变量的预测力必须很小。 编辑:我也将z缩放应用于我的数字变量。

2
报告随机森林的训练错误有哪些措施?
我目前正在使用randomForestR中的程序包为分类问题拟合随机森林,并且不确定如何报告这些模型的训练错误。 当我使用通过命令获得的预测来计算时,我的训练误差接近0%: predict(model, data=X_train) X_train训练数据在哪里。 在回答一个相关问题时,我读到一个人应该使用袋外(OOB)训练误差作为随机森林的训练误差度量。该数量是通过使用以下命令获得的预测计算得出的: predict(model) 在这种情况下,OOB训练误差非常接近平均10-CV测试误差,即11%。 我想知道: 报告OOB训练错误作为随机森林的训练错误度量通常被接受吗? 传统的训练误差测量值人为地低是真的吗? 如果传统的训练误差度量是人为地降低的,那么我可以比较哪两个度量来检查RF是否过拟合?


5
哪种统计分类算法可以预测输入序列的正确/错误?
给定一个输入序列,我需要确定此序列是否具有某些所需的属性。该属性只能为true或false,也就是说,一个序列只能属于两个可能的类。 序列与属性之间的确切关系尚不清楚,但我认为它是非常一致的,应该将其用于统计分类。我可能会在很多情况下对分类器进行训练,尽管这可能会有点嘈杂,但从某种意义上来说,在此训练集中,序列被分配了错误的类别的可能性很小。 训练数据示例: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... 粗略地说,属性由序列中的一组值(例如,出现“ 11”表示该属性几乎肯定为假)以及值的顺序(例如,“ 21 7 5 ”会大大增加该属性为真的机会)。 训练后,我应该能够给分类器一个以前看不见的序列,例如(1 21 7 5 3),它应该输出对属性为true的信心。是否存在用于使用这种输入/输出训练分类器的著名算法? …

2
精确召回曲线中的“基线”是什么
我试图了解精度召回曲线,了解什么是精度和召回率,但我不了解的是“基准”值。我正在阅读此链接 https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ 并且我不理解“完美分类器的精确召回曲线”中显示的基线部分,它有什么作用?以及如何计算呢?我们选择的仅仅是基线吗?例如,我有具有诸如retweet,status_countetc之类的属性的twitter数据,Favorited如果被收藏,我的班级标签为1,如果未被收藏,我的班级标签为0,我在其上应用了朴素贝叶斯,现在我想绘制精确调用曲线,在这种情况下应如何设置基线?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.