Questions tagged «model-evaluation»

在评估模型时,无论是样本内还是样本外。

1
使用训练和测试集评估回归模型的性能?
我经常听到有关通过提供测试集并在训练集上训练模型来评估分类模型的性能的信息。然后创建2个向量,一个用于预测值,一个用于真实值。显然,进行比较可以使人们使用F-Score,Kappa统计,Precision&Recall,ROC曲线等工具通过其预测能力来判断模型的性能。 这与评估诸如回归之类的数字预测相比有何不同?我假设您可以在训练集上训练回归模型,使用它来预测值,然后将这些预测值与测试集中的真实值进行比较。显然,性能指标必须有所不同,因为这不是分类任务。通常的残差和统计量是明显的量度,但是是否有更多/更好的方法来评估回归模型的性能?分类似乎有很多选择,但是回归留给和残差。R2R2R^2R2R2R^2

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何使用统计显着性比较两个不同模型的准确性
我正在研究时间序列预测。我有两个数据集和。我有三个预测模型:。使用数据集样本训练所有这些模型,并使用数据集的样本测量其性能。假设性能指标是MSE(或其他任何指标)。在针对数据集进行测量时,这些模型的MSE为和。如何测试一种模型相对于另一种模型的改进具有统计学意义。D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 例如,假设,,,并且基于数据集计算这些MSE 的样本总数为2000。如何测试,和有显着差异。如果有人可以帮助我解决这个问题,我将不胜感激。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

3
从庞大的数据集中学习的方法?
基本上,有两种学习大型数据集的常用方法(当您面临时间/空间限制时): 作弊:)-仅使用“可管理”子集进行训练。由于收益递减规律,准确性的损失可以忽略不计-模型的预测性能通常在将所有训练数据纳入模型之前就已经趋于平缓。 并行计算-将问题分解为较小的部分,并在单独的计算机/处理器上解决每个问题。虽然您需要算法的并行版本,但是好消息是,许多常见算法自然是并行的:最近邻居,决策树等。 还有其他方法吗?何时使用它们有什么经验法则吗?每种方法的缺点是什么?

3
评估PDF估算方法的最佳方法
我希望检验一些我认为比我所见过的更好的想法。我可能是错的,但我想通过更确定的观察来检验我的想法并消除怀疑。 我一直想做的事情如下: 分析性地定义一组分布。其中一些很简单,例如高斯,统一或高帽。但是其中有些必须是困难且具有挑战性的,例如Simpsons发行。 根据这些分析分布实施软件,并使用它们生成一些样本。 由于这些分布是经过分析定义的,因此,按照定义,我已经知道它们的真实PDF。这很棒。 然后,我将针对以上示例测试以下PDF估计方法: 现有的PDF估计方法(例如具有各种内核和带宽的KDE)。 我认为值得尝试的我自己的想法。 然后,我将根据真实的PDF测量估计的误差。 然后,我将更好地了解哪种PDF估计方法是好的。 我的问题是: Q1:我上面的计划有什么改进吗? Q2:我发现很难解析地定义许多真实的PDF。是否已经有了许多分析定义的真实PDF的完整列表,这些PDF在各种困难(包括非常困难的困难)下都可以在这里重用?

1
评估时间序列预测性能
我有一个在几个时间变量上训练过的动态朴素贝叶斯模型。模型的输出是P(Event) @ t+1每个的预测t。 P(Event)vs 的曲线time如下图所示。在此图中,黑线代表P(Event)我的模型所预测的;的水平红线表示事件发生的先验概率; 和垂直虚线表示在时间序列中的(5个)的事件发生。 理想情况下,我希望P(Event)在观察任何事件之前先看到预测的峰值,并且在没有事件发生的希望时保持接近零。 我希望能够报告模型(黑线)在预测事件发生方面的表现。与我的模型进行比较的一个明显的候选对象是事件的先验概率(红线),如果将其用作预测因子,则将为所有对象预测相同的概率值t。 实现这种比较的最佳形式方法是什么? PS:我目前正在按照以下代码使用(直观)评分,其中总体评分较低表明预测性能更好。我发现用这个评分实际上很难超越以前的评分: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score = 1- prob_prediction[t]; cur_prior_score = 1 - prior else: # no event cur_model_score = prob_prediction[t] - 0; cur_prior_score = prior - …

2
结合敏感性和特异性的分类器性能指标?
我有2个类别的标签数据,正在使用多个分类器对其进行分类。并且数据集是很好平衡的。在评估分类器的性能时,我需要考虑分类器在确定真实肯定因素和真实否定因素方面的准确性。因此,如果我使用准确性,并且如果分类器偏向正值并将所有分类都归为正值,那么即使它未能对任何真实的负数进行分类,我也会获得约50%的准确性。此属性扩展到精度和召回率,因为它们仅关注一个类,而后又关注F1评分。(这是我什至从本文中了解的内容,例如“ 超越准确性,F分数和ROC:性能评估的判别方法系列 ”)。 因此,我可以使用敏感性和特异性(TPR和TNR)来查看分类器对每个类别的表现,以最大程度地提高这些值为目标。 我的问题是,我正在寻找一种将这两个值组合成一个有意义的量度的量度。我研究了该文件中提供的措施,但是发现它并不简单。基于我的理解,我想知道为什么我们不能应用像F分数这样的东西,但是我不使用精度和召回率而是使用灵敏度和特异性?因此公式为 ,我的目标是最大化这个措施。我觉得它很有代表性。已经有类似的公式吗?这是否有意义,或者在数学上是否合理?my Performance Measure=2∗sensitivity∗specificitysensitivity+specificitymy Performance Measure=2∗sensitivity∗specificitysensitivity+specificity \text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}

5
当接近100%的类别标签属于一个类别时,如何衡量分类器的性能?
在我的数据,我有一个类变量,记为。此类变量的值为(二进制)。几乎所有对观察都为0(接近100%,更准确地说是97%)。我想在不同的分类模型上进行“性能”测试(可能是准确性)。我担心发生的事情是,如果我有一个分类模型始终将任何观察结果分类为0类,那么该模型将具有97%的准确度(即使它从未考虑任何其他变量)。CCC0 ,10,1个{0, 1}CCC 是否存在针对处理非常罕见事件的数据的分类模型的众所周知的性能测试?

2
LOESS时间序列模型的增量学习
我目前正在处理一些时间序列数据,我知道我可以使用LOESS / ARIMA模型。 数据被写入长度为1000的向量(它是一个队列),每15分钟更新一次, 因此,当新数据推入向量时,旧数据将弹出。 我可以在调度程序上重新运行整个模型,例如,每15分钟重新训练一次模型,也就是使用整个1000值来训练LOESS模型,但是它效率很低,因为每次只插入一个值,而另一个999个值则被插入仍与上次相同。 那么如何才能获得更好的性能呢? 非常感谢
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.