Questions tagged «threshold»

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
分类概率阈值
我有一个关于分类的问题。令f为一个分类器,在给定一些数据D的情况下输出一组概率。通常,人们会说:好吧,如果P(c | D)> 0.5,我们将分配一个类1,否则将分配一个0(将其设为二进制)分类)。 我的问题是,如果我发现,如果我将概率也大于1,即0.2,则分类器的性能会更好。在进行分类时使用此新阈值是否合法? 我将解释在数据发出较小信号的情况下降低分类界限的必要性;但对于分类问题仍然很重要。 我意识到这是一种实现方法,但是如果这不是正确的想法,那将是什么数据转换,它们以类似的方式强调各个特征,因此阈值可以保持在0.5?


1
什么是F1最佳阈值?如何计算呢?
我在R中使用了h2o.glm()函数,该函数在结果以及其他统计信息中提供了列联表。列联表的标题为“ 基于F1最佳阈值的交叉表 ” Wikipedia将F1分数或F分数定义为精确度和查全率的调和平均值。但是,仅当将逻辑回归的预测值(例如)使用截止值转换为二进制时,才能找到Precision和Recall。 现在我想起了截止点,F1得分和最佳阈值之间有什么联系。最佳阈值如何计算?F1最佳阈值如何计算? 抱歉,如果我错过了什么,我是这里的新手。
13 threshold 

3
为什么要分别估计SVM中的偏差项而不是特征向量中的额外维?
SVM中的最佳超平面定义为: w⋅x+b=0,w⋅x+b=0,\mathbf w \cdot \mathbf x+b=0, 其中bbb代表阈值。如果我们有一些映射ϕϕ\mathbf \phi将输入空间映射到某个空间ZZZ,我们可以在空间定义SVM ZZZ,其中最佳水平平面将是: w⋅ϕ(x)+b=0.w⋅ϕ(x)+b=0.\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0. 然而,我们可以总是限定映射ϕϕ\phi使得ϕ0(x)=1ϕ0(x)=1\phi_0(\mathbf x)=1,∀x∀x\forall \mathbf x,然后将最佳hiperplane将被定义为 w⋅ϕ(x)=0.w⋅ϕ(x)=0.\mathbf w \cdot \mathbf \phi(\mathbf x)=0. 问题: 为什么许多论文使用w⋅ϕ(x)+b=0w⋅ϕ(x)+b=0\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0时,他们已经有映射ϕϕ\phi和参数估计ww\mathbf w和theshold bbb separatelly? 小号。Ť。ÿ Ñ 瓦特·& φ( X Ñ)≥1,∀Ñminw||w||2minw||w||2\min_{\mathbf w} ||\mathbf w ||^2 s.t. ynw⋅ϕ(xn)≥1,∀ns.t. ynw⋅ϕ(xn)≥1,∀ns.t. \ y_n …
11 svm  threshold 

2
如何更改R randomForests中的分类阈值?
所有物种分布建模文献都认为,当使用输出概率的模型(例如,RandomForests)预测物种的存在/不存在时,选择阈值概率来将物种实际分类为存在或不存在很重要,应该并不总是依赖默认值0.5。我需要一些帮助!这是我的代码: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

5
自动确定阈值以进行异常检测
我正在处理时间序列的异常分数(背景是计算机网络中的异常检测)。每分钟,我都会得到一个异常分数,它告诉我网络的当前状态有多么“意外”或异常。分数越高,当前状态越异常。理论上接近5分是可能的,但几乎不会发生。XŤ∈ [ 0 ,5 ]xt∈[0,5]x_t \in [0, 5] 现在,我想提出一种算法或公式,该算法或公式可以自动确定此异常时间序列的阈值。一旦异常分数超过此阈值,就会触发警报。 下面的频率分布是一个超过1天的异常时间序列的示例。然而,这是不是安全的假设,每一个异常的时间序列是要像她那样。在此特殊示例中,异常阈值(例如.99分位数)将是有意义的,因为最右边的分数可被视为异常。 并且具有与时间序列相同的频率分布(由于时间序列中没有更高的异常分数,因此它的范围从0到1): 不幸的是,频率分布可能具有一定的形状,其中.99分位数无效。下面是一个示例。右尾非常低,因此,如果将.99分位数用作阈值,则可能会导致许多误报。该频率分布似乎不包含异常,因此阈值应位于0.25左右的分布范围之外。 总结起来,这两个示例之间的区别在于第一个示例似乎表现出异常,而第二个则没有。 从我幼稚的角度来看,该算法应考虑以下两种情况: 如果频率分布具有较大的右尾(即几个异常分数),则.99分位数可能是一个很好的阈值。 如果频率分布的右尾非常短(即没有异常分数),则阈值应位于分布之外。 / edit:也没有基本事实,即可以使用带标签的数据集。因此,该算法针对异常得分的性质是“盲目的”。 现在,我不确定如何用算法或公式来表达这些观察结果。有人建议如何解决这个问题吗?我希望我的解释足够充分,因为我的统计背景非常有限。 谢谢你的帮助!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.