一个困扰我一段时间的问题,我不知道该如何解决:
每天,我的气象员都会有一定百分比的降雨机会(假设计算得出的数字为9000位数,而他从未重复输入数字)。随后的每一天,要么下雨,要么不下雨。
我有多年的数据-pct机会还是下雨。考虑到这位气象员的历史,如果他今晚说明天的下雨机会是X,那么我对下雨的真正可能性的最佳猜测是什么?
一个困扰我一段时间的问题,我不知道该如何解决:
每天,我的气象员都会有一定百分比的降雨机会(假设计算得出的数字为9000位数,而他从未重复输入数字)。随后的每一天,要么下雨,要么不下雨。
我有多年的数据-pct机会还是下雨。考虑到这位气象员的历史,如果他今晚说明天的下雨机会是X,那么我对下雨的真正可能性的最佳猜测是什么?
Answers:
实际上,您正在考虑一个模型,其中降雨的真实机会p是预测机会q的函数:p = p(q)。每次进行预测时,您都会观察到伯努利变量具有成功概率p(q)的一种实现。如果您愿意将真实机会建模为基本函数f1,f2,...,fk的线性组合,则这是经典的逻辑回归设置。也就是说,模型说
Logit(p)= b0 + b1 f1(q) + b2 f2(q) + ... + bk fk(q) + e
有错误错误e。如果您对关系的形式不了解(尽管天气预报员的p(q)很好-q应该相当小),请考虑使用一组样条曲线作为基础。通常,输出包括系数的估计和e的方差的估计。给定将来的任何预测q,只需将值与估计的系数一起插入模型即可获得问题的答案(如果愿意,可以使用e的方差围绕该答案构建预测间隔)。
该框架足够灵活,可以包括其他因素,例如预测质量随时间变化的可能性。它还可以让您测试假设,例如是否p = q(这是气象员暗中要求的)。
二元事件(或离散随机变量)的概率预测的比较可以根据Brier分数进行
但您也可以使用ROC曲线, 因为任何这种类型的概率预测都可以转换为阈值不同的判别过程。实际上,如果您的概率大于
您应该看看欧洲中程天气预报中心(中心 ECMWF的情况)。
该布赖尔分数的做法很简单,最直接适用的方式验证预测的结果与二进制事件的准确性。
不要仅仅依靠公式...绘制不同时间段,数据,错误,数据的[加权]滚动平均值,错误的分数...很难说出可视化分析可能揭示的内容...您会看到一些东西,您将更好地知道要执行哪种假设检验,直到您之后 查看数据之后。
Brier分数固有地假设天气/技术的变化/基础分布的稳定性和驱动预测模型的要素,缺乏线性,没有偏差,偏差的变化...它假定相同的一般水平的准确性/不准确性是一致的。由于气候变化的方式尚不为人所知,天气预报的准确性将会降低;相反,向气象员提供信息的科学家拥有更多的资源,更完整的模型和更多的计算能力,因此也许预测的准确性将会提高。查看错误会告诉您有关预测的稳定性,线性和偏差的信息……您可能没有足够的数据来查看趋势。您可能会发现稳定性,线性和偏差不是问题。您可能会知道天气预报变得越来越准确...