Questions tagged «uncertainty»

关于缺乏知识的广泛概念,尤其是关于感兴趣的过程或总体的定量信息的缺乏或不精确。

4
关于不确定性的自举估计的假设
我赞赏引导程序在获得不确定性估计中的有用性,但一直困扰着我的一件事是,与那些估计相对应的分布是样本定义的分布。通常,认为我们的采样频率看起来与基础分布完全相似似乎是一个坏主意,那么,为什么基于采样频率定义基础分布的分布来导出不确定性估计是合理的/可以接受的呢? 另一方面,这可能并不比我们通常所做的其他分布假设差(可能更好),但我仍然想更好地理解其理由。

4
为什么对于深度学习模型,softmax输出不是一个好的不确定性度量?
我已经在卷积神经网络(CNN)上工作了一段时间,主要是用于语义分割/实例分割的图像数据。我经常将网络输出的softmax可视化为“热图”,以查看特定类别的每个像素激活的数量。我将低激活率解释为“不确定” /“不确定”,将高激活率解释为“某些” /“自信”的预测。基本上这意味着解释SOFTMAX输出(值的范围内)作为模型的概率或(未)确定性量度。(0 ,1 )(0,1个)(0,1) (例如,我已经解释了在其像素上平均具有低softmax激活的对象/区域,这样CNN很难检测到,因此CNN对于预测这种对象“不确定”。) 在我看来,这通常是有效的,将额外的“不确定”区域样本添加到训练结果中可以改善这些结果。但是,我现在从不同方面经常听到,使用/解释softmax输出作为(不确定性)度量不是一个好主意,并且通常不鼓励这样做。为什么? 编辑:为了澄清我在这里要问的问题,到目前为止,我将在回答这个问题时详细阐述我的见解。但是,以下所有论点都没有向我说明**为什么它通常是个坏主意**,正如同事,主管反复说明的那样,例如“ 1.5” 在分类模型中,在管道末端(softmax输出)获得的概率向量通常被错误地解释为模型置信度 或在“背景”部分中: 尽管将卷积神经网络的最终softmax层给出的值解释为置信度分数可能很诱人,但我们需要注意不要过多地阅读它。 上面的资料源认为将softmax输出用作不确定性度量是不好的,原因是: 对真实图像的不可察觉的扰动可以将深层网络的softmax输出更改为任意值 这意味着softmax输出对于“不可察觉的扰动”并不稳健,因此它的输出不能用作概率。 另一篇论文提到“ softmax输出=置信度”的想法,并认为通过这种直觉网络可以很容易地被愚弄,从而产生“无法识别图像的高置信度输出”。 (...)与特定类别相对应的区域(在输入域中)可能比该类别的训练示例所占用的该区域中的空间大得多。结果是,图像可能位于分配给某个类别的区域内,因此在softmax输出中被分类为具有较大的峰值,而仍然与训练集中该类别中自然出现的图像相距甚远。 这意味着与训练数据相距甚远的数据永远不应获得很高的置信度,因为模型“无法”确定它(因为它从未见过)。 但是:这不是简单地质疑整个NN的泛化特性吗?即,具有softmax损失的NN不能很好地推广到(1)“无法察觉的扰动”或(2)远离训练数据的输入数据样本,例如无法识别的图像。 按照这种推理,我仍然不明白,为什么在实践中,没有经过抽象和人为改变的数据与训练数据(即大多数“真实”应用程序)相比,将softmax输出解释为“伪概率”是一个不好的选择理念。毕竟,它们似乎很好地代表了我的模型所确定的内容,即使它是不正确的(在这种情况下,我需要修复我的模型)。而且模型不确定性是否总是“仅”为近似值?

1
我可以将协方差矩阵转换为变量的不确定性吗?
我有一个GPS单元,它通过协方差矩阵输出噪声测量值:ΣΣ\Sigma Σ=⎡⎣⎢σxxσyxσxzσxyσyyσyzσxzσyzσzz⎤⎦⎥Σ=[σxxσxyσxzσyxσyyσyzσxzσyzσzz]\Sigma = \left[\begin{matrix} \sigma_{xx} & \sigma_{xy} & \sigma_{xz} \\ \sigma_{yx} & \sigma_{yy} & \sigma_{yz} \\ \sigma_{xz} & \sigma_{yz} & \sigma_{zz} \end{matrix}\right] (有也是参与,但我们忽略了一秒钟。)ttt 假设我想告诉其他人,每个方向()的精度都是某个数字。μ X,μ ÿ,μ ž。也就是说,我的GPS可以给我的阅读X = ˉ X ± μ X,等等。我的理解是,μ在这种情况下,意味着所有被测量是彼此独立的(即协方差矩阵对角线)。此外,找到矢量误差就像在正交中求和(平方和的平方根)一样简单。x,y,zx,y,zx,y,zμx,μy,μzμx,μy,μz\mu_x, \mu_y, \mu_zx=x¯±μxx=x¯±μxx=\bar{x}\pm\mu_xμμ\mu 如果我的协方差矩阵不是对角线会怎样?是否存在一个包含y和z方向影响的简单数字?如何找到给定的协方差矩阵?μ∗xμx∗\mu_x^*yyyzzz

4
包含不确定性的内核密度估计
可视化一维数据时,通常使用内核密度估计技术来考虑不正确选择的bin宽度。 当我的一维数据集具有测量不确定性时,是否有标准方法来合并此信息? 例如(如果我的理解是天真的,请原谅我)KDE将高斯分布与观测值的三角函数卷积。该高斯核在每个位置之间共享,但是可以改变高斯参数以匹配测量不确定度。有执行此操作的标准方法吗?我希望用宽内核反映不确定的值。σσ\sigma 我只是在Python中实现了此功能,但我不知道执行此操作的标准方法或函数。这种技术有什么问题吗?我确实注意到它给出了一些奇怪的图形!例如 在这种情况下,低值具有较大的不确定性,因此倾向于提供较宽的平坦内核,而KDE会过重权重低(且不确定)的值。

3
如何最好地传达不确定性?
在向媒体和公众传达统计计算结果时,一个大问题是我们如何传达不确定性。当然,大多数大众媒体似乎都喜欢一个固定的数字,尽管除了少数情况外,数字总是有一定的不确定性。 因此,作为统计学家(或描述统计工作的科学家),我们如何最好地交流我们的结果,同时保持不确定性不变,并使它对我们的受众有意义? 我意识到这实际上不是统计学问题,而是有关统计学的心理学问题,但这当然是大多数统计学家和科学家都会关注的问题。我在想,好的答案可能比统计教科书更多地参考心理学研究... 编辑:根据user568458的建议,此处进行案例研究可能会很有用。如果可能的话,请保持答案可推广到其他领域。 我感兴趣的一个特殊案例就是一个很好的例子:通过大众媒体将气候科学与政治家和公众进行交流。换句话说,作为科学家,您的工作是将新闻传递给新闻记者,使他们毫不费力地将新闻准确地传递给公众-即事实,尽管不一定是全部事实。通常不会被新闻咬住。 一些特别常见的例子可能是在本世纪余下的时间里对变暖程度的估计中不确定性的传达,或者是在特定极端天气事件的可能性增加时的不确定性的传达(即,响应“气候变化是否引起了这场风暴? “类型问题”。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

3
基于数据不确定度计算线性回归斜率的不确定度
如何基于数据不确定性(可能在Excel / Mathematica中)计算线性回归斜率的不确定性? 示例: 让我们有数据点(0,0),(1,2),(2,4),(3,6),(4,8),...(8、16),但是每个y值都有不确定性为4。我发现,大多数函数会将不确定性计算为0,因为这些点与函数y = 2x完全匹配。但是,如图所示,y = x / 2也与这些点匹配。这是一个夸张的例子,但我希望它能说明我的需求。 编辑:如果我尝试解释更多,而示例中的每个点都有y的某个值,我们假装不知道这是真的。例如,第一个点(0,0)实际上可以是(0,6)或(0,-6)或介于两者之间的任何值。我要问的是,在任何流行的问题中都没有考虑到这一点的算法。在示例中,点(0,6),(1,6.5),(2,7),(3,7.5),(4,8),...(8、10)仍落在不确定性范围内,因此它们可能是正确的点,并且连接这些点的线具有一个方程:y = x / 2 + 6,而我们通过不考虑不确定性而得到的方程为:y = 2x +0。因此,k的不确定性是1,5,而n是6。 TL; DR:在图片中,有一条y = 2x线是使用最小二乘拟合计算得出的,并且可以完美拟合数据。我试图找出y = kx + n中的k和n可以改变多少,但是如果我们知道y值的不确定性,仍然可以拟合数据。在我的示例中,k的不确定度为1.5,n的不确定度为6。在图像中,有“最佳”拟合线和一条刚好适合这些点的线。

3
拟合曲线的可靠性?
我想估计拟合曲线的不确定性或可靠性。由于我不知道它的确切含义,因此我故意不指定要查找的精确数学量。 这里,ËËE(能量)是因变量(响应),VVV(体积)是自变量。我想找到某种材料的能量-体积曲线Ë(五)Ë(V)E(V)。因此,我使用量子化学计算机程序进行了一些计算,以获取某些样品体积(图中的绿色圆圈)的能量。 然后,我用Birch–Murnaghan函数拟合这些数据样本: 这取决于四个参数: ë 0,V 0,乙0,乙' 0。我还假定这是正确的拟合函数,因此所有误差仅来自样本的噪声。在下文中,拟合函数(ē)将被写成函数 V。E(E|V)=E0+9V0B016⎧⎩⎨[(V0V)23−1]3B′0+[(V0V)23−1]2[6−4(V0V)23]⎫⎭⎬,E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, Ë0,V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV 在这里,您可以看到结果(使用最小二乘算法进行拟合)。y轴变量是和x轴变量是V。蓝线是拟合点,绿色圆圈是采样点。ËEEVVV 我现在需要(在体积的依赖性充其量)这个拟合曲线的可靠性一定程度È(V ),因为我需要它来计算像过渡压力或焓进一步的数量。Ë^(五)E^(V)\hat{E}(V) 我的直觉告诉我,拟合曲线在中间是最可靠的,所以我猜想不确定性(例如不确定性范围)应该在样本数据的末尾增加,就像这个草图所示: 但是,我正在寻找什么样的量度,如何计算呢? 准确地说,这里实际上只有一个错误源:由于计算限制,计算出的样本有噪声。因此,如果我要计算一组密集的数据样本,它们将形成颠簸的曲线。 我想要找到所需不确定度估计值的想法是,在学校学习时根据参数计算以下“误差”(不确定性的传播): 的Δë0,ΔV0,Δ乙0和Δ乙'0,由拟合软件给出。Δ è(五)= (∂Ë(五)∂Ë0Δ è0)2+ (∂Ë(五)∂V0Δ V0)2+ (∂Ë(五)∂乙0Δ 乙0)2+ (∂Ë(五)∂乙′0Δ 乙′0)2----------------------------------------------------------√ΔË(V)=(∂Ë(V)∂Ë0ΔË0)2+(∂Ë(V)∂V0ΔV0)2+(∂Ë(V)∂乙0Δ乙0)2+(∂Ë(V)∂乙0′Δ乙0′)2 \Delta E(V) = \sqrt{ \left(\frac{\partial E(V)}{\partial E_0} \Delta E_0\right)^2 + …

1
使用每个选民的准确性和相关不确定性的投票系统
假设我们有一个简单的“是/否”问题,我们想知道答案。有N个人“投票”以获取正确答案。每个投票者都有一个历史记录-1和0的列表,显示他们过去对此类问题是对还是错。如果我们将历史假设为二项式分布,我们可以发现选民在此类问题,他们的变异,CI和任何其他种类的置信度指标上的平均表现。 基本上,我的问题是:如何将信任度信息纳入投票系统? 例如,如果我们仅考虑每个投票者的平均表现,则可以构建简单的加权投票系统: result=sign(∑v∈votersμv×(−1)1−vote)result=sign(∑v∈votersμv×(−1)1−vote)result = sign(\sum_{v \in voters}\mu_v \times (-1)^{1-vote}) 也就是说,我们可以将选民的权重总和乘以(代表“是”)或(代表“否”)。这是有道理的:如果选民1的平均正确答案等于,而选民2的平均答案只有,那么应该比第一人的投票更重要。另一方面,如果第一人称仅回答了10个此类问题,而第二人回答了1000个此类问题,则我们对第二人的技能水平比对第一人的技能更有信心-第一人可能很幸运,并且在获得10个相对成功的答案后,他将继续获得更差的结果。- 1 0.9 0.8+1+1+1−1−1-1.9.9.9.8.8.8 因此,更精确的问题听起来可能是这样的:是否存在兼具强度和置信度的统计指标?

4
不确定类别标签的分类器
假设我有一组与类标签相关联的实例。不要紧,怎么这些情况下进行标记,但如何某些他们班的成员是。每个实例恰好属于一个类。假设我可以使用从1到3的名义属性(分别非常确定和不确定)来量化每个类成员的确定性。 是否有某种分类器考虑了这样的确定性度量,如果是,则在WEKA工具箱中可用吗? 我想这种情况经常发生,例如,当实例不是由人完全确定时,就由人对它们进行分类。就我而言,我必须对图像进行分类,有时图像可能属于多个类别。如果发生这种情况,我会给班级带来很大的不确定性,但仍然只对一个班级进行分类。 或者,没有专门的分类器,还有其他方法可以解决此问题吗?例如,仅采用“某些”分类进行培训?我担心在这种情况下,会出现更多的错误分类,因为没有涵盖“边界”案件。


2
没有采样的高维推理问题的不确定性估计?
我正在研究一个高维推理问题(大约2000个模型参数),通过结合基于梯度的优化和遗传算法,可以找到对数后验的全局最大值,从而能够稳健地执行MAP估计。 除了找到MAP估计值外,我非常希望能够对模型参数的不确定性做出一些估计。 我们能够有效地计算相对于参数的对数后验的梯度,因此长期而言,我们的目标是使用哈密顿量MCMC进行一些抽样,但是现在我对基于非抽样的估计感兴趣。 我知道的唯一方法是在该模式下计算Hessian的逆值,以近似于多元多元法线的后验,但即使对于这样的大型系统,这似乎也不可行,因为即使我们计算出∼4×106∼4×106\sim 4\times10^{6}元素粗麻布我敢肯定我们找不到它的逆。 谁能建议在这种情况下通常使用哪种方法? 谢谢! 编辑 -有关该问题的其他信息 背景技术 这是一个与大型物理实验有关的反问题。我们有一个2D三角形网格,描述了一些物理场,我们的模型参数是这些场在网格每个顶点处的物理值。网格具有大约650个顶点,我们对3个字段进行了建模,因此这就是我们2000个模型参数的来源。 我们的实验数据来自不能直接测量这些场的仪器,而是来自那些复杂的非线性函数的量。对于每种不同的仪器,我们都有一个正向模型,该模型将模型参数映射到实验数据的预测,并且将预测与测量值进行比较可得出对数似然。 然后,我们总结来自所有这些不同工具的对数似然率,并添加一些对数优先级值,这些值将某些物理约束应用于字段。 因此,我怀疑这个“模型”是否整齐地归为一类-我们无法选择模型是什么,它取决于实际仪器如何收集我们的实验数据。 数据集 数据集由500x500张图像组成,每个摄像机只有一张图像,因此总数据点为500x500x4 = 10610610^6。 错误模型目前, 我们将问题中的所有错误都设为高斯。在某些时候,我可能会尝试移至Student-t错误模型,只是为了获得更大的灵活性,但是对于高斯人来说,事情似乎仍然运作良好。 可能性示例 这是一个等离子物理实验,我们的大部分数据来自指向等离子的相机,镜头前有特定的滤光片,只能观察光谱的特定部分。 要重现数据,有两个步骤;首先,我们必须对来自网格上等离子的光进行建模,然后我们必须对该光进行建模,使其返回相机图像。 不幸的是,对来自等离子体的光进行建模取决于有效的速率系数,即在给定电场的情况下,不同过程发出多少光。这些速率是由一些昂贵的数值模型预测的,因此我们必须将它们的输出存储在网格中,然后进行插值以查找值。费率函数数据仅计算一次-我们将其存储,然后在代码启动时从中构建一个样条,然后将该样条用于所有函数评估。 假设R1R1R_1和R2R2R_2是速率函数(我们通过插值法对其求值),则网格E i的第iii个顶点的发射由 E i = R 1(x i,y i)+ z i给出R 2(x i,y i) 其中(x ,y ,z )EiEi\mathcal{E}_iEi=R1(xi,yi)+ziR2(xi,yi)Ei=R1(xi,yi)+ziR2(xi,yi) \mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i) …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.