有没有比“积分平均值”更好的名称?


12

我正在测试我公司销售的节气门位置传感器(TPS),并打印出与节气门轴旋转有关的电压响应曲线图。TPS是一种旋转传感器,范围 90°,其输出类似于电位计,其全开为5V(或传感器的输入值),初始开为0至0.5V之间的某个值。我用PIC32控制器构建了一个测试台,每0.75°进行一次电压测量,黑线连接这些测量。

我的一款产品倾向于使局部低振幅变化远离理想线(或在理想线以下)。这个问题是关于我的量化这些局部“凹陷”的算法。测量倾角的过程的好名字或描述是什么?(下面有完整的说明)在下面的图片中,下降出现在图的左三分之一处,这是我是否会通过或未通过这部分的临界情况:

打印出可疑零件

因此,我构建了一个倾角检测器(有关算法的stackoverflow qa)来量化我的直觉。我最初以为我正在测量“面积”。该图基于上面的打印输出以及我尝试以图形方式解释该算法。在17到31之间有13个样本持续下降:

以“ dip”放大显示的采样数据

测试数据进入一个数组,我为从一个数据点到另一个数据点的“上升”创建了另一个数组,我将其称为。我使用一个库来获取的平均值和标准差。deltasdeltas

下图表示分析数组,其中上图的斜率已删除。最初,我认为这是“标准化”或“统一”数据,因为x轴是等步的,现在我只处理数据点之间的上升。在研究这个问题时,我记得这是原始数据的派生。deltasdydx

分析导数...?

我遍历以找到存在5个或更多相邻负值的序列。蓝色条形图是一系列数据点,这些数据点均低于所有的平均值。蓝色条的值是:deltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

它们的总和为,代表面积(或积分)。我的第一个想法是“我只是对导数进行了积分”,这意味着我会取回原始数据,尽管我确信这是一个术语。23

绿线是这些“低于平均值”的平均值,这些平均值是用面积除以浸没长度得到的:

23÷13=1.77

在测试100多个零件时,我决定以绿线平均值小于跌落为可接受。整个数据集上计算出的标准差对于这些下陷来说还不够严格,因为没有足够的总面积,它们仍然落在我为优质零件设定的极限之内。我观察到选择标准偏差为我允许的最高值。2.63.0

为标准偏差设置一个严格到足以使该零件不合格的截止值,将是如此严格以至于使不合格的零件失效,否则这些零件看起来具有很大的绘图性。我也有一个尖峰检测器,如果有任何,该检测器将失败。|deltasavg|>avg+stddev

自Calc 1算起已经快20年了,所以请对我轻松一点,但是这感觉很像当教授用微积分和位移方程式来解释在赛车中如何以较低的加速度保持较高的转弯速度来击败另一个竞争对手竞争对手在下一弯时具有更大的加速度:更快地通过前一弯,初始速度越高,意味着他的速度(位移)下的面积越大。

将其转化为我的问题,我觉得我的绿线就像加速度,原始数据的二阶导数。

我访问了维基百科,以重新阅读微积分的基础知识以及微分和积分的定义,并学会了通过离散测量(如数值积分)将曲线下面积相加的恰当术语。平均而言,更多关于平均的谷歌搜索,我引出了非线性和数字信号处理的主题。平均积分似乎是量化数据的流行指标

是否有积分平均值的术语?(,绿线)?1.77
...或用于使用它评估数据的过程?


我认为“平均跌幅”已经足够。它没有加速度的大小,因此与它毫无关系。
ShreevatsaR

对于整个主题,我将不胜感激。我对如何通过数学更好地表达这种“直觉”度量感到不安。
克里斯·K

您是否可以添加用于构造理想线的所有数据点,或者添加更多有关如何计算红色虚线以证明蓝色条为“低于所有平均值的三角洲”的更多信息,数据点”?如果从道德上讲,它是与平均值的平均距离,则应使用加速样式的名称,用取平均值代替过程差异。

1
通过OP请求从Math.SE迁移:meta.stats.stackexchange.com/questions/1845/...
威利旺

1
我可能会添加“本地”一词,以表明步骤1存在-我同意@Glen_b(另一个Glen –嗨!),这很重要。因此,我会临时建议“局部均值缺陷”,在此我将“从理想状态偏离”到“缺陷”串联起来。似乎合适。
Glen Wheeler 2013年

Answers:


3

首先,这是对您的项目和问题的很好的描述。我非常喜欢您的自制测量框架,该框架非常酷……那么到底为什么您所说的“平均积分”很重要?

如果您对工作的更广泛的位置感兴趣,通常将您想做的事情称为“ 异常检测”。在最简单的设置中,它涉及将时间序列中的值与先前值的标准偏差进行比较。该规则是那么如果 ,其中是中的值系列,是所有先前值在和值之间的标准偏差,以及

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thα是您选择的一些合适参数,例如1或2,具体取决于您希望检测器的灵敏度。当然,您可以修改此公式以使其仅在本地工作(在长度为某个间隔上), h
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

如果我正确理解,您正在寻找一种自动化设备测试的方法,也就是说,在执行完整个测试(绘制整个对角线)后,将设备声明为好/故障。在那种情况下,只需考虑以上公式即可将与所有值的标准偏差进行比较。x[n]

为了将设备归类为故障,还可能需要考虑其他规则:

  • 如果任何偏差(delta)大于所有delta的SD的某个倍数
  • 如果偏差的平方和大于某个阈值
  • 如果正负增量之和的比率不近似相等(如果您更喜欢两个方向的误差较小,而不是单个方向的偏倚较大,则可能有用)

当然,您可以找到更多规则并使用布尔逻辑将它们连接起来,但是我认为您可以对上述三个规则有更深入的了解。

最后但并非最不重要的一点是,设置好之后,您将需要测试分类器(分类器是将输入映射到类的系统/模型,在您的情况下,将每个设备的数据映射到“好”或“错误”)。通过手动标记每个设备的性能来创建测试集。然后查看ROC,它基本上告诉您系统从返回的设备中正确拾取了多少个设备(相对于它拾取了多少个故障设备)之间的偏移量。


我相信“到底为什么重要”是您自己的用户名的功能。:)为什么呢?同样的原因也存在an:我们需要用语来区分生活中独特的一切。恕我直言,此质量检查是统计数据中词汇量有限的一个示例。我们需要结合令人困惑或矛盾的描述符,以使“眼睛”如此简单。
克里斯·K

嘿嘿,先生!:)如果我省略对创意品牌领域的任何冒险,那仅仅是因为我感到不得不支持您的努力和想法的足智多谋和奉献,而不是虚构标签。由于您坚持要命名积分的均值,因此请注意,您认为“积分的均值”只是增量的简单均值。这样,您的离群值就是“偏离均值”,或者可能是偏离局部均值。除非您没有足够的采样点,否则我不太会想到积分的优势。
意味着意义的意义
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.