从“均匀间隔”的样本开始在单位磁盘上进行回归


9

我需要解决单位磁盘上的一个复杂的回归问题。最初的问题吸引了一些有趣的评论,但不幸的是没有答案。同时,我学到了更多有关此问题的知识,因此,我将尝试将原始问题分解为子问题,并查看这次是否运气更好。

我有40个温度传感器,它们定期以单位圆盘内的窄环间隔开: 在此处输入图片说明

这些传感器会及时获取温度。但是,由于时间变化远小于空间变化,因此我们通过忽略时间变化来简化问题,并假设每个传感器只给我一个时间平均值。这意味着我有40个样本(每个传感器一个),并且没有重复的样本。

我想根据传感器数据建立回归曲面。回归有两个目标:T=f(ρ,θ)+ϵ

  1. 我需要估算平均径向温度曲线。通过线性回归,我已经估算出了一个表面,该表面是平均温度表面,因此,我只需要针对积分我的表面,对吗?如果我使用多项式进行回归,那么这一步应该是小菜一碟。θTmean=g1(ρ)+ϵθ
  2. 我需要估算径向温度曲线,这样在每个径向位置。P Ť ρ < Ť 95ρ = 0.95T95=g2(ρ)+ϵP(T(ρ)<T95(ρ))=.95

给定这两个目标,我应该使用哪种技术对单位磁盘进行回归?当然,高斯过程通常用于空间回归。但是,为单位磁盘定义一个好的内核并不是一件容易的事,因此,我想保持简单并使用多项式,除非您认为这是一个失败的策略。我读过有关Zernike多项式的信息。Zernike多项式似乎适用于单位圆上的回归,因为它们在是周期性的。θ

选择模型后,我需要选择一种估算程序。由于这是一个空间回归问题,因此应将不同位置的错误关联起来。普通最小二乘法假设存在不相关的错误,因此我想广义最小二乘会更合适。假设gls标准R分布中有一个函数,则GLS似乎是一种相对普遍的统计技术。但是,我从未使用过GLS,并且对此表示怀疑。例如,如何估计协方差矩阵?一个可行的示例,即使只有几个传感器,也将是很棒的。

PS我选择使用Zernike多项式和GLS,因为在我看来这样做是合乎逻辑的。但是,我不是专家,如果您觉得我走错了方向,请随意使用完全不同的方法。


在该图中,发动机显示为具有完美的径向对称性。但是轴的位置是否与发动机的某些物理特性有关,还是真的任意?在第二种情况下,变量仅与特定引擎有关。θ
伊夫(Yves)2013年

Answers:


2

我认为您正在思考类似 Zernike多项式的正确方法。如jwimberly的回答所述,这些是磁盘上正交基函数系统的示例。我不熟悉Zernike多项式,但是许多其他的正交函数族(包括Bessel函数)在古典数学物理学中自然而然地作为某些偏微分方程的本征函数出现(在撰写本文时,该链接顶部的动画甚至显示了一个振动鼓头的示例)。

我想到两个问题。首先,如果您所追求的只是径向轮廓(平均),那么您需要对空间图案多少约束?其次,时空数据中会出现哪些类型的变异性?θ

关于第一个问题,我想到了两个问题。由于极坐标,每个传感器的支撑区域具有的趋势。第二个问题是混叠的可能性,本质上是传感器相对于图案的相位未对准(使用傅立叶/贝塞尔类比)。注意,在限制峰值温度(即)时,混叠可能是主要的不确定因素。Ť 95rT95

关于第二个问题,数据可变性实际上可以帮助解决任何混叠问题,从本质上允许任何未对准都可以在不同的测量结果上求平均值。(假设没有系统的偏见……但是,对于任何一种方法,如果没有例如物理模型来提供更多信息的方法,这都是一个问题)。

因此,一种可能性是仅在传感器位置定义空间正交函数。这些“经验正交函数”可以通过PCA在时空数据矩阵上进行计算。(可能您可以使用一些权重来考虑可变的传感器支撑区域,但是考虑到统一的极坐标网格和径向平均值的目标,可能不需要这样做。)

注意,如果有可用于在温度“预期的”变体的任何物理建模数据,生成致密的时空计算网格可用的,那么相同的PCA过程可以被应用到数据以导出正交函数。(在工程中,通常将其称为“ 适当的正交分解 ”,用于模型简化,例如,可以提取昂贵的计算流体动力学模型以用于进一步的设计活动。)

最后的评论是,如果您要按支撑面积(即,极性像元大小)对传感器数据进行加权,那么在GLS框架中,这将是对角协方差的一种。(尽管加权PCA会密切相关,但这将更适用于您的预测问题。)

我希望这有帮助!

更新:在我看来,新的传感器分布图极大地改变了一切。如果你想在磁盘内部估计的温度,你需要一个前相比更多的信息只是“单位磁盘组正交函数”。传感器数据中的信息太少。

如果您确实想估计磁盘上的空间温度变化,那么我看到的唯一合理的方法是将问题视为数据同化之一。在这里,您至少需要基于一些基于物理的考虑来约束空间分布的参数形式(这些可能来自模拟,也可能来自具有相似动力学的系统中的相关数据)。

我不知道您的特定应用程序,但是如果是这样的,那么我可以想象有大量的工程文献可供您选择合适的先验约束。(对于那种详细的领域知识,这可能不是最好的StackExchange网站。)


印象深刻的答案!需要一些时间来消化它。您问两个问题:我不确定我是否理解第一个问题(“您需要对空间模式有多少约束?”),我认为使用来自所有40个传感器的数据会比仅沿圆周方向取平均值和那么合适……您是说这不一定是真的吗?对于第二个引擎(“时空数据中会发生什么类型的可变性”),在接下来的一两天内,我将分析第一个引擎(实际上有5个引擎!但这将是一个主题)。未来的问题...)ctd ...
DeltaIV 2013年

... ctd,我将数据标准化,然后看到可以在公共站点上发布的内容。一些空间模式和一些时间序列...我想它们应该给您关于您所要询问的想法。
DeltaIV'9

1
对于我的第一个问题:如果您的最终目标实质上是“预测新引擎的传感器结果”(从您的其他问题推论得出),那么您真的需要“传感器之间”的任何信息吗?我就走样评论是的,为什么你的例子,如果需要这样的信息,例如未在传感器可靠地计量。T95
GeoMatt22 2016年

1
顺便说一句,如果这是一个设计问题,并且有关联的CFD类型的模拟,那么这比当前问题所隐含的信息要多得多。(例如,通过数据同化来解决问题可能会使用不同的方法。)
GeoMatt22 2013年

您的回答让我想到:除了回归,还可以做一些等效的离散傅里叶变换的2d吗?例如,取数据点的积分乘以第n个贝塞尔函数(适当修改),然后进行正交分解?这里的问题是:1)找到合适的离散化函数,可能与您的答案相同;以及2)这是否对少量采样点过于敏感,并且分解是否依赖于更复杂的高阶项。
jwimberley

2

Zernlike多项式听起来并不是一个坏选择,因为它们已经具有和依赖性以及正交性。但是,由于您正在研究温度,因此可以说是Bessel函数,这可能是一个更合适且更广为人知的选择。这些是在研究圆柱物体/坐标系中的热流时提出的,因此有可能在物理上更合适。第n个贝塞尔函数将给出与极坐标依赖的三角函数相关的径向依赖;您可以在许多物理和PDE教科书中找到详细信息。θrθ


(+1)极坐标热方程式连接是一个很好的方法。另一个可能值得一提的是,对于高斯过程,我通常在矩形网格上都知道协方差矩阵是循环的,实际上使用了FFT。因此,贝塞尔函数可能是极坐标网格上类似方法的候选者。
GeoMatt22 2016年

一个有趣的建议!但是,我是在测量工作液中的温度,而不是发动机的固体部分中的温度。因此,我对传导问题感兴趣,而不是对流问题。贝塞尔函数无疑是导热(傅立叶)方程的解,但是我不认为它们也是热对流方程的解,因为对流取决于流体流场。无论如何,我至少可以测试他们与Zernike的对比。那GLS呢?您也可以在问题的那部分添加一些内容吗?
DeltaIV'9

@DeltaIV我不太熟悉GLS,但是有一个问题-为什么您期望错误在不同的空间点上相关?我同意,实际的波动将在点之间相关,但是我认为误差(即传感器读数的不确定性)将不相关。也许对于回归波动算作误差?不过,我正在考虑添加一些有关惩罚条款的内容。无论使用什么基础,您都只有有限数量的采样点,并且可以找到一些非常高阶的贝塞尔函数,因此应优先选择最低阶的项。
jwimberley

@DeltaIV关于波动,这会引入空间点之间的相关性:您的对象是获取温度图,不是吗?您不想看到正在发生的任何波动吗?由于波动是由流体动力学驱动的,而且时空复杂,因此统计模型甚至可以考虑它们吗?(这是否与您为简单起见而忽略的时间相关部分有关?)
jwimberley16年

画廊聊天创建
DeltaIV '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.