计算平均斜率:谐波还是算术平均值?


11

我必须计算大型数据集的平均上坡百分比斜率,此处详细介绍了基本方法 但是,我开始怀疑谐波平均值是否比标准算术平均值更合适,因为从技术上讲,它是变化率。在关于平均点,面积,线等的斜率的其他任何讨论中,我都没有看到这种情况。要实现它应该非常简单。

编辑:在这种情况下,计算平均斜率的目的是生成一个(多个)一个参数,用于建模通道启动阈值。我有一组现场收集的通道顶部位置,这些位置将收集流量累积,各种平均上坡参数等,并将使用多元线性回归尝试根据其他参数来描述累积阈值。


4
这取决于您为什么要计算平均斜率。目的是什么?您要测量什么物理量?尽管许多平均形式是合理的,但要注意谐波平均值:当任何斜率为零时,它会引起问题,这种情况经常发生。
ub

Answers:


10

平均斜率听起来很自然,但这是很奇怪的事情。 例如,平坦的水平平原的平均斜率是零,但是当您向该平原的DEM添加一点随机的零平均噪声时,平均斜率只会上升。 其他奇怪的行为是平均斜率对DEM分辨率的依赖(我在本文中已有记录)以及它对DEM创建方式的依赖。例如,从轮廓图创建的一些DEM实际上是稍微呈梯形的-在轮廓线所在的位置有微小的跳跃-否则,它们是整个表面的准确表示。如果在平均过程中给予过多或过少的权重,则这些突然的跳跃会改变平均斜率。

提高加权很重要,因为实际上,谐波平均值(和其他方法)对斜率进行了差分加权。为了理解这一点,考虑两个正数xy的谐波均值。根据定义,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

其中权重为a = y /(x + y)和b = x /(x + y)。(这些应该被称为“权重”,因为它们是正数并且总和为1。对于算术平均值,权重为a = 1/2和b = 1/2)。显然,附接至重量X,等于y /(X + Y),是大当X相比ÿ。因此,谐波意味着将较小的值过重。

这可能有助于扩大问题。 谐波均值是由实数值p参数化的一系列平均值之一。正如调和平均通过平均所获得的倒数Xÿ(再服用它们的平均值的倒数),一般我们可平均的第p权力Xÿ(然后取结果的1 / p个功率)。p = 1和p = -1的情况分别是算术平均值和谐波平均值。(我们可以定义为平均p通过取极限= 0,从而得到的几何平均值作为该家族中的一员,也。)作为p从1开始递减,较小的值将越来越重。当p从1开始增加时,较大的值将越来越重。因此,平均值只能随着p的增加而增加,而必须随着p的减少而减少。(这在下面的第二张图中很明显,其中所有三行都是平坦的,或者是从左到右递增的。)

从实际出发,我们可以研究各种坡度的行为,并将此知识添加到我们的分析工具箱中:当我们期望坡度以某种关系进入较小的坡度时,应给予更多影响力,我们可以选择p小于1 的均值;相反,为了强调最大斜率,我们可以将p增加到1以上。为此,让我们考虑点附近的各种形式的排水剖面。

为了说明可能发生的情况,我考虑了三个在质量上不同的局部地形:一个是所有坡度相等的地方(这是很好的参考);第二个是所有坡度都相等的地方。另一个是我们本地位于碗底的位置:我们周围的坡度为零,但随后逐渐增加,最终在轮辋周围逐渐变大。这种情况的反面发生在附近的斜坡中等但随后逐渐远离我们的地方。这似乎涵盖了现实中广泛的行为。

这是这三种排水形式的伪3D图:

3D绘图

在这里,我计算了每个函数的平均斜率(使用相同的颜色编码)作为p的函数,令p的范围从-1(谐波平均值)到2。

斜率均值vs p

当然,蓝线是水平的:无论p取什么值,恒定斜率的平均值都不能是该常数以外的值(已将其设置为1作为参考)。随着p的变化,红碗远边缘周围的高斜率强烈影响平均斜率:请注意,一旦p超过1,斜率就会变大。第三(金绿色)表面的水平边缘会引起谐波均值(p =- 1)为零。

值得注意的是,三个曲线的相对位置在p = 0(几何平均值)处发生变化:对于p大于0,红色碗的平均斜率大于蓝色,而对于负p,红色碗的平均斜率较小。比蓝色倾斜。因此,您选择的p甚至可以改变平均斜率的相对排名。

谐波平均值(p = -1)对黄绿色形状的深远影响应该让我们停下来:它表明,当排水管中有足够小的坡度时,谐波平均值可能会很小,以至于淹没了任何所有其他斜坡。

本着探索性数据分析的精神您可能考虑改变p-也许将其范围从0更改为稍大于1,以避免权重过大,并找出哪个值在平均斜率和变量之间建立了最佳关系正在建模(例如通道初始化阈值)。在回归模型中,通常将“最佳”理解为“最线性”或“创建恒定的(随机)残差”。


感谢您的详尽分析!我将对此进行反思。
杰·瓜纳里

1

我采用了一种经验方法来找到胡布优秀理论答案的补充答案。我决定以度为单位计算斜率,并使用角度平均值平均值。接下来,我计算了百分比斜率的算术和谐波平均值,并创建了一组随机位于研究区域中的采样点。我要求2000个点,最小距离为100m,得出1326点。我在每个点采样了每个平均斜率栅格的值,然后使用公式将百分比均值转换为度Degrees = atan(percent/100)。我在这里的假设是,角度均值将产生以度为单位的“正确”平均斜率,并且无论哪个百分比均值更接近它都是正确的过程。

接下来,我使用Kruskal-Wallace检验比较了所有非零值(假设对于大多数零斜率值,所有三个斜率值都为零,而零值将掩盖方法之间的差异)。我发现这三者之间存在显着差异(卡方= 17.9570,DF = 2,p = 0.0001),因此我使用Dunn程序 α= 0.05)进一步检查了数据(Elliot和Hynan 2011)。最终结果是算术平均值和谐波平均值彼此显着不同,但是邻居与角度平均值显着不同:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

如果我的假设都是正确的(它们可能不是很正确),则这意味着虽然谐波和算术方法相互创建了不同的值,但它们均与可接受的角度均值“紧密结合”。我还可以想到另外两个警告(如果您想到其他警告,请添加其他警告):

  1. 较大的样本量可能会在百分比平均值和角度平均值之间发现显着差异。但是,我的样本大小仅为非零值,约为1000点。
  2. 由于我的采样点放置在不考虑流域的情况下,可能涉及一些伪复制,因为任何平均斜率都将与其上方的平均斜率相关。

1
这很有趣(+1),但请注意限制。(1)是的,如果您选择更大的样本量,您会发现所有差异都很大。因此,进行统计假设检验是没有意义的:您要专注于过程之间的差异。(2)您的结果完全取决于数据的实际属性。它们将随其他数据集而变化。(3)角度平均值可用作参考,但绝不是首选值。用作参考的完全取决于在进一步分析或映射中将如何使用均值。
ub

0

假设没有定义斜率的参数是已知的,那么任何统计学家都会说要使用使数据的RMS偏差最小的斜率。(当然,由于他选择的是数学生成的地貌,因此,whuber的示例不符合条件,但对于真实地貌,未知参数假设应该是有效的。)


对此表示赞赏,但我认为这会误解情况。最重要的是,这些斜率不用于拟合曲线:“数据的RMS偏差”的概念不适用。其次,我选择了定性地貌类型,以涵盖将要真正遇到的各种情况,因此,我认为它们提供了有关预期结果的有用信息。真实的数据集对理解这里发生的事情没有多大帮助,因为没有“真实的”平均斜率之类的东西。主要问题是什么平均值将是有用的有用的
ub

1
顺便说一句,我相信我有一定的统计学家资格。那并不会使我对这个问题的看法变得更好或更糟:与其他任何人一样,我需要尽我所能清楚,客观地备份它,而且我很容易出错,不得不改变主意: )。我只是提供这一点作为对您“任何统计学家”言论的反驳。
ub

我认为适合的问题取决于要使用的斜率。例如,对于土地坍落度潜力,根据坍落度势与坡度模型,与缓坡相比,陡坡的权重更高,那么RMS拟合方法应该是有效的。其他加权模型将与其他用途配合使用。简而言之,我建议通过加权或其他方式对我们知道的所有事物进行建模,然后依靠RMS作为我们不进行的所有事物的模型。
johnsankey

我同意那条评论的前提,约翰,但我不明白你的结论如何。如果陡峭的斜坡要承受更大的权重,则RMS似乎就是您希望做的事情,因为它对所有偏差均加权,与斜坡无关。而且,RMS作为二次损耗函数,不能通用地替代其他技术可以实现的功能,包括斜率的非线性重新表达和使用替代损耗函数(例如,通过稳健拟合方法利用的)。
ub

RMS包括重量
johnsankey
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.