我必须计算大型数据集的平均上坡百分比斜率,此处详细介绍了基本方法。 但是,我开始怀疑谐波平均值是否比标准算术平均值更合适,因为从技术上讲,它是变化率。在关于平均点,面积,线等的斜率的其他任何讨论中,我都没有看到这种情况。要实现它应该非常简单。
编辑:在这种情况下,计算平均斜率的目的是生成一个(多个)一个参数,用于建模通道启动阈值。我有一组现场收集的通道顶部位置,这些位置将收集流量累积,各种平均上坡参数等,并将使用多元线性回归尝试根据其他参数来描述累积阈值。
我必须计算大型数据集的平均上坡百分比斜率,此处详细介绍了基本方法。 但是,我开始怀疑谐波平均值是否比标准算术平均值更合适,因为从技术上讲,它是变化率。在关于平均点,面积,线等的斜率的其他任何讨论中,我都没有看到这种情况。要实现它应该非常简单。
编辑:在这种情况下,计算平均斜率的目的是生成一个(多个)一个参数,用于建模通道启动阈值。我有一组现场收集的通道顶部位置,这些位置将收集流量累积,各种平均上坡参数等,并将使用多元线性回归尝试根据其他参数来描述累积阈值。
Answers:
平均斜率听起来很自然,但这是很奇怪的事情。 例如,平坦的水平平原的平均斜率是零,但是当您向该平原的DEM添加一点随机的零平均噪声时,平均斜率只会上升。 其他奇怪的行为是平均斜率对DEM分辨率的依赖(我在本文中已有记录)以及它对DEM创建方式的依赖。例如,从轮廓图创建的一些DEM实际上是稍微呈梯形的-在轮廓线所在的位置有微小的跳跃-否则,它们是整个表面的准确表示。如果在平均过程中给予过多或过少的权重,则这些突然的跳跃会改变平均斜率。
提高加权很重要,因为实际上,谐波平均值(和其他方法)对斜率进行了差分加权。为了理解这一点,考虑两个正数x和y的谐波均值。根据定义,
Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y
其中权重为a = y /(x + y)和b = x /(x + y)。(这些应该被称为“权重”,因为它们是正数并且总和为1。对于算术平均值,权重为a = 1/2和b = 1/2)。显然,附接至重量X,等于y /(X + Y),是大当X是小相比ÿ。因此,谐波意味着将较小的值过重。
这可能有助于扩大问题。 谐波均值是由实数值p参数化的一系列平均值之一。正如调和平均通过平均所获得的倒数的X和ÿ(再服用它们的平均值的倒数),一般我们可平均的第p权力X和ÿ(然后取结果的1 / p个功率)。p = 1和p = -1的情况分别是算术平均值和谐波平均值。(我们可以定义为平均p通过取极限= 0,从而得到的几何平均值作为该家族中的一员,也。)作为p从1开始递减,较小的值将越来越重。当p从1开始增加时,较大的值将越来越重。因此,平均值只能随着p的增加而增加,而必须随着p的减少而减少。(这在下面的第二张图中很明显,其中所有三行都是平坦的,或者是从左到右递增的。)
从实际出发,我们可以研究各种坡度的行为,并将此知识添加到我们的分析工具箱中:当我们期望坡度以某种关系进入较小的坡度时,应给予更多影响力,我们可以选择p小于1 的均值;相反,为了强调最大斜率,我们可以将p增加到1以上。为此,让我们考虑点附近的各种形式的排水剖面。
为了说明可能发生的情况,我考虑了三个在质量上不同的局部地形:一个是所有坡度相等的地方(这是很好的参考);第二个是所有坡度都相等的地方。另一个是我们本地位于碗底的位置:我们周围的坡度为零,但随后逐渐增加,最终在轮辋周围逐渐变大。这种情况的反面发生在附近的斜坡中等但随后逐渐远离我们的地方。这似乎涵盖了现实中广泛的行为。
这是这三种排水形式的伪3D图:
在这里,我计算了每个函数的平均斜率(使用相同的颜色编码)作为p的函数,令p的范围从-1(谐波平均值)到2。
当然,蓝线是水平的:无论p取什么值,恒定斜率的平均值都不能是该常数以外的值(已将其设置为1作为参考)。随着p的变化,红碗远边缘周围的高斜率强烈影响平均斜率:请注意,一旦p超过1,斜率就会变大。第三(金绿色)表面的水平边缘会引起谐波均值(p =- 1)为零。
值得注意的是,三个曲线的相对位置在p = 0(几何平均值)处发生变化:对于p大于0,红色碗的平均斜率大于蓝色,而对于负p,红色碗的平均斜率较小。比蓝色倾斜。因此,您选择的p甚至可以改变平均斜率的相对排名。
谐波平均值(p = -1)对黄绿色形状的深远影响应该让我们停下来:它表明,当排水管中有足够小的坡度时,谐波平均值可能会很小,以至于淹没了任何所有其他斜坡。
本着探索性数据分析的精神,您可能考虑改变p-也许将其范围从0更改为稍大于1,以避免权重过大,并找出哪个值在平均斜率和变量之间建立了最佳关系正在建模(例如通道初始化阈值)。在回归模型中,通常将“最佳”理解为“最线性”或“创建恒定的(随机)残差”。
我采用了一种经验方法来找到胡布优秀理论答案的补充答案。我决定以度为单位计算斜率,并使用角度平均值求平均值。接下来,我计算了百分比斜率的算术和谐波平均值,并创建了一组随机位于研究区域中的采样点。我要求2000个点,最小距离为100m,得出1326点。我在每个点采样了每个平均斜率栅格的值,然后使用公式将百分比均值转换为度Degrees = atan(percent/100)
。我在这里的假设是,角度均值将产生以度为单位的“正确”平均斜率,并且无论哪个百分比均值更接近它都是正确的过程。
接下来,我使用Kruskal-Wallace检验比较了所有非零值(假设对于大多数零斜率值,所有三个斜率值都为零,而零值将掩盖方法之间的差异)。我发现这三者之间存在显着差异(卡方= 17.9570,DF = 2,p = 0.0001),因此我使用Dunn程序( α= 0.05)进一步检查了数据(Elliot和Hynan 2011)。最终结果是算术平均值和谐波平均值彼此显着不同,但是邻居与角度平均值显着不同:
Comparison Diff SE q q(0.05) Conclude
------------------------------------------------------------------------------
arith harm 164.12 38.78 4.23 2.394 Reject
arith angular 75.3 38.8 1.94 2.394 Do not reject
angular harm 88.82 38.68 2.3 2.394 Do not reject
如果我的假设都是正确的(它们可能不是很正确),则这意味着虽然谐波和算术方法相互创建了不同的值,但它们均与可接受的角度均值“紧密结合”。我还可以想到另外两个警告(如果您想到其他警告,请添加其他警告):
假设没有定义斜率的参数是已知的,那么任何统计学家都会说要使用使数据的RMS偏差最小的斜率。(当然,由于他选择的是数学生成的地貌,因此,whuber的示例不符合条件,但对于真实地貌,未知参数假设应该是有效的。)