如何相对于平均温度按年表示千瓦时使用量？

只是为了好玩，我想逐年绘制每月的家庭用电图表。但是，我希望对每月温度有所参考，以便可以确定我的房屋或行为在用电量方面是否在改善，恶化或保持稳定。

我正在使用的数据：

+----------+--------+-----------+----------------+----------+-----------+------------+
|  Month   | # Days | kWh Usage | Daily kWh Avg. | Avg. Low | Avg. High | Avg. Temp. |
+----------+--------+-----------+----------------+----------+-----------+------------+
| Mar 2015 |     32 |      1048 |             33 |       40 |        60 |         50 |
| Feb 2015 |     29 |      1156 |             40 |       32 |        54 |         43 |
| Jan 2015 |     33 |      1143 |             35 |       38 |        57 |         47 |
| Dec 2014 |     30 |       887 |             30 |       39 |        61 |         50 |
| Nov 2014 |     29 |       645 |             22 |       45 |        67 |         56 |
| Oct 2014 |     29 |       598 |             21 |       60 |        78 |         69 |
| Sep 2014 |     32 |       893 |             28 |       70 |        85 |         77 |
| Aug 2014 |     30 |       965 |             32 |       72 |        87 |         79 |
| Jul 2014 |     29 |       784 |             27 |       72 |        87 |         79 |
| Jun 2014 |     32 |      1018 |             32 |       69 |        87 |         78 |
| May 2014 |     30 |       702 |             23 |       63 |        82 |         72 |
| Apr 2014 |     33 |       722 |             22 |       50 |        71 |         60 |
| Mar 2014 |     29 |       830 |             29 |       41 |        62 |         52 |
| Feb 2014 |     28 |      1197 |             43 |       32 |        52 |         42 |
| Jan 2014 |     33 |      1100 |             33 |       38 |        59 |         49 |
| Dec 2013 |     30 |       856 |             29 |       40 |        63 |         51 |
| Nov 2013 |     33 |       686 |             21 |       48 |        70 |         59 |
| Oct 2013 |     30 |       527 |             18 |       61 |        77 |         69 |
| Sep 2013 |     30 |       817 |             27 |       69 |        86 |         77 |
| Aug 2013 |     28 |       991 |             35 |       72 |        86 |         79 |
| Jul 2013 |     31 |       993 |             32 |       73 |        86 |         79 |
| Jun 2013 |     30 |       847 |             28 |       66 |        83 |         74 |
| May 2013 |     29 |       605 |             21 |       59 |        76 |         67 |
| Apr 2013 |     34 |       791 |             23 |       47 |        66 |         57 |
+----------+--------+-----------+----------------+----------+-----------+------------+

我从柱形图开始，轻松地比较了月与月的值：

每月使用情况柱形图

我设想了一个很好的背景区域或折线图，它映射到显示高/低范围的第二个（右）垂直轴，但是意识到这对于多年的分组是有问题的。

一年很容易：

2014 kWh使用温度

我很好奇，是否有人可以推荐一种通过温度比较将所有年度数据合并到单个图表中的方法？

我是否可以使用某种比率来有效地将kWh使用率与平均温度相关联...或者我忽略了其他某种显示技术...或者我每年只停留一张图表吗？

data-visualization

— 肖恩
source

我想建议，重要的是开发一种物理上现实的，实用的能源成本模型。 这比原始数据的任何可视化效果更好，能够检测成本的变化。通过将此与SO上提供的解决方案进行比较，我们在将曲线拟合到数据与执行有意义的统计分析之间的区别方面进行了很好的案例研究。

（此建议是基于十年前将这样的模型适合我自己的家庭使用情况，并将其应用于该时期的变化。请注意，一旦模型适合，就可以轻松地在电子表格中对其进行计算以进行跟踪更改，因此我们不应该受到电子表格软件功能的限制。）

对于这些数据，这种物理上合理的模型与简单的替代模型（每日使用量相对于月平均温度的二次最小二乘拟合）产生的能源成本和使用方式有很大不同。因此，不能将较简单的模型视为理解，预测或比较能源使用模式的可靠工具。

分析

牛顿的冷却定律说，在一个很好的近似值下，（单位时间内的）加热成本应与外部温度和内部温度之差成正比。令比例常数为。也冷却的成本应该正比于该温度差，具有相似的-但不一定相同-比例性常数。（每一个都取决于房屋的隔热能力以及加热和冷却系统的效率。） $t$ $t_0$ $-\alpha$ $\beta$

估算和（表示为每单位时间每度的千瓦（或美元））是可以完成的最重要的事情， $\alpha$ $\beta$ 因为它们使我们能够预测未来的成本以及衡量太阳能的效率。房屋及其能源系统。

因为这些数据是总用电量，所以它们包括非加热成本，例如照明，烹饪，计算和娱乐。 同样令人感兴趣的是此平均基本能源使用量（每单位时间）的估算，我将其称为：它为可节省多少能源提供了下限，并且可以在实现已知幅度的效率改善时预测未来成本。（例如，四年后，我用一个声称效率提高30％的炉子替换了一个熔炉-的确如此。） $\gamma$

最后，作为（总）近似值，我将假设房屋在整个一年中的温度保持在近似的水平。（在我的个人模型中，我分别假设两个温度分别用于冬季和夏季-但此示例中的数据不足以可靠地估算这两个温度，并且无论如何它们都非常接近。）值有助于评估将房屋保持在略有不同的温度下的后果，这是一种重要的节能选择。 $t_0$ $t_0 \le t_1$

数据显示出非常重要和有趣的复杂性：它们反映了外部温度波动期间的总成本，并且波动很大，通常约为每月年度范围的四分之一。正如我们将看到的，这在刚才描述的正确的基础瞬时模型和每月总计的值之间产生了很大的差异。在两个月（或两者都不发生）加热和冷却之间的几个月中，这种效果尤为明显。任何不考虑这种变化的模型都会错误地“认为”能源成本在任何月份的平均温度为时应处于基本费率，但实际情况却大不相同。 $\gamma$ $t_0$

除了月度温度波动的范围之外，我们没有（现成的）详细信息。我建议使用一种实用的方法来处理该问题，但是有点不一致。除极端温度外，每个月通常都会经历温度的逐渐升高或降低。这意味着我们可以使分布大致均匀。当均匀变量的范围具有长度，该变量的标准偏差为。我使用这种关系将范围（从到）转换为标准偏差。但是，从本质上讲，为了获得行为良好的模型，我将使用Normal来减小这些范围末端的变化 $L$ $s = L/\sqrt{6}$ Avg. LowAvg. High分布（这些估算的标准差和给出的均值Avg. Temp）。

最后，我们必须将数据标准化为通用的单位时间。 尽管Daily kWh Avg.变量中已经存在该变量，但是它缺乏精度，所以让我们将总数除以天数，以获取丢失的精度。

因此，在室外温度为时的单位时间冷却成本的模型为 $Y$ $t$

y (t) = γ + α (t - t_{0}) I (t < t_{0}) + β (t - t_{0}) I (t > t_{0}) + ε (t)

$y(t) = \gamma + \alpha(t-t_0)I(t\lt t_0) + \beta(t-t_0)I(t\gt t_0) + \varepsilon(t)$

其中是指标函数，表示该模型中未明确捕获的所有内容。它具有四个要估计的参数：和。（如果您确实确定可以确定它的值，而不是估计它。） $I$ $\varepsilon$ $\alpha,\beta,\gamma$ $t_0$ $t_0$

因此，当温度随时间变化时，在时间段至内报告的总成本为 $x_0$ $x_1$ $t(x)$ $x$

\begin{aligned} Cost (x_{0}, x_{1}) = \int_{x_{0}}^{x_{1}} y (t) d t \\ = \int_{x_{0}}^{x_{1}} (γ + α (t (x) - t_{0}) I (t (x) < t_{0}) + β (t (x) - t_{0}) I (t (x) > t_{0}) + ε (t (x))) t^{'} (x) d x . \end{aligned}

$\eqalign{ &\text{Cost}(x_0,x_1) = \int_{x_0}^{x_1} y(t)dt \\ &=\int_{x_0}^{x_1} \left(\gamma + \alpha(t(x)-t_0)I(t(x)\lt t_0) + \beta(t(x)-t_0)I(t(x)\gt t_0) + \varepsilon(t(x))\right) t^\prime(x) dx. }$

如果该模型完全有效，则的波动应平均为接近零的值，并且似乎每月都会随机变化。用均值（月平均值）和标准差（如先前从月度范围给出的正态分布来近似的波动，并进行积分计算 $\varepsilon(t)$ $\bar\varepsilon$ $t(x)$ $\bar{t}$ $s(\bar t)$

\bar{y} (\bar{t}) = γ + (β - α) s (\bar{t})^{2} ϕ_{s} (\bar{t} - t_{0}) + (\bar{t} - t_{0}) (β + (α - β) Φ_{s} (t_{0} - \bar{t})) + \bar{ε} (\bar{t}) .

$\bar{y}(\bar{t}) = \gamma + (\beta-\alpha)s(\bar t)^2 \phi_s(\bar t-t_0) + (\bar{t}-t_0)\left(\beta + (\alpha-\beta)\Phi_s(t_0 - \bar{t})\right) + \bar\varepsilon(\bar{t}).$

在这个公式中，是零均值和标准差的正态变量的累积分布；是它的密度。 $\Phi_s$ $s(\bar t)$ $\phi$

模型拟合

该模型尽管表达了成本和温度之间的非线性关系，但是在变量和仍然是线性的。但是，由于它在是非线性的，并且是未知的，因此我们需要一个非线性拟合过程。为了说明，我简单地将其转储到似然最大化器中（用于计算），假设是独立且均匀分布的，且均值为零且正态标准差为。 $\alpha,\beta,$ $\gamma$ $t_0$ $t_0$ R $\bar\varepsilon$ $\sigma$

对于这些数据，估计为

(\hat{α}, \hat{β}, \hat{γ}, \hat{t_{0}}, \hat{σ}) = (- 1.489, 1.371, 10.2, 63.4, 1.80) .

$(\hat\alpha,\hat\beta,\hat\gamma,\hat {t_0}, \hat\sigma) = (-1.489, 1.371, 10.2, 63.4, 1.80).$

这表示：

加热成本约为 kWh /天/华氏度。 $1.49$
冷却成本约为 kWh /天/华氏度。冷却效率更高。 $1.37$
基本（非加热/冷却）能耗为 kWh /天。（这个数字是相当不确定的；更多数据将有助于更好地确定它。） $10.2$
房屋温度保持在华氏度左右。 $63.4$
模型中未明确说明的其他变化的标准偏差为 kWh /天。 $1.80$

这些估计中的不确定性的置信区间和其他定量表达式可以使用最大似然机制以标准方式获得。

可视化

为了说明该模型，下图绘制了数据，基础模型，对月平均值的拟合以及简单的最小二乘二次拟合。

每月数据显示为黑色十字。它们所在的水平灰线显示每月的温度范围。我们的基本模型反映了牛顿定律，由在温度处相遇的红色和蓝色线段表示。 我们对数据的拟合不是曲线，因为它取决于温度范围。因此，将其显示为单独的蓝色和红色实心点。（尽管如此，因为每月范围变化不大，所以这些点似乎确实画出了一条曲线-几乎与虚线的二次曲线相同。）最后，虚线是二次最小二乘拟合（适用于深色十字））。 $t_0$

请注意，拟合值与基础（瞬时）模型相差多少，尤其是在中等温度下！这是每月平均的效果。（考虑在水平的每个灰色段上“涂抹”红色和蓝色线条的高度。在极端温度下，所有内容都集中在线条上，但是在中间温度下，“ V”的两侧要求平均，这反映了需要在一个月中的某些时候供暖，而其他时候的制冷。）

型号比较

这两个拟合-一个艰苦的开发和简单，轻松，二次拟合-彼此之间以及与数据点上都非常接近。二次拟合不太好，但是仍然很不错：其调整后的平均残差（针对三个参数）为 kWh /天，而牛顿定律模型的调整后平均残差（针对四个参数）为 kWh /天，降低约5％。 如果您只想在数据点上绘制一条曲线，那么二次拟合的简单性和相对保真度会为您推荐。 $2.07$ $1.97$

但是，二次拟合对了解正在发生的事情完全没有用！它的公式

\bar{y} (\bar{t}) = 219.95 - 6.241 \bar{t} + 0.04879 (\bar{t})^{2},

$\bar y(\bar t) = 219.95 - 6.241 \bar t + 0.04879 (\bar t)^2,$

没有直接揭示任何使用。公平地说，我们可以对其进行一些分析：

这是一个抛物线，其顶点位于华氏度。我们可以将其用作恒定房屋温度的估计值。它与我们最初估计的度相差。但是，在此温度下的预计成本为 kWh /天。这是牛顿定律所适用的基本能源使用量的两倍。 $\hat t_0 = 6.241/(2\times 0.04879) = 64.0$ $63.4$ $219.95 - 6.241(63.4) + 0.04879(63.4)^2 = 20.4$
从导数的绝对值获得加热或冷却的边际成本。例如，使用此公式，当室外温度为度时，我们估算房屋取暖的成本为 kWh / day /°F。 这是牛顿法估算的值的两倍。法。 $\bar{y}^\prime(\bar t) = -6.241 + 2(0.04879)\bar{t}$ $90$ $-6.241 + 2(0.04879)(90) = 2.54$

同样，在度的室外温度下加热房屋的成本估计为 kWh /天/华氏度。 这是牛顿定律估计值的两倍以上。 $32$ $|-6.241 + 2(0.04879)(32)| = 3.12$

在中间温度下，二次拟合在另一个方向上出错。的确，即使平均温度包括低至度和高至度的天数，它在其至度范围内的顶点预测的边际加热或冷却成本几乎为零。（很少有人读这篇文章，他们仍然会在度（=摄氏度）时发热！） $60$ $68$ $50$ $78$ $50$ $10$

简而言之，尽管它在可视化中看起来几乎一样好，但是二次拟合在估计与能源使用相关的基本兴趣量时会严重出错。 因此，将其用于评估用法变化是有问题的，不建议使用。

计算方式

此R代码执行了所有计算和绘图。它可以很容易地适应类似的数据集。

#
# Read and process the raw data.
#
x <- read.csv("F:/temp/energy.csv")
x$Daily <- x$Usage / x$Length
x <- x[order(x$Temp), ]
#pairs(x)
#
# Fit a quadratic curve.
#
fit.quadratic <- lm(Daily ~ Temp+I(Temp^2), data=x)
# par(mfrow=c(2,2))
# plot(fit.quadratic)
# par(mfrow=c(1,1))
#
# Fit a simple but realistic heating-cooling model with maximum likelihood.
#
response <- function(theta, x, s) {
  alpha <- theta[1]; beta <- theta[2]; gamma <- theta[3]; t.0 <- theta[4]
  x <- x - t.0
  gamma + (beta-alpha)*s^2*dnorm(x, 0, s) +  x*(beta + (alpha-beta)*pnorm(-x, 0, s))
}
log.L <- function(theta, y, x, s) {
  #   theta = (alpha, beta, gamma, t.0, sigma)
  #   x = time
  #   s = estimated SD
  #   y = response
  y.hat <- response(theta, x, s)
  sigma <- theta[5]
  sum((((y - y.hat) / sigma) ^2 + log(2 * pi * sigma^2))/2)
}
theta <- c(alpha=-1, beta=5/4, gamma=20, t.0=65, sigma=2) # Initial guess
x$Spread <- (x$Temp.high - x$Temp.low)/sqrt(6)            # Uniform estimate
fit <- nlm(log.L, theta, y=x$Daily, x=x$Temp, x$Spread)
names(fit$estimate) <- names(theta)
#$
# Set up for plotting.
#
i.pad <- 10
plot(range(x$Temp)+c(-i.pad,i.pad), c(0, max(x$Daily)+20), type="n", 
     xlab="Temp", ylab="Cost, kWh/day",
     main="Data, Model, and Fits")
#
# Plot the data.
#
l <- matrix(mapply(function(l,r,h) {c(l,h,r,h,NA,NA)}, 
                   x$Temp.low, x$Temp.high, x$Daily), 2)
lines(l[1,], l[2,], col="Gray")
points(x$Temp, x$Daily, type="p", pch=3)
#
# Draw the models.
#
x0 <- seq(min(x$Temp)-i.pad, max(x$Temp)+i.pad, length.out=401)
lines(x0, cbind(1, x0, x0^2) %*% coef(fit.quadratic), lwd=3, lty=3)
#curve(response(fit$estimate, x, 0), add=TRUE, lwd=2, lty=1)
t.0 <- fit$estimate["t.0"]
alpha <- fit$estimate["alpha"]
beta <- fit$estimate["beta"]
gamma <- fit$estimate["gamma"]
cool <- "#1020c0"; heat <- "#c02010"
lines(c(t.0, 0), gamma + c(0, -alpha*t.0), lwd=2, lty=1, col=cool)
lines(c(t.0, 100), gamma + c(0, beta*(100-t.0)), lwd=2, lty=1, col=heat)
#
# Display the fit.
#
pred <- response(fit$estimate, x$Temp, x$Spread)
points(x$Temp, pred, pch=16, cex=1, col=ifelse(x$Temp < t.0, cool, heat))
#lines(lowess(x$Temp, pred, f=1/4))
#
# Estimate the residual standard deviations.
#
residuals <- x$Daily - pred
sqrt(sum(residuals^2) / (length(residuals) - 4))
sqrt(sum(resid(fit.quadratic)^2) / (length(residuals) - 3))

— ub
source

这可能是我所阅读的任何堆栈溢出问题的最佳解决方案。我非常感谢您花时间解释解决方案背后的逻辑和推理。

— 肖恩

物理学比这更毛茸茸。冷凝器和蒸发器在加热与冷却之间切换。这意味着它们的行为就像两个不同的系统，而不是一个连续的系统。加热天数，冷却天数和除湿天数是三个独立的成本驱动因素，并且取决于地理位置（认为ak，wi，ca，az，mo和fl）和年份可以不连续地起作用（加热季节结束时为与开始冷却相同）。数据不错的统计数据表明，有5个季节，而不是4个季节。5月是它自己的季节，至少在最近5年内。

— EngrStudent

@EngrStudent所有优点，深表感谢。我认为这里介绍的方法虽然简化了，但它显示了打基础以弄清这些微妙的影响所需要的。一旦您处理了模型中的大项-我认为没有人会否认温度必须是成本的主要因素-那么，如果您以有意义的方式做到这一点，则您可能能够确定其他项甚至可以准确地估计其效果。如果您没有正确处理大术语，那么您就没有希望描述其他术语。

— ub

我喜欢这种良好的基础/分析方法，请以掌声而非批评的态度来聆听。加热过程不同于冷却过程，因此两侧的非分段二次方可能与此不一致。蒸发器盘管在冷却期间位于室内，在加热期间位于室外。在热泵中，还存在除霜循环和“备用热量”。此外，压缩机还必须更加努力地工作以抵抗更极端的室外温度，因此，不仅您要散发更多的热量，而且还要将其移到更高的山丘上。它不是线性的。湿度大，可以是能量预算的2/3。空气渗透。

— EngrStudent

@EngrStudent再次谢谢您-这些都是有趣的观点。我不知道湿度可能占预算的很大比例。这种观察表明了将良好理论（或某些圈子中的“概念模型”）与统计分析结合起来的潜在价值。

— ub

我在StackOverflow收到了答案。如果还有其他想法，我对替代解决方案仍然非常感兴趣。

/programming/29777890/data-visualization-how-to-represent-kwh-usage-by-year-against-average-temperatu

— 肖恩
source

SO的解决方案是不可行的。牛顿冷却定律是一个合理的一阶近似值，可作为出发点，它建议能源使用量与温度的关系图应为两条线的结合（也许斜率不同）。平均每日（甚至每小时）隐藏皮温波动，这会使这些线的交点处的区域模糊（不需要加热或冷却）。二次拟合在此处可能是合理的，但渐近拟合需要为线性。

— whuber

我知道平均模糊精度，但它是我的数据。由于对统计的了解不多，我无法理解短语“应该是两行的结合...”和“渐近拟合需要是线性的”。从新手POV来看，SO帖子看起来很直观，因为它符合我的预期，即能耗在温度范围的相对两端增加，而在不需要加热和冷却的中间范围内最低。二次拟合会不会对称？我不认为电力使用是对称的，因为我们加热而不是冷却使用更多的电力。我感谢任何更正或建议。

— 肖恩

二次拟合虽然是对称的，但在极端情况下是非物理的，因为它表示您将为最低温度下的加热付出更多，而在最高温度下的冷却付出的代价比物理上合理的要高得多。此外，只有当每度冷却房屋的成本与每度加热房屋的成本相同时，才可以预期该图中的对称性，这假设加热和冷却系统的效率相同。可能会或可能不会。但是，您不应该在模型中强加这种对称性。

— whuber

我同意这是不同的，因为冷却每度成本要多于热量。但是，因此，我理解第一条评论，您是否建议说SO职位的二次拟合（尽管合理）并不真正准确，并且由于牛顿的冷却定律，线性拟合在技术上是正确的答案吗？我无法理解的是SO解决方案的难以置信。

— 肖恩2015年

我不太适合在空格中回答最后一个问题，因此我将其发布为答案。不过，我看不出您如何推断每度制冷成本大于每度供暖成本。您的数据似乎表明事实恰恰相反（尽管成本很接近，正如人们所期望的那样）。并且请注意，线性模型并不意味着线性拟合！这里发生了很多事情，导致数据系统地偏离此基础模型。

— whuber