现实生活中独立性和相关性之间差异的例子


9

众所周知,随机变量的独立性意味着零相关,但零相关并不一定意味着独立性。

我遇到了很多数学示例,尽管相关性为零,但它们仍显示出依赖性。有现实生活中的例子来支持这一事实吗?


2
注意,只有零相关性和共同的正态变量表示独立性。
弗朗西斯

2
@Siddesh“但是,由于体积不是长度的线性函数,因此它们没有关联。” 好吧,不是完全相关。但是它们将是正相关的。
Silverfish'3

1
@Siddhesh:仅当E[length4]E[length]E[length3]=0 ... 时才有效
Francis

1
如果您不同意我的编辑,请随意添加有关正态分布的评论。但我认为最好将其删除,因为(1)这是对您的主要问题的干扰,(2)之前(我认为)在简历上已经被问到过,因此这里将是现有材料的副本,( 3)我不希望它引起未来读者的困惑。我试图以这样一种方式来编辑该问题,这将增加重新打开该问题的机会:我认为该问题与同一主题的“数学统计”问题截然不同。
银鱼

2
我仍然认为这个问题确实很好,如果可以重新打开它,它可能会吸引更多有趣的答案(可能需要进行一些编辑才能清楚地将其与当前被视为重复的线程区分开)。我在Meta上提出了一个话题,关于重新打开这个问题将需要什么。欢迎所有评论。
银鱼

Answers:


6

股票收益是您所要求的真实示例。今天和昨天的标准普尔500指数回报率之间的相关性几乎为零。但是,存在明显的依赖性:平方收益是自相关的;高波动时期会及时聚集。

R代码:

library(ggplot2)
library(grid)
library(quantmod)

symbols   <- new.env()
date_from <- as.Date("1960-01-01")
date_to   <- as.Date("2016-02-01")
getSymbols("^GSPC", env=symbols, src="yahoo", from=date_from, to=date_to)  # S&P500

df <- data.frame(close=as.numeric(symbols$GSPC$GSPC.Close),
                 date=index(symbols$GSPC))
df$log_return     <- c(NA, diff(log(df$close)))
df$log_return_lag <- c(NA, head(df$log_return, nrow(df) - 1))

cor(df$log_return,   df$log_return_lag,   use="pairwise.complete.obs")  # 0.02
cor(df$log_return^2, df$log_return_lag^2, use="pairwise.complete.obs")  # 0.14

acf(df$log_return,     na.action=na.pass)  # Basically zero autocorrelation
acf((df$log_return^2), na.action=na.pass)  # Squared returns positively autocorrelated

p <- (ggplot(df, aes(x=date, y=log_return)) +
      geom_point(alpha=0.5) +
      theme_bw() + theme(panel.border=element_blank()))
p
ggsave("log_returns_s&p.png", p, width=10, height=8)

在S&P 500上返回日志的时间序列:

日志返回时间序列

如果收益率在时间上是独立的(并且是固定的),那么将不太可能看到那些集群波动率的模式,并且您也不会在平方对数收益率中看到自相关。


3

另一个例子是考试中压力与成绩之间的关系。该关系为倒U形,即使因果关系似乎很清楚,相关性也很低。


2
这是一个很好的例子。您是否有数据或仅基于自省/教学经验?
阿德里安

1
我看到了对此的研究,但是很多年前我就看到了,因此我没有引用文献或实际数据。
彼得·弗洛姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.