主成分分析可以用于股票价格/非平稳数据吗?


10

我正在阅读《面向黑客的机器学习》一书中给出的示例。我将首先详细说明示例,然后再讨论我的问题。

范例

以25个股价的10年为一个数据集。以25股价格运行PCA。将主要成分与道琼斯指数进行比较。观察PC与DJI之间的强烈相似之处!

据我了解,该示例更像是一个玩具,可以帮助像我这样的新手了解PCA工具的有效性!

但是,从另一个消息来源看,我发现股价是不稳定的,以股价运行PCA是荒谬的。我从中阅读的资料完全嘲笑了计算股价的协方差和PCA的想法。

问题

  1. 这个例子如何运作得如此好?股价的PCA与DJI非常接近。该数据是2002-2011年股价的真实数据。

  2. 有人可以为我指出一些不错的资源来读取固定/非固定数据吗?我是电脑程序编制员。我有很好的数学背景。但是三年来我都没有做过认真的数学运算。我已经开始重新阅读有关随机漫步等内容的信息。

Answers:


10

这部分内容部分地回答了原始问题,以及对@JonEgil的回答发表评论时提出的一些问题。

i.i.d.i.i.d.i.i.d.。这就是为什么在(对数)收益而不是价格上运行PCA有意义的原因。

i.i.d.

Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh


1
f(ti)logf(ti+1)f(ti)

1
@amoeba,我添加了一个快速解释,现在必须离开。我希望我在那里不要犯太多错误。如果还有其他问题,我明天会再来。
理查德·哈迪

1
谢谢。我现在看到收益(对数收益)本质上是价格对数的导数(一阶差)。因此,如果声称收益率是iid,原木价格是随机波动,那么这是有道理的。但是,我仍然对道琼斯的例子感到惊讶,并希望得到进一步的澄清。
变形虫2015年

6

我专业地进行了这些类型的分析,可以确认它们确实有用。但是请确保您分析的不是价格回报。修长手段的批评也突出了这一点:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

我们分析中的一个典型用例是量化市场中的系统性风险。市场上的共同运动越多,您的投资组合中真正拥有的多样化就越少。例如,这可以通过第一主成分描述的方差量来量化。它与第一个特征值的值相同。

对于财务数据,通常会检查一段时间内的移动窗口。某种形式的衰减因子可以降低较早的观测值的权重。对于每日数据,从20至60天不等,对于每周数据,则可能是1-2年,所有都取决于您的需求。

请注意,对于全球金融市场而言,成千上万的资产价格不断变化,一个典型的模型无法运行100K vs 100K协方差矩阵。相反,典型的用例是按国家,每个部门或其他更有意义的组运行分析。或者,通过一组潜在因素(价值,规模,质量,信誉....)对收益进行分解,并对这些因素进行PCA /协方差分析。

一些不错的文章包括Attilio Meucci关于有效下注次数的讨论:http ://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

,还有Ledoit和Wolf的Honey,我缩小了样本协方差矩阵 http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

有关固定性的财务介绍,为什么不从Investopedia开始。它并不严格,但传达了主要思想。

祝好运!

编辑:这是一个3股示例,显示了苹果,谷歌和道琼斯在2015年之前的每日收益。上面的三角形显示了收益的相关性,下面的三角形显示了价格的相关性。

上三角回报相关性,下三角价格相关性

可以看出,苹果与道琼斯指数的价格相关性较高(左下方为0.76),而收益相关性较高(右上方为0.66)。我们可以从中学到什么?不多。Google与苹果(-0.28)和道琼斯(-0.27)的价格均呈负相关。同样,从中学到的东西也不多。但是,收益率相关性告诉我们,苹果和谷歌与道琼斯指数都有很高的相关性(分别为0.66和0.53)。这告诉我们有关投资组合中资产的共同变动(价格变动)的一些信息。那是有用的信息。

要点是,尽管可以轻松地计算价格相关性,但这并不有趣。为什么?因为股票价格本身并不有趣。但是,价格变化非常有趣。


您能否在问题的主要部分上进一步扩展,即使用价格与收益之间的区别?我了解使用价格时,相关矩阵会受到非平稳性的影响;例如,如果所有价格线性增长,那么所有相关性都将是正相关的。首先,为什么不好?特别是考虑到道琼斯实质上是一个平均价格,它也会增长(就像PC1一样)。第二,使用收益应该如何帮助?AFAIK“返回”是相邻点的已记录比率;为什么它有意义并且与道琼斯有何关系?
变形虫

感谢您的翔实回复。但这并不能回答我的问题。我想了解为什么价格分析对于本书中的数据集非常有效?变形虫提出了很多有效的问题。
claudius

1
@claudius:PCA的价格与道琼斯相似,即平均价格,这一事实一点也不奇怪。我想知道为什么PCA产生更好的收益。乔恩也许可以澄清。
变形虫

1
我没有看过ML for Hackers中运行的实际代码,但是每当有人说他们分析价格时,他们实际分析的100的99倍就是对数返回。例如,今天道指下跌了162点,而苹果下跌了0.88美元。这些数字不仅有很大的不同,而且甚至在不同的尺度上,指数点与金钱。但是以pct的术语来说,0.91%和0.75%是可比的,并且您想使用该数字。对于某些分析,可以通过减去平均值来消除数据趋势。在短期财务时间序列中,如果没有趋势,通常会忽略这一点。
乔恩·埃吉尔

1
@amoeba,(部分)回答评论中提出的问题,回报大约是iid,而价格大约是随机游走。在iid观测的假设下,主成分具有良好的属性。这就是为什么对收益而不是价格进行PCA的原因。Ruey S. Tsay主张对金融时间序列的计量经济学模型中的残差运行PCA,因为通常认为残差是iid,所以我认为这可能会包含在他的“ R和金融应用程序的多元时间序列分析”教科书中。
理查德·哈迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.