巨大峰度?


10

我正在对股指的每日收益进行描述性统计。也就是说,如果和分别是第1天和第2天的索引级别,则是我正在使用的收益(文献上完全标准)。P 2P1P2loge(P2P1)

因此,其中的峰度很大。我正在查看大约15年的每日数据(因此大约有时间序列观测值)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

我的问题是:有什么问题吗?

我想对这些数据进行广泛的时间序列分析-OLS和分位数回归分析,以及Granger因果关系。

我的响应(依赖)和预测变量(回归变量)都将具有这种巨大峰度的特性。因此,我将在回归方程的两边都具有这些返回过程。如果非正态溢出到干扰中,那只会使我的标准误差有很大的变化,对吗?

(也许我需要偏斜度强大的引导程序?)


3
1)您可能希望将其移至quantum.stackexchange.com网站。2)问题是什么意思?关于离群值对瞬间的影响,有完整的文献。它通常可以是一门艺术,而不是一门科学。
约翰

2
“有什么问题吗?” 太模糊了。您想如何处理这些数据?您的大黑牛与巨大的左偏斜相关。由于log(p2 / p1)= log p2-log p1,因此较大的左偏斜表明有几次这种情况非常低,即与通常情况相比,p1比p2高得多。可能是一家公司破产或类似的事情。
彼得·富勒姆

抱歉,我修改了我的OP。

1
对数返回通常偏斜且尾巴很重。因此,最好考虑使用可以捕获此行为的灵活分配。参见示例12

您应该看看基于L矩的
kutosis量度

Answers:


2

尝试一下重尾Lambert W x F偏斜的Lambert W x F分布(免责声明:我是作者)。在R中,它们在LambertW包中实现。

相关文章:

与具有固定自由度的柯西或学生t分布相比,优点之一是可以根据数据估算尾部参数-因此,您可以让数据确定存在哪些矩。此外,Lambert W x F框架允许您转换数据并消除偏斜/重尾现象。重要的是要注意,尽管OLS不需要或正态性。但是,对于您的EDA来说可能是值得的。XyX

这是适用于股票基金收益的Lambert W x高斯估计的示例。

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

时间序列情节股票基金

收益的汇总指标与OP的职位类似(不那么极端)。

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

大多数系列明显显示出非正常的特征(强烈的偏度和/或大峰度)。让我们使用矩估计器(IGMM)的高尾Lambert W x高斯分布(= Tukey h)高斯化每个序列。

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

高斯收益的时间序列图

时间序列图显示的尾部少得多,并且随时间变化也更稳定(尽管不是恒定的)。再次根据高斯时间序列计算指标,得出:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM算法完全达到了设定的目的:将数据转换为峰度等于。有趣的是,所有时间序列现在都具有负偏度,这与大多数金融时间序列文献一致。重要的是在这里指出,它仅在边际上起作用,而不是共同起作用(类似于)。3Gaussianize()scale()

简单二元回归

要考虑高斯化对OLS的影响,请考虑从“ INDIA”收益预测“ EASTEU”收益,反之亦然。尽管我们正在寻找间同一天返回上(无滞后变量),但它仍然对于给定的印度和欧洲之间的6H +时差A股市场的预测提供了价值。 - [R Ñ d rEASTEU,trINDIA,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

散点图印度和东方

原始序列的左侧散点图显示,强异常值并非在同一天发生,而是在印度和欧洲发生在不同的时间。除此之外,尚不清楚中心的数据云是否不支持相关性或负/正相关性。由于离群值强烈影响方差和相关估计,因此值得一看的是去除了大量尾部(右侧散点图)的依存关系。这里的模式更加清晰,印度与东欧市场之间的积极关系也变得显而易见。

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

格兰杰因果关系

针对“ EASTEU”和“ INDIA”的基于模型的Granger因果关系检验 (我使用来捕获每日交易的周效应),而对任一方向均拒绝“无Granger因果关系”。p = 5VAR(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

但是,对于高斯数据,答案是不同的!这里测试可以拒绝H0,“印度并没有格兰杰原因EASTEU”,但仍然拒绝说:“EASTEU不格兰杰原因的印度”。因此,高斯化的数据支持了欧洲市场在第二天推动印度市场的假设。

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

请注意,我不清楚哪一个是正确的答案(如果有的话),但这是一个有趣的发现。不用说,整个因果关系测试取决于是正确的模型-很有可能不是;但我认为它可以很好地说明问题。VAR(5)


1

需要一个更好地拟合数据的概率分布模型。有时,没有确定的时刻。一种这样的分布是柯西分布。尽管柯西分布的中位数为期望值,但没有稳定的平均值,也没有稳定的较高矩。这意味着当收集数据时,实际测量值看起来像异常值,但实际上是测量值。例如,如果一个人有两个正态分布F和G,均值为零,而一个人除以F / G,则结果将没有第一矩,并且是柯西分布。因此,我们很高兴地收集了数据,看起来像5,3,9,6,2,4一样好,并且我们计算了一个看起来稳定的平均值,然后突然我们得到了-32739876值,而我们的平均值变得毫无意义,但请注意,中位数为4,保持稳定。长尾分布就是这样。

编辑:您可以尝试使用2个自由度的学生t分布。该分布具有比正态分布更长的尾部,偏度和峰度不稳定(Sic,不存在),但是均值和方差是定义的,即是稳定的。

下一步编辑:一种可能性是使用Theil回归。无论如何,这是一个想法,因为无论尾巴是什么样,泰勒都能很好地工作。可以通过MLR(使用中位数斜率进行多次线性回归)来完成。我从来没有做过Theil的直方图数据拟合。但是,我用折刀变型完成了泰尔的工作,以建立置信区间。这样做的好处是,Theil不在乎分布形状是什么,并且答案通常比OLS偏少,因为通常在有问题的独立轴方差时使用OLS。并不是说泰尔(Theil)完全没有平衡,而是中位数斜率。答案也有不同的含义,它可以在因变量和自变量之间找到更好的一致性,其中OLS可以找到因变量的最小误差预测值,


2
很好的信息,谢谢。您是否知道一些(相当紧凑的)资源以进一步阅读?长尾巴是一个完全不同的问题,但我认为我的数据只是不同情况的混合分布。
flaschenpost

我使用Mathematica,用这种语言拟合分布以及逐段定义分布并不困难。例如,查看this。通常,随机变量通过卷积相加,但实际上密度函数的卷积具有挑战性。有些人只是逐段定义混合变量的密度函数,例如,在取最大值以模拟地震频率之后,在经过审查的较重的伽玛分布上添加轻指数尾巴。@flaschenpost
卡尔,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.