3
如何处理不存在或缺失的数据?
我尝试了一种预测方法,并想检查我的方法是否正确。 我的研究正在比较不同种类的共同基金。我想使用GCC指数作为其中一个的基准,但问题是GCC指数于2011年9月停止,我的研究时间是2003年1月至2014年7月。因此,我尝试使用另一个指数MSCI指数,进行线性回归,但问题在于MSCI指数缺少2010年9月以来的数据。 为了解决这个问题,我做了以下工作。这些步骤有效吗? MSCI指数缺少2010年9月到2012年7月的数据。我通过应用五个观察值的移动平均值来“提供”该数据。这种方法有效吗?如果是这样,我应该使用多少个观测值? 在估计了缺失的数据之后,我对相互可用期间(从2007年1月到2011年9月)的GCC指数(作为因变量)与MSCI指数(作为自变量)进行了回归,然后针对所有问题对模型进行了校正。对于每个月,我将其余时间段的x替换为MSCI索引中的数据。这有效吗? 以下是逗号分隔值格式的数据,其中包含按行的年和按列的月。也可以通过此链接获得数据 。 系列GCC: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709 2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306 2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817 2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865 2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911 2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192 2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085 2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267 2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802 2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA 系列MSCI: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223 2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127 2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14 2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA 2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA 2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447 2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842 2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA