我正在做一项家庭作业,我的教授希望我们创建一个真正的回归模型,模拟数据样本,他将尝试使用我们在课堂上学到的一些技术来寻找我们真正的回归模型。同样,我们将不得不对他给我们的数据集做同样的事情。
他说,过去的所有尝试去欺骗他的人,他都能产生出非常准确的模型。有一些学生创建了一些疯狂的模型,但是可以说他能够产生一个简单的模型就足够了。
我该如何为他找到一个棘手的模型?我不想做4个二次项,3个观测值和大量方差而变得超级便宜吗?我如何才能生成一个看起来无害的数据集,该数据集下面有一个艰难的小模型?
他只是遵循以下3条规则:
您的数据集必须有一个“ Y”变量和20个“ X”变量,分别标记为“ Y”,“ X1”,...,“ X20”。
您的响应变量必须来自满足以下条件的线性回归模型: 其中和。ÿ ' 我 = β 0 + β 1 X ' 我1 + ... + β p - 1 X ' 我,p - 1 + ε 我ε 我〜Ñ (0 ,σ 2)
用于创建所有变量都包含在数据集中。ÿ
应该注意的是,并非所有20 X变量都需要在实际模型中
我当时正在考虑使用Fama-French 3因子模型之类的方法,并让他从股票数据(SPX和AAPL)入手,并且不得不将这些变量转换为连续复利的收益,以便对其进行进一步模糊处理。但这使我在第一个观察中缺少值,而是时间序列(我们尚未在课堂上讨论过)。
不确定这是否是发布类似内容的合适地方。我觉得它可以引起一些好的讨论。
编辑:我也不特别要求“预构建”模型。我对“统计”中的主题/工具感到好奇,它可以使某些人对此感兴趣。