隐藏教授(回归战舰)的回归模型[关闭]


11

我正在做一项家庭作业,我的教授希望我们创建一个真正的回归模型,模拟数据样本,他将尝试使用我们在课堂上学到的一些技术来寻找我们真正的回归模型。同样,我们将不得不对他给我们的数据集做同样的事情。

他说,过去的所有尝试去欺骗他的人,他都能产生出非常准确的模型。有一些学生创建了一些疯狂的模型,但是可以说他能够产生一个简单的模型就足够了。

我该如何为他找到一个棘手的模型?我不想做4个二次项,3个观测值和大量方差而变得超级便宜吗?我如何才能生成一个看起来无害的数据集,该数据集下面有一个艰难的小模型?

他只是遵循以下3条规则:

  1. 您的数据集必须有一个“ Y”变量和20个“ X”变量,分别标记为“ Y”,“ X1”,...,“ X20”。

  2. 您的响应变量必须来自满足以下条件的线性回归模型: 其中和。ÿ ' = β 0 + β 1 X ' 1 + ... + β p - 1 X ' p - 1 + ε ε Ñ 0 σ 2Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. 用于创建所有变量都包含在数据集中。ÿXY

应该注意的是,并非所有20 X变量都需要在实际模型中

我当时正在考虑使用Fama-French 3因子模型之类的方法,并让他从股票数据(SPX和AAPL)入手,并且不得不将这些变量转换为连续复利的收益,以便对其进行进一步模糊处理。但这使我在第一个观察中缺少值,而是时间序列(我们尚未在课堂上讨论过)。

不确定这是否是发布类似内容的合适地方。我觉得它可以引起一些好的讨论。

编辑:我也不特别要求“预构建”模型。我对“统计”中的主题/工具感到好奇,它可以使某些人对此感兴趣。


4
如果他将您限制为线性模型,将会变得很难...
Frank H.

4
如果您的教授在您的真实系数在95%的置信区间内获胜,那么多重共线性将无济于事,因为多重共线性极大地夸大了CI。另一方面,如果对新预测变量的预测数据与实际数据之间的差异进行评估(“真实”数据已使用真实DGP生成),那么多重共线性将是一种更好的方法。底线:找出目标函数是什么,并针对它定制方法。(这在生活中普遍适用...)
斯蒂芬·科拉萨

4
@dylanjm您能准确定义您的胜利条件吗?
马修·冈恩

11
这样做的重点是让你通过尝试思考自己来学习。如果您在这里请专家反对他,那么您通过整合与回归相关的不同信息来实际上伸张大脑的机会就大大减少了(这对教授也不公平)。此外,在任何有名望的机构中,如果您的工作是由别人来完成的,则将其介绍给您,这可能会介于学术不端行为和欺诈之间(尤其是值得您付出任何部分的代价)。请特别注意您的要求。
Glen_b-恢复莫妮卡

4
尽管这个问题很受欢迎,但我还是不得不在此关闭它,因为即使在反复要求澄清游戏规则(将使用什么标准来评估成功,必须提供多少样本等)之后,这一点也很重要信息仍未出现在问题中。我们的目标比“进行讨论”更狭窄,更集中:请咨询我们的帮助中心,以解决我们可以在此站点上解决的各种问题。
ub

Answers:


6

只需使误差项比所解释的部分大得多。例如:,其中X i j = sin i + j i = 1..1000σ = 1000000。当然,您必须记住您的种子是什么,以便可以向您的教授证明您是对的,而他是错的。yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

希望通过此噪声/信号比确定相位。


这似乎不适用于CI获胜标准,不是吗?我们将简单地获得肯定可以覆盖1的巨大CI。当然,还有一些数值不稳定。
Stephan Kolassa,

不稳定将不是问题,我要做的只是将信号掩埋在噪声中。这将作为纯白噪声发出。
阿克萨卡(Aksakal)'18

4
这被认为是由OP的不良便宜模型
塞克图斯经验派

5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY 等等。您可以反驳说他不是在说什么,因为他说:

变量Y必须来自满足(...)用于创建Y(...)您的真实模型(...)的变量的线性回归模型

您可能会在课堂上引发有关因果关系,真正的DGP含义和总体可识别性的精彩讨论。


您提出的帖子中符合#2的模型
Aksakal,

3

使用具有多重共线性和异方差性的变量(例如收入与年龄):进行一些痛苦的特征工程以解决缩放问题:为一些稀疏的人提供NA。线性度确实使它更具挑战性,但可能会很痛苦。另外,离群值将使他的问题提前增加。


我认为异方差性超出了问题的范围,但是绝对同意多重共线性是使真正的规范难以发现的最佳方法之一。
JDL


0

选择任何线性模型。给他一个数据集,其中大多数样本在x = 0附近。给他几个样本,大约x = 1,000,000。

令人高兴的是,x = 1,000,000附近的样本不是离群值。它们是从同一来源生成的。但是,由于标度差异很大,因此误差大约为1M,而误差大约为0。

Yi=β0+β1Xi1+ϵi

我们有n个样本的数据集,接近x = 0。我们将在“足够”值中再选择2个点。我们假设这两点有一些错误。

“足够远”的值是这样的值,即在这两个点中未直接通过的估计误差比数据集其余部分的误差大得多。

因此,线性回归将选择通过这两个点的系数,并且会错过数据集的其余部分,并且与下划线模型不同。

请参见以下示例。{{1,782},{2,3099},{3,110},{4,1266},{5,1381},{1000000,1002169},{1000001,999688}}

这是WolfarmAlpha系列格式。在每对中,第一项是x,第二项是在Excel中使用公式= A2 + NORMINV(RAND(),0,2000)生成的。

β0=1,β1=1

y=178433.x426805y=x


这项工作究竟应该如何运作?应该产生什么效果?
理查德·哈迪

它的工作原理是,噪声和精度在不同的范围内会有所不同。如果数量较多,则将其视为极端并考虑单个点,则该线应直接穿过该点或承受大量成本。一些噪声足以错过正确的值。大约在零附近,这又是极端的-不会产生误解,您会被噪音所困扰。
DaL

对系数错误的变量使用较小的值,则您要付出代价。
DaL

是的,但是为什么教授很难发现产生这种现象的模型?当给定的回归变量变化很大时,这似乎是一项特别容易的任务。
理查德·哈迪

因为没有模型可以很好地适合这两个群体。
DaL
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.