我们真的用*百万*系数/独立变量执行多元回归分析吗?


18

我花了一些时间学习机器学习(对于递归很抱歉:),在多变量线性回归的情况下,我选择选择梯度下降而不是直接方程求解来计算回归系数的经验法则使我很感兴趣。

经验法则:如果特征数目(读出的系数/自变量)是间或以上一百万,去与梯度下降,否则矩阵求逆运算是在商用硬件相当可控,从而计算系数直接应该足够好。10000-1个000000

从计算上来说,我得到了权衡/限制。但是从统计学的角度来看,我们真的可以计算出具有这么多系数的模型吗?如果我还记得我在研究生院的多元线性回归课,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能微乎其微,否则它们的分布将不服从我们对数据所做的假设。即使我确实开阔了思维以考虑“许多IV”,我仍然不会想成千上万

问题:

  • 这是真的发生还是理论上的问题?
  • 分析一百万个静脉注射有什么意义?相对于无视它们,这是否真的使我们获得的信息价值大大增加了?
  • 还是因为一开始我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里去并可能删减IV组?

我仍然相信,仅仅因为我们可以分析“一切”,并不意味着我们应该将其扔到求解器中(或者这样做),而我过去的一些问题也反映了类似的POV。

我尚未完成课程,我可能会很快提这个问题,但是我只是想不出这个“为什么”的想法,而是想尽我所能来理解它。

Answers:


14

这是真的发生还是理论上的问题?

它发生了,请参阅任何流行的计算机视觉深度学习模型。假设alexnet在2048和2048个单位之间具有紧密的联系,即400万个系数。

分析一百万个静脉注射有什么意义?相对于无视它们,这是否真的使我们获得的信息价值大大增加了?

如果您要分析高度分类的数据(例如,互联网广告数据),则模型必须为每个类别(例如城市,页面ID,站点名称,广告ID,用户ID等),实际值保留一些有意义的“描述” “描述”的大小取决于所选的ML模型。

即使是简单的逻辑回归,也需要成千上万个参数进行拟合(每个类别一个)。像分解因数这样的更高级的模型将拥有更多的时间。

还是因为一开始我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里去并可能删减IV组?

实际上,可以删除这些模型中的大多数拟合参数,但是您可能事先不知道这一点,因此留下了定义哪些参数对于机器学习很重要的问题,并强加一些规则化以将“软限制”设置为有效数保留的参数。

...而且我认为您稍后会在ML课程中找到此类示例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.