我花了一些时间学习机器学习(对于递归很抱歉:),在多变量线性回归的情况下,我选择选择梯度下降而不是直接方程求解来计算回归系数的经验法则使我很感兴趣。
经验法则:如果特征数目(读出的系数/自变量)是间或以上一百万,去与梯度下降,否则矩阵求逆运算是在商用硬件相当可控,从而计算系数直接应该足够好。
从计算上来说,我得到了权衡/限制。但是从统计学的角度来看,我们真的可以计算出具有这么多系数的模型吗?如果我还记得我在研究生院的多元线性回归课,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能微乎其微,否则它们的分布将不服从我们对数据所做的假设。即使我确实开阔了思维以考虑“许多IV”,我仍然不会想成千上万。
问题:
- 这是真的发生还是理论上的问题?
- 分析一百万个静脉注射有什么意义?相对于无视它们,这是否真的使我们获得的信息价值大大增加了?
- 还是因为一开始我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里去并可能删减IV组?
我仍然相信,仅仅因为我们可以分析“一切”,并不意味着我们应该将其扔到求解器中(或者这样做),而我过去的一些问题也反映了类似的POV。
我尚未完成课程,我可能会很快提这个问题,但是我只是想不出这个“为什么”的想法,而是想尽我所能来理解它。