在统计学习中,隐式或显式地,总是假设训练集由输入/响应元组是从同一个联合分布中独立得出的,
和通过特定的学习算法试图捕获的关系。从数学上讲,该iid假设写道:
我认为我们都可以同意这一假设在实践中很少得到满足,请参阅此相关的SE问题以及@Glen_b和@Luca的明智评论。
因此,我的问题是:
在实践中,关于iid的假设到底在哪里变得至关重要?
[背景]
我之所以这么问,是因为我可以想到很多情况下,不需要这样严格的假设来训练某个模型(例如线性回归方法),或者至少有一个可以绕过iid假设并获得可靠结果的情况。实际上,结果通常保持不变,而是可以得出的推论会有所变化(例如,线性回归中的异方差和自相关一致的HAC估计量:想法是重新使用旧的OLS回归权重,但要适应OLS估计量的有限样本行为,以解决违反高斯-马尔可夫假设的情况。
因此,我的猜测是,不需要iid假设就能够训练特定的学习算法,而是要保证确实可以使用诸如交叉验证之类的技术来推断模型对泛化能力的可靠度量,这是我们最终对统计学习感兴趣的唯一一件事,因为它表明我们确实可以从数据中学习。凭直觉,我确实可以理解,对依存数据使用交叉验证可能会产生偏见(如在此有趣的示例中所说明/解释的)。
因此,对我而言,iid与训练特定模型无关,而与该模型的可推广性有关。这似乎与Huan Xu等人发现的论文相符,请参见此处的 “马尔可夫样本的稳健性和泛化性” 。
你同意吗?
[例]
如果这能帮助的讨论,请考虑使用套索算法进行当中一个聪明的选择问题中的特征训练样本与 我们可以进一步假设:Ñ (X我,ÿ 我)∀ 我= 1 ,。。。,Ñ X我 = [ X 我1,。。。,X i P ]
- 输入是相关的,因此导致违反iid假设(例如,对于每个特征我们观察到一个点时间序列,因此引入了时间自相关)Ĵ=1,。。,PÑ
- 条件响应是独立的。
- 我们拥有。
在这种情况下,假设我们计划使用交叉验证方法(在完整数据集上)+使用嵌套交叉验证来确定LASSO罚分系数则以何种方式违反iid假设会造成问题以感觉到这种学习策略的普遍性错误(我们可以将有关LASSO固有优点/缺点的讨论放在一边,除非它有用)。