当在某些数据集上通过随机梯度下降训练参数化模型(例如,使似然性最大化)时,通常假设从训练数据分布中抽取训练样本。因此,如果目标是建模联合分布,则应从该分布中得出每个训练样本。
如果目标是为条件分布P(Y | X)建模,那么iid需求将如何变化(如果有的话)?
- 我们还必须从联合分布中抽取每个样本 iid吗?
- 我们应该从P(X)绘制 iid ,然后从P(Y | X)绘制y_i iid 吗?
- 我们可以从P(X)中得出不是iid (例如随时间相关),然后从P(Y | X)中得出y_i iid 吗?
您能否评论这三种随机梯度下降方法的有效性?(或在必要时帮助我重新说明问题。)
如果可能的话,我想做#3。我的应用程序是强化学习,其中我使用参数化条件模型作为控制策略。状态序列是高度相关的,但是从状态为条件的随机策略中,对操作进行了iid采样。结果样本(或它们的子集)用于训练策略。(换句话说,想象在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随着时间而相互关联,动作也将根据状态独立地生成。)这是有点类似的情况提出。
我发现了一篇论文,Ryabko,2006年,“ 有条件独立数据的模式识别 ”,乍一看似乎很有意义。然而,那里的情况是从我需要什么,在这里逆转(标签/分类/动作)可以被延伸不IID,和(对象/模式/状态)从绘制IID。
更新: Ryabko论文中提到的两篇论文(此处和此处)似乎与此处相关。他们假设来自任意过程(例如,不是iid,可能是非平稳的)。他们表明,在这种情况下,最近邻估计和核估计是一致的。但是我更感兴趣的是在这种情况下基于随机梯度下降的估计是否有效。
1
也许我缺少了一些东西,但我还没有读过本文,但是:您正在从绘制 non-iid ,然后从采样 iid 。Ryabko(2006)从绘制非iid ,然后从采样 iid 。直到重命名为止,这些看起来都是一样的。关于对象和,是否存在根本不同的东西,使情况不相同?
—
Dougal 2013年
@Dougal:区别在于条件分布模型(如条件随机字段)对和(“输入”和“输出”)的处理方式不同……它们仅对一个方向(而不对)。
—
Tyler Streeter
在这种情况下,我将考虑以下类比。假设和是两个相关的时间序列(时间相关)。我们想找出一个函数,这等效于找到。如果作为残差的是IID(因此平稳且不相关),则估计过程将收敛而不会产生偏差。只要正确地指定了条件似然并且残差为IID,则基本上按时间顺序或任何随机顺序处理时间序列在MLE过程中均无关紧要。
—
Cagdas Ozgenc