是否可以通过随机梯度下降从P(X)的非iid样本和P(Y | X)的iid样本中训练P(Y | X)的模型?


10

当在某些数据集上通过随机梯度下降训练参数化模型(例如,使似然性最大化)时,通常假设从训练数据分布中抽取训练样本。因此,如果目标是建模联合分布,则应从该分布中得出每个训练样本。P(X,Y)(xi,yi)

如果目标是为条件分布P(Y | X)建模P(Y|X),那么iid需求将如何变化(如果有的话)?

  1. 我们还必须从联合分布中抽取每个样本(xi,yi) iid吗?
  2. 我们应该从P(X)绘制xi iid ,然后从P(Y | X)绘制y_i iid 吗?P(X)yiP(Y|X)
  3. 我们可以从P(X)中得出xi不是iid (例如随时间相关),然后从P(Y | X)中得出y_i iid 吗?P(X)yiP(Y|X)

您能否评论这三种随机梯度下降方法的有效性?(或在必要时帮助我重新说明问题。)

如果可能的话,我想做#3。我的应用程序是强化学习,其中我使用参数化条件模型作为控制策略。状态序列xi是高度相关的,但是从状态为条件的随机策略中,对操作yi进行了iid采样。结果样本(xi,yi)(或它们的子集)用于训练策略。(换句话说,想象在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随着时间而相互关联,动作也将根据状态独立地生成。)这是有点类似的情况提出

我发现了一篇论文,Ryabko,2006年,“ 有条件独立数据的模式识别 ”,乍一看似乎很有意义。然而,那里的情况是从我需要什么,在这里逆转(标签/分类/动作)可以被延伸不IID,和(对象/模式/状态)从绘制IID。yiP(Y)xiP(X|Y)

更新: Ryabko论文中提到的两篇论文(此处此处)似乎与此处相关。他们假设来自任意过程(例如,不是iid,可能是非平稳的)。他们表明,在这种情况下,最近邻估计和核估计是一致的。但是我更感兴趣的是在这种情况下基于随机梯度下降的估计是否有效。xi


1
也许我缺少了一些东西,但我还没有读过本文,但是:您正在从绘制 non-iid ,然后从采样 iid 。Ryabko(2006)从绘制非iid ,然后从采样 iid 。直到重命名为止,这些看起来都是一样的。关于对象和,是否存在根本不同的东西,使情况不相同?xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal 2013年

@Dougal:区别在于条件分布模型(如条件随机字段)对和(“输入”和“输出”)的处理方式不同……它们仅对一个方向(而不对)。XYP(Y|X)P(X|Y)
Tyler Streeter

2
在这种情况下,我将考虑以下类比。假设和是两个相关的时间序列(时间相关)。我们想找出一个函数,这等效于找到。如果作为残差的是IID(因此平稳且不相关),则估计过程将收敛而不会产生偏差。只要正确地指定了条件似然并且残差为IID,则基本上按时间顺序或任何随机顺序处理时间序列在MLE过程中均无关紧要。YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc

Answers:


1

我认为您可以选择2或3。但是3的问题是,在允许对X进行任意分布时,您将包含所有或几乎所有概率都集中在X空间中的很小间隔的分布。这将损害P(Y | X)的总体估计,因为对于某些X值,您几乎没有数据。


那么,您是说采用方法3时,如果偏差可能很大,我将得到一个公正的结果?
泰勒·斯特林

如果在点x或附近没有数据,那么您甚至无法估计P(Y | X = x),并且如果只有几个点,则估计的方差将很大。11
Michael R. Chernick

是的,这可以说差异可能很大。我想我主要担心的是估计的P(Y | X)是否会产生偏差。
泰勒·斯特纳

我们没有讨论点估计。如果您对P(X),P(Y)和P(X | Y)有无偏估计,并将它们插入公式P(Y | X)= P(X | Y)P(Y)/ P(X)您会得到一个有偏差的估计。
Michael R. Chernick

我应该强调,我是在谈论通过随机梯度下降来估计P(Y | X),在这种情况下,训练样本的顺序会影响训练的速度或收敛到正确模型的速度。我不只是使用样本平均值,样本顺序无关紧要。
泰勒·斯特林
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.