了解逻辑回归和可能性


12

参数估计/逻辑回归训练如何真正起作用?我将尽我所能。

  1. 输出是y的逻辑函数输出,其概率形式取决于x的值:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. 对于一个维度,所谓的赔率定义如下:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. 现在添加log函数以线性形式获取W_0和W_1:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. 现在到问题部分 使用似然性(Big X是y) 谁能说出为什么我们两次考虑y = 1的概率?由于:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

以及如何从中得到ω的值?

Answers:


10

总体上假设您决定采用以下形式的模型

P(y=1|X=x)=h(x;Θ)

对于某些参数。然后,您只需写下它的可能性,即Θ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

这与

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

现在您已经决定“假设”(模型)

P(y=1|X=x)=σ(Θ0+Θ1x)

其中

σ(z)=1/(1+ez)

因此,您只需计算似然的公式并执行某种优化算法即可找到,例如,牛顿法或任何其他基于梯度的方法。argmaxΘL(Θ)

请注意,有时候人们会说,当他们进行逻辑回归时,他们并没有使可能性最大化(就像我们在上面所做的那样),而是使损失函数最小化

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

但请注意。log(L(Θ))=l(Θ)

这是机器学习的一般模式:实践方面(最小化衡量启发式模型有多“错”的损失函数)实际上等于“理论方面”(使用符号显式建模,从而最大化统计量,例如实际上,许多看起来不像概率模型的模型(例如SVM)可以在概率上下文中重新理解,并且实际上是似然性的最大化。P


@Werner感谢您的回答。但是我仍然需要澄清一下。第一,请问一下定义中2在地球上的作用是什么,因为据我了解,我对。以及如何获取和的值非常感谢您的帮助!L(θ)yi=1ω1ω0
引擎

@Engine:大的“ pi”是一个产品...就像一个大的Sigma是一个总和...您了解还是需要对此进行更多说明?关于第二个问题:假设我们希望尽量减少一个函数,我们开始在,但是让我们假设,我们不知道/无法表达/不能想像,因为它是复杂。现在的导数是。有趣的是,如果我们在最小值正确,则它指向右边,而如果我们在左边,则它指向左边。数学上,导数指向“最强上升”的方向Σf(x)=x2x=3fff=2xx=0
Fabian Werner

@Engine:在更多维度上,您可以用梯度替换导数,即从一个随机点并计算处的梯度,如果要最大化,则下一个点为。然后,计算,下一个是,依此类推。这称为梯度上升/下降,是使函数最大化的最常用技术。现在,您可以使用或用符号,以便找到使最大化的x0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner

@Engine:您完全不关心的情况!您对“最好地解释您的数据” 的感兴趣。从 aou开始,让模型“为自己说话”,然后回到的情况,但首先您需要设置模型!在这里,“最好的解释”是指“具有最高的可能性”,因为这是人们想出的(我认为这很自然)……但是,还有其他指标(不同的损失函数等)可以用!有两种产品,因为我们想要的模型来解释以及在 “好”!y=1ωωy=1y=1 y=0
Fabian Werner

8

您的似然函数(4)由两部分组成:仅样本中成功的人的成功概率乘积,以及样本中只有失败的人的成功概率乘积。假设每个人都经历成功或失败,但不会两者都经历,则该概率仅对每个人出现一次。这就是和在产品符号底部的含义。y i = 0,yi=1,yi=0

通过将(1)代入(4),将系数包括在似然函数中。这样,似然函数变为的函数。最大可能性的点是找到将最大可能性变为最大的。ωω


非常感谢您的回答,对不起,但仍然听不懂。不是表示乘积的所有y y = 0 [不出现]的概率。反之亦然,y_i = 1。仍然在替换后如何找到值,计算二阶导数?还是渐变?非常感谢你的帮助 !ωyi=0ω
引擎

i = 1 N y = 1i=1,y=1N应该被理解为“到人的乘积,但仅当。所以第一部分仅适用于您数据中经历过该事件的那些人同样,第二部分仅指未经历此事件的人i=1Ny=1
Maarten Buis

有许多可能的算法可以使似然函数最大化。最常见的方法Newton-Raphson方法,实际上涉及计算一阶和二阶导数。
Maarten Buis
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.