Questions tagged «self-study»

从课本,自学中使用的教科书,课程或测试的例行练习。该社区的政策是为此类问题“提供有用的提示”,而不是完整的答案。

1
skipgram word2vec的渐变
我正在研究斯坦福大学NLP深度学习班的书面作业问题,网址为http://cs224d.stanford.edu/assignment1/assignment1_soln 我试图了解3a的答案,他们正在寻找中心词向量的导数。 假设你被给予预测的字向量对应于中心字Ç为skipgram,和字预测与在word2vec模型中发现的功能SOFTMAX制成。vcvcv_{c} y^o=p(o|c)=exp(uTovc)∑Ww=1exp(uTwvc)y^o=p(o|c)=exp(uoTvc)∑w=1Wexp(uwTvc)\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})} 其中w表示第w个单词,而(w = 1,...,W)是词汇表中所有单词的“输出”单词向量。假定将交叉熵成本应用于此预测,并且单词o是预期单词。uwuwu_w 其中是所有的输出向量的矩阵,并让ÿ是词的SOFTMAX预测的列向量,并且ÿ是独热标签,该标签也是列向量。U=[u1,u2,⋅⋅⋅,uW]U=[u1,u2,···,uW]U = [u_1,u_2, · · · ,u_W ]y^y^\hat{y} 其中交叉熵是CE(y,y^)=−∑iyilog(y^i)CE(y,y^)=−∑iyilog⁡(y^i)CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i) 所以对于梯度为中心矢量答案是∂J∂vc=UT(y^−y).∂J∂vc=UT(y^−y).\frac{∂J}{∂v_c}= U^T(\hat{y} − y). 有人可以告诉我实现此目标的步骤吗?我一直用这个问题作为参考在word2vec交叉熵损失的衍生,但我特别想知道表示。UT(y^−y).UT(y^−y).U^T(\hat{y} − y).

2
泊松参数的无偏估计
每天的事故数量是带有参数的泊松随机变量,在随机选择的10天中,观察到的事故数量为1,0,1,1,2,0,2,0,0,1,将是的无偏估计è λ?λλ\lambdaËλeλe^{\lambda} 我想用这种方式来尝试:我们知道,,但Ë (ē ˉ X)≠ ê λ。那么,所需的无偏估计量是多少?Ë(x¯)= λ = 0.8E(x¯)=λ=0.8E(\bar{x})=\lambda=0.8Ë(eX¯)≠ e λE(ex¯)≠ eλE(e^{\bar{x}})\neq\ e^{\lambda}

2
贝叶斯估计量之间的比较
考虑二次损失,先验给定其中。令 的可能性。找到贝叶斯估计器。 π (θ )L (θ ,δ)= (θ - δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ )π(θ)\pi(\theta)˚F (X | θ )= θ X θ - 1 我[ 0 ,1 ](X ),θ > 0 δ ππ(θ )〜ù(0 ,1 / 2 )π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)F(X | θ )= θ Xθ - 1一世[ 0 ,1 ](x ),θ > 0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi …

2
从纸上帮助期望最大化:如何包括事先分配?
该问题基于题为:使用耦合的辐射传输-扩散模型的漫射光学层析成像中的图像重建 下载链接 作者应用具有未知向量稀疏正则化的EM算法来估计图像的像素。该模型由 μl1升1个l_1μμ\mu y=Aμ+e(1)(1)ÿ=一个μ+Ëy=A\mu + e \tag{1} 估算值在等式(8)中给出为 μ^=argmaxlnp(y|μ)+γlnp(μ)(2)(2)μ^=精氨酸⁡米一个Xln⁡p(ÿ|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln p(y|\mu) + \gamma \ln p(\mu)} \tag{2} 在我的情况下,我已经将视为长度为的过滤器,而是代表过滤器的向量。所以,大号μ大号× 1μμ\muL大号Lμμ\mathbf{\mu}L×1大号×1个L \times 1 该模型可以重写为y(n)=μTa(n)+v(n)(3)(3)ÿ(ñ)=μŤ一个(ñ)+v(ñ)y(n) = \mathbf{\mu^T}a(n) + v(n) \tag{3} 问题:问题公式:(n乘以1)是未观察到的输入,是零均值,方差未知加性噪声。MLE解决方案将基于期望最大化(EM)。 { È (Ñ )} σ 2 ëμ(n)μ(n){\mu(n)}{e(n)}{e(n)}\{e(n)\}σ2Ëσe2\sigma^2_e 在本文中,方程(19)是函数-完整的对数似然性,但是对于我而言,我不理解如何在完整的对数似然表达式中包含的分布。 甲,μ一个AA甲,μA,μA, \mu 使用 EM(包括先验分布)的完全对数似然是什么?ÿyy

2
转换订单统计
假设随机变量和是独立的并且是。证明Z_n = n \ log \ frac {\ max(Y _ {(n)},X _ {(n)})} {\ min(Y _ {(n)},X _ {(n)})}的\文本{Exp}(1)分发。X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) 我通过设置\ {X_1,...,X_n,Y_1,... Y_n \} = \ {Z_1,...,Z_n \}开始了这个问题,{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\}然后max(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)}分布为(za)2n(za)2n(\frac{z}{a})^{2n}而min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= Z_{(1)}分布为1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} 可以很容易地找到密度,因为fZ1(z)=(2n)(1−za)2n−11afZ1(z)=(2n)(1−za)2n−11af_{Z_{1}}(z) = (2n)(1-\frac{z}{a})^{2n-1}\frac{1}{a}和fZ(2n)(z)=(2n)(za)2n−11afZ(2n)(z)=(2n)(za)2n−11af_{Z_{(2n)}}(z) = (2n)(\frac{z}{a})^{2n-1} \frac{1}{a} 现在,在计算完这些之后,我很难知道下一步要去哪里。我以为它必须进行某种转换,但是我不确定...

1
线性变换的相关不变性:
这实际上是古吉拉特语《基本计量经济学》第4版(Q3.11)中的问题之一,并说相关系数相对于原点和比例的变化是不变的,即,其中,,,是任意常数。corr(aX+b,cY+d)=corr(X,Y)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaabbbcccddd 但是我的主要问题是:让和成对观察,并假设和正相关,即。我知道基于直觉会为负数。然而,如果我们取,它遵循,其不没有道理。XXXYYYXXXYYYcorr(X,Y)>0corr(X,Y)>0\text{corr}(X,Y)>0corr(−X,Y)corr(−X,Y)\text{corr}(-X,Y)a=−1,b=0,c=1,d=0a=−1,b=0,c=1,d=0a=-1, b=0, c=1, d=0corr(−X,Y)=corr(X,Y)>0corr(−X,Y)=corr(X,Y)>0\text{corr}(-X,Y) = \text{corr}(X,Y) >0 如果有人可以指出差距,我将不胜感激。谢谢。

3
如何证明
我一直在尝试建立不平等 |Ti|=∣∣Xi−X¯∣∣S≤n−1n−−√|Ti|=|Xi−X¯|S≤n−1n\left| T_i \right|=\frac{\left|X_i -\bar{X} \right|}{S} \leq\frac{n-1}{\sqrt{n}} 其中X¯X¯\bar{X}是样品平均值和SSS样本标准差,即 S=∑ni=1(Xi−X¯)2n−1−−−−−−−−−√S=∑i=1n(Xi−X¯)2n−1S=\sqrt{\frac{\sum_{i=1}^n \left( X_i -\bar{X} \right)^2}{n-1}}。 很容易看到∑ni=1T2i=n−1∑i=1nTi2=n−1\sum_{i=1}^n T_i^2 = n-1 ,因此|Ti|&lt;n−1−−−−−√|Ti|&lt;n−1\left| T_i \right| < \sqrt{n-1}但这与我一直在寻找的目标不是很接近,也不是一个有用的界限。我已经试验了柯西-舒瓦兹(Cauchy-Schwarz)和三角形不等式,但没有成功。我必须在某个地方缺少一个微妙的步骤。谢谢您的帮助。

1
梯度提升如何像梯度下降一样?
我正在阅读有关梯度增强的有用的Wikipedia条目(https://en.wikipedia.org/wiki/Gradient_boosting),并尝试了解如何/为什么我们可以通过最陡峭的下降步骤(也称为伪梯度)来近似残差)。谁能给我关于最陡峭的下降如何联系/类似于残差的直觉?帮助非常感谢!

4
掷骰子的期望数量要求总和大于或等于K?
6面模具反复滚动。求和大于或等于K所需的预期卷数是多少? 编辑之前 P(Sum&gt;=1 in exactly 1 roll)=1 P(Sum&gt;=2 in exactly 1 roll)=5/6 P(Sum&gt;=2 in exactly 2 rolls)=1/6 P(Sum&gt;=3 in exactly 1 roll)=5/6 P(Sum&gt;=3 in exactly 2 rolls)=2/6 P(Sum&gt;=3 in exactly 3 rolls)=1/36 P(Sum&gt;=4 in exactly 1 roll)=3/6 P(Sum&gt;=4 in exactly 2 rolls)=3/6 P(Sum&gt;=4 in exactly 3 rolls)=2/36 P(Sum&gt;=4 in exactly …

1
EM算法是否始终如一地估计高斯混合模型中的参数?
我正在研究高斯混合模型,自己提出这个问题。 假设的基础数据从混合物产生高斯分布和他们每个人都有一个平均向量μ ķ ∈ [R p,其中1 ≤ ķ ≤ ķ和他们每个人都有相同的协方差矩阵Σ,并假定此Σ是对角矩阵。并假设混合比为1 / K,即每个簇具有相同的权重。ķKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\SigmaΣΣ\Sigma1/K1/K1/K 因此,在这个理想的例子中,唯一的工作是估计均值向量μ ķ ∈ [R p,其中1 ≤ ķ ≤ ķ和共方差矩阵Σ。KKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\Sigma 我的问题是:如果我们用EM算法,我们将能够始终如一地估计和Σ,即,当样本大小ñ →交通∞,将EM算法产生的估计实现的真正价值μ ķ和Σ?μkμk\mu_kΣΣ\Sigman→∞n→∞n\rightarrow\inftyμkμk\mu_kΣΣ\Sigma

1
如果是独立Beta,则显示也是beta
这是几年前在我们大学进行的学期考试中遇到的一个问题,我正在努力解决。 如果X1,X2X1,X2X_1,X_2是密度分别为\ beta(n_1,n_2)和\ beta(n_1 + \ dfrac {1} {2},n_2)的独立ββ\beta随机变量,则表明\ sqrt {X_1X_2}遵循\ beta(2n_1, 2n_2)。β(n1个,n2)β(ñ1个,ñ2)\beta(n_1,n_2)β(n1个+ 12,n2)β(ñ1个+1个2,ñ2)\beta(n_1+\dfrac{1}{2},n_2)X1个X2-----√X1个X2\sqrt{X_1X_2}β(2 n1个,2 n2)β(2ñ1个,2ñ2)\beta(2n_1,2n_2) 我使用Jacobian方法获得Y = \ sqrt {X_1X_2}的密度ÿ= X1个X2-----√ÿ=X1个X2Y=\sqrt{X_1X_2}如下: Fÿ(y)= 4 ÿ2 n1个乙(Ñ1个,n2)B (n1个+ 12,n2)∫1个ÿ1个X2(1 − x2)ñ2− 1(1 − y2X2)ñ2− 1dXFÿ(ÿ)=4ÿ2ñ1个乙(ñ1个,ñ2)乙(ñ1个+1个2,ñ2)∫ÿ1个1个X2(1个-X2)ñ2-1个(1个-ÿ2X2)ñ2-1个dXf_Y(y)=\dfrac{4y^{2n_1}}{B(n_1,n_2)B(n_1+\dfrac{1}{2},n_2)}\int_y^1\dfrac{1}{x^2}(1-x^2)^{n_2-1}(1-\dfrac{y^2}{x^2})^{n_2-1}dx 我实际上在这一点上迷路了。现在,在主文件中,我发现已经提供了提示。我尝试使用提示,但无法获得所需的表达式。提示逐字记录如下: 提示:根据给定的X_1和X_2密度,得出Y = \ sqrt {X_1X_2}的密度公式,并尝试使用z = \ dfrac {y ^ 2} {x}的变量更改。ÿ= X1个X2-----√ÿ=X1个X2Y=\sqrt{X_1X_2}X1个X1个X_1X2X2X_2ž= y2Xž=ÿ2Xz=\dfrac{y^2}{x} 因此,在这一点上,我尝试通过考虑变量的这种变化来利用此提示。因此我得到Fÿ(y)= …

1
“稳健统计:基于影响函数的方法”练习2.2a.16的解决方案
在“ 稳健统计:基于影响函数的方法”的第180页上,找到以下问题: 16:表明对于位置不变的估计量,总是 。在为奇数或为偶数的情况下,在有限样本击穿点上找到相应的上限。ε∗≤12ε∗≤12\varepsilon^*\leq\frac{1}{2}ε∗nεn∗\varepsilon^*_nnnnnnn 第二部分(句号之后)实际上是微不足道的(鉴于第一部分),但是我找不到方法来证明问题的第一部分(句子)。 在本书中与该问题有关的部分中,发现(p98): 定义2:样本(x_1,\ ldots,x_n)上估计量的有限样本分解点由下式给出:\ varepsilon ^ * _ n(T_n; x_i,\ ldots,x_n):= \ frac {1} {n} \ max \ {m:\ max_ {i_1,\ ldots,i_m} \ sup_ {y_1,\ ldots,y_m} \; || T_n(z_1,\ ldots,z_n)| &lt;\ infty \}ε∗nεn∗\varepsilon^*_nTnTnT_n(xl,…,xn)(xl,…,xn)(x_l,\ldots, x_n) ε∗n(Tn;xi,…,xn):=1nmax{m:maxi1,…,imsupy1,…,ym|Tn(z1,…,zn)|&lt;∞}εn∗(Tn;xi,…,xn):=1nmax{m:maxi1,…,imsupy1,…,ym|Tn(z1,…,zn)|&lt;∞}\varepsilon^*_n(T_n;x_i,\ldots,x_n):=\frac{1}{n}\max\{m:\max_{i_1,\ldots,i_m}\sup_{y_1,\ldots,y_m}\;|T_n(z_1,\ldots,z_n)|<\infty\} 其中通过将m个数据点 x_ {i_1},\ ldots,x_ {i_m}替换为任意值 y_1,\ ldots,y_m来获得样本(z_1,\ ldots,z_n)。(z1,…,zn)(z1,…,zn)(z_1,\ldots,z_n)mmmxi1,…,ximxi1,…,ximx_{i_1},\ldots,x_{i_m}y1,…,ym.y1,…,ym.y_1,\ldots,y_m. \ varepsilon ^ …

1
如果存在两个未知数,负二项式是否不能像指数族那样表达?
假设色散参数是一个已知的常数,我有一个作业分配以表示负二项式分布为指数分布族。这相当简单,但是我想知道为什么他们要求我们将参数固定。我发现我无法想出一种方法来以正确的形式将两个参数未知。 在网上寻找时,我发现这是不可能的。但是,我找不到任何证明是真的。我自己也似乎无法提出。有人证明吗? 按照下面的要求,我提出了一些要求: “具有固定失败次数(也称为停止时间参数)r的负二项式分布族是指数族。但是,当允许上述任何固定参数发生变化时,所得族都不是指数族。 ” http://en.wikipedia.org/wiki/Exponential_family “二参数负二项式分布不是指数族的成员。但是,如果我们将色散参数视为已知的固定常数,则它是一个成员。” http://www.unc.edu/courses/2006spring/ecol/145/001/docs/lectures/lecture21.htm

1
使用Johansen方法获取协整向量
我试图更好地理解Johansen方法,因此我开发了一个示例3.1,该示例由《基于可能性的推理-协整-自回归计量经济学》一书给出, 其中有三个过程: X1t=∑i=1tϵ1i+ϵ2tX1t=∑i=1tϵ1i+ϵ2tX_{1t} = \sum_{i=1}^t \epsilon_{1i} + \epsilon_{2t} X2t=α∑i=1tϵ1i+ϵ3tX2t=α∑i=1tϵ1i+ϵ3t X_{2t} = \alpha \sum_{i=1}^t \epsilon_{1i} + \epsilon_{3t} X3t=ϵ4tX3t=ϵ4t X_{3t} = \epsilon_{4t} 因此协整向量应该是[a,-1,0]和[0,0 1],但是当我运行Johansen方法时,我无法获得它们。 我正在尝试的代码如下: import numpy as np import matplotlib.pyplot as plt import pandas as pd from statsmodels.tsa.stattools import adfuller from statsmodels.tsa.johansen import coint_johansen mu, sigma = 0, 1 # mean …

1
来自单面Kolmogorov-Smirnov检验的和的两个样本CDF是多少?
我想了解如何获得 -值对片面柯尔莫哥洛夫-斯米尔诺夫检验,以及我在努力寻找的CDF和(在两个样本的情况下)。在一个示例中,以下几处被引用为的CDF :pppD+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}D+nDn+D^{+}_{n} p+n(x)=P(D+n≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jpn+(x)=P(Dn+≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jp^{+}_{n}\left(x\right) = \text{P}\left(D^{+}_{n} \ge x | \text{H}_{0}\right) = x\sum_{j=0}^{\lfloor n\left(1-x\right)\rfloor}{ \binom{n}{j} \left(\frac{j}{n}+x\right)^{j-1}\left(1 - x - \frac{j}{n}\right)^{n-j}} 另外,whuber sez对此单样本CDF的表示形式略有不同(我将x替换xxx为ttt,以与此处的符号保持一致): 使用概率积分变换,唐纳德·努斯推导了它们在p上的(公共)分布。TAoCP第2卷的第57页和练习17。 (D+n≤xn−−√)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1(Dn+≤xn)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1\left(D^{+}_{n}\le \frac{x}{\sqrt{n}}\right)=\frac{x}{n^{n}}\sum_{c\le k\le x}\binom{n}{k}\left(k-x\right)^{k}\left(x+n-k\right)^{n-k-1} 这将适用于单样本情况下的单边假设,例如:H 0: F(x)−F0≤00: F(x)−F0≤0_{0}\text{: }F(x)-F_{0} \le 0,其中F(x)F(x)F(x)是经验CDF的xxx,和F0F0F_{0}是一些CDF。 我认为这种情况下的xxx是一个人的样本中D+nDn+D^{+}_{n}的值,⌊n(1−x)⌋⌊n(1−x)⌋\lfloor n\left(1-x\right)\rfloor是n-nx中最大的整数n−nxn−nxn-nx。(那正确吗?) 但是当一个具有两个样本时,(或的CDF是多少?例如,对于和的经验CDF ,当H?如何获得?D+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}0: FA(x)−FB(x)≤00: FA(x)−FB(x)≤0_{0}\text{: }F_{A}(x)-F_{B}(x) \le 0AAABBBp+n1,n2pn1,n2+p^{+}_{n_{1},n_{2}}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.