Questions tagged «self-study»

从课本,自学中使用的教科书,课程或测试的例行练习。该社区的政策是为此类问题“提供有用的提示”,而不是完整的答案。

1
为什么R的lm()返回的系数估算值与我的教科书不同?
背景 我正在尝试了解拟合模型课程中的第一个示例(因此,这似乎很简单)。我已经手工完成了计算,并且它们与示例匹配,但是当我在R中重复计算时,模型系数不可用。我认为差异可能是由于总体方差使用教科书(),而R可以是使用样本方差(小号2),但我不能看到这些在计算中使用。例如,如果在 某处使用,请注意以下帮助部分:σ2σ2\sigma^2小号2S2S^2lm()var()var() 分母n-1用于给出iid观测的(协)方差的无偏估计。 我已经看过了两者的代码lm(),lm.fit()并且都没有使用var(),但是lm.fit()将数据传递给了z <- .Call(C_Cdqrls, x, y, tol, FALSE)我无法访问的已编译C代码()。 题 谁能解释R为什么给出不同的结果?即使样本方差与总体方差的使用有所不同,为什么系数估计也不同? 数据 设置一条线以根据学校年级预测鞋子的大小。 # model data mod.dat <- read.table( text = 'grade shoe 1 1 2 5 4 9' , header = T); # mean mod.mu <- mean(mod.dat$shoe); # variability mod.var <- sum((mod.dat$shoe - mod.mu)^2) # model coefficients …
13 r  regression  self-study  lm 

1
Cauchy分布中的位置参数的MLE
居中后,可以将两个测量值x和-x假定为具有概率密度函数的柯西分布的独立观测值: 1F(x :θ )=f(x:θ)=f(x :\theta) = ,-∞&lt;x&lt;∞1个π(1 + (X - θ )2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) ,- ∞ &lt; X &lt; ∞,−∞&lt;x&lt;∞, -∞ < x < ∞ 表明,如果的MLE θ是0,但如果X 2 &gt; 1有两个MLE的θ,等于± √X2≤ 1x2≤1x^2≤ 1θθ\thetaX2&gt; 1x2&gt;1x^2>1θθ\thetaX2− 1-----√x2−1\sqrt {x^2-1} 我认为要找到MLE,必须区分对数可能性: =Σ2(X我-θ)d升dθdldθdl\over d\theta = ∑=∑=\sum =2(-X-θ)2 (x一世- θ )1 + (x一世- θ )22(xi−θ)1+(xi−θ)22(x_i-\theta)\over 1+(x_i-\theta)^2 === …


1
刚刚确定的2SLS中位数是无偏的吗?
在《最无害的计量经济学:经验主义者的同伴》中(Angrist and Pischke,2009:第209页),我读到以下内容: (...)实际上,刚刚确定的2SLS(即简单的Wald估计量)几乎是无偏的。这很难正式显示,因为刚刚确定的2SLS没有任何时刻(即,采样分布有粗尾)。但是,即使仪器较弱,刚刚确定的2SLS也会大致居中。因此,我们说刚刚确定的2SLS是中值无偏的。(...) 虽然作者说是刚刚确定的2SLS是中位数,不带偏见,他们既没有证实,也没有提供一个参考的证据。他们在第213页再次提到了该命题,但没有提及证明。另外,我在麻省理工学院第22页的关于工具变量的讲义中找不到提出这一主张的动机。 原因可能是该提议是错误的,因为他们在博客的注释中拒绝了该提议。但是,他们写道,刚刚确定的2SLS 近似为中值。他们使用一个小型的蒙特卡洛实验来激发这一点,但没有提供分析证明或与近似值相关的误差项的封闭式表达。无论如何,这是作者对密歇根州立大学教授Gary Solon的答复,他评论说刚刚确定的2SLS 并非中性的。 问题1:如何证明刚刚确定的2SLS 并不像Gary Solon所说的那样是中性的? 问题2:如Angrist和Pischke所论,您如何证明刚刚确定的2SLS 近似中值无偏? 对于问题1,我正在寻找一个反例。对于问题2,我(主要)是在寻找证明或参考证明。 在这种情况下,我也在寻找中值无偏差的正式定义。我理解这个概念如下:估计器θ(X 1 :Ñ)的θ基于某些设定的X 1 :ñ的Ñ随机变量是中值无偏为θ当且仅当的分布θ(X 1 :n)具有中值θ。θ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\thetaX1:nX1:nX_{1:n}nnnθθ\thetaθ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\theta 笔记 在刚刚确定的模型中,内生回归变量的数量等于工具数量。 {YX=Xβ+Wγ+u=Zδ+Wζ+v(1)(1){Y=Xβ+Wγ+uX=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}XXXk×n+1k×n+1k\times n+1kkkk×n+1k×n+1k\times n+1ZZZWWWuuuvvv ββ\beta(1)(1)(1)XXXZZZWWWX^X^\hat{X}YYYX^X^\hat{X}WWWX^X^\hat{X}ββ\beta yi=α+βxi+uiyi=α+βxi+uiy_i=\alpha+\beta x_i+u_ixixix_iziziz_iββ\betaβ^2SLS=sZYsZX,(2)(2)β^2SLS=sZYsZX,\hat{\beta}^{\text{2SLS}}=\frac{s_{ZY}}{s_{ZX}}\tag{2},sABsABs_{AB}AAABBB(2)(2)(2)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi(3)(3)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi\hat{\beta}^{\text{2SLS}}=\frac{\sum_i(y_i-\bar{y})z_i}{\sum_i(x_i-\bar{x})z_i}=\beta+\frac{\sum_i(u_i-\bar{u})z_i}{\sum_i(x_i-\bar{x})z_i}\tag{3}y¯=∑iyi/ny¯=∑iyi/n\bar{y}=\sum_iy_i/nx¯=∑ixi/nx¯=∑ixi/n\bar{x}=\sum_i x_i/nu¯=∑iui/nu¯=∑iui/n\bar{u}=\sum_i u_i/nnnn 我进行了文献搜索,使用“正当识别”和“中位数无偏”一词来查找回答问题1和2的参考文献(请参见上文)。我什么都没找到。我发现(见下文)的所有文章都提到Angrist和Pischke(2009:第209、213页)时指出刚确定的2SLS是中值无偏的。 Jakiela,P.,Miguel,E.,&Te Velde,VL(2015)。您已经赢得了它:估算人力资本对社会偏好的影响。实验经济学,18(3),385-407。 An,W.(2015年)。工具变量估计社交网络中的对等效应。社会科学研究,50,382-394。 Vermeulen,W.和Van Ommeren,J.(2009)。土地利用规划会影响区域经济吗?同时分析了荷兰的住房供应,内部移民和当地就业增长。住房经济学杂志,18(4),294-310。 Aidt,TS,&Leon,G.(2016年)。民主的机会之窗:撒哈拉以南非洲骚乱的证据。冲突解决杂志,60(4),694-717。

1
联合完成充分统计量:统一(a,b)
令X=(x1,x2,…xn)X=(x1,x2,…xn)\mathbf{X}= (x_1, x_2, \dots x_n)是上均匀分布的随机样本(a,b)(a,b)(a,b),其中a&lt;ba&lt;ba < b。令Y1Y1Y_1和YnYnY_n为最大和最小阶统计量。证明统计量(Y1,Yn)(Y1,Yn)(Y_1, Y_n)是参数θ = (a ,b )的共同完全充分统计量θ=(a,b)θ=(a,b)\theta = (a, b)。 对我来说,使用因式分解显示足够是没有问题的。 问题:如何显示完整性?最好是我想要一个提示。 尝试:我可以证明E[g(T(x))]=0E[g(T(x))]=0\mathbb E[g(T(x))] = 0表示g(T(x))=0g(T(x))=0g(T(x)) = 0对于一个参数均匀分布,但是我陷入了两个参数均匀分布的困境。 我尝试使用E[g(Y1,Yn)]E[g(Y1,Yn)]\mathbb E[g(Y_1, Y_n)]并使用Y1Y1Y_1和的联合分布YnYnY_n,但是由于微积分使我绊倒,所以我不确定我的方向是否正确。

2
您观察到n次投掷k个头。硬币公平吗?
在一次采访中我被问到。有没有“正确”的答案?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) 假设抛掷是同性的,正面的概率为。那么,在400次抛掷中头部的分布应该接近于法线(200,10 ^ 2),这样220头部的平均值就会偏离平均值2个标准差。观察到这种结果的可能性(即,在任一方向上均距平均值多2个SD)略小于5%。p=0.5p=0.5p=0.5 面试官告诉我,基本上,“如果我观察到均值&gt; = 2 SD,就会得出结论,其他事情还在继续。我敢打赌这枚硬币是公平的。” 这是合理的-毕竟,这就是大多数假设检验所做的。但这就是故事的结局吗?对于面试官来说,这似乎是“正确”的答案。我要问的是,有些细微差别是否合理。 我忍不住指出,在这种抛硬币的情况下,判定硬币不公平是一个奇怪的结论。我说对吗?我会在下面解释。 首先,我-我也会假设大多数人-对硬币有很深的了解:它们很可能是公平的。当然,这取决于我们所说的公平-一种可能性是将“公平”定义为“具有接近0.5(例如介于0.49和0.51之间)的可能性”。 (你也可以定义“公平”为指的正面的概率正好是0.50,在这种情况下,有一个完全公平的硬币现在似乎相当取消可能。) 您的先验可能不仅取决于您对硬币的一般看法,还取决于上下文。如果您从自己的口袋里掏出硬币,那么您几乎可以肯定这是公平的。如果您的魔术师朋友从他的钱包中拿出硬币,那么您以前的朋友可能会加大双头硬币的重量。 无论如何,要想出一个合理的先验就很容易了:(i)使硬币很可能是公平的;(ii)即使观察了220个头,也使后验非常相似。然后,您会得出结论,尽管观察到结果均值2 SD,但该代币很可能是公平的。 实际上,您还可以构建一些示例,其中在400次抛掷中观察220个头,这会使您的后方对硬币保持更大的重量,例如,如果所有不公平的硬币的正面概率都为。{0,1}{0,1}\{0, 1\} 谁能为我阐明一下? 在写完这个问题之后,我想起了我以前听说过这种大局的情况,这不是林德利的“悖论”吗? Whuber在评论中加入了一个非常有趣的链接:您可以装模,但不能偏向硬币。从第3页: 不能说硬币的正面概率为p,因为硬币可以完全由抛掷的方式确定,除非将硬币抛向空中并快速旋转并抛向空中。无弹跳,在这种情况下,p = 1/2。 太酷了!这以一种有趣的方式与我的问题联系在一起:假设我们知道硬币被“迅速旋转抛向空中,并被弹跳而没有跳动”。那么我们绝对不应该拒绝硬币是公平的假设(这里的“公平”现在意味着“以上述方式抛硬币时,p = 1/2”),因为我们有效地拥有了将所有概率置于硬币是公平的。也许在某种程度上可以证明为什么在观察到220个头之后我不愿意拒绝null。


1
通常,推理比进行预测难吗?
我的问题来自以下事实。我一直在阅读有关机器学习的文章,博客,讲座和书籍。我的印象是,机器学习从业人员似乎对统计学家/计量经济学所关心的许多事情都漠不关心。尤其是,机器学习从业者强调预测准确性胜于推理。 当我在Coursera上学习 Andrew Ng的机器学习时,便出现了这样一个例子。当他讨论简单线性模型时,他没有提及估计量的BLUE属性,也没有提到异方差如何“使”置信区间无效。相反,他专注于梯度下降实现和交叉验证/ ROC曲线的概念。我的计量经济学/统计学类未涵盖这些主题。 另一个例子发生在我参加Kaggle比赛时。我在读别人的代码和想法。很大一部分参与者只是将所有内容都放入了SVM /随机森林/ XGBoost中。 另一个例子是关于逐步模型选择。至少在在线和Kaggle上,该技术得到了广泛使用。许多经典的机器学习教科书也对此进行了介绍,例如《统计学习入门》。但是,根据这个答案(这很有说服力),逐步模型选择面临很多问题,尤其是当涉及到“发现真实模型”时。似乎只有两种可能性:机器学习从业者不知道逐步解决问题,或者机器学习从业者知道,但是他们不在乎。 所以这是我的问题: (总的来说)机器学习从业者专注于预测,因此不关心统计学家/经济学家关心的很多事情吗? 如果这是真的,那么背后的原因是什么呢?是因为在某种意义上推论更加困难吗? 在线上有大量关于机器学习(或预测)的材料。但是,如果我对学习推理感兴趣,可以从网上查阅哪些资源? 更新:我刚刚意识到“推断”一词可能意味着很多东西。我所说的“推论”是指诸如 做原因或造成?或更笼统地说,之间的因果关系是什么?Y Y X X 1,X 2,⋯ ,X nXXXÿÿYÿÿYXXXX1个,X2,⋯ ,XñX1个,X2,⋯,XñX_1,X_2,\cdots,X_n 既然“所有模型都错了”,那么我们的模型与真实模型有多“错”? 有了样本的信息,我们可以对总体说些什么?我们有多自信? 由于我非常有限的统计知识,我什至不确定这些问题是否属于统计领域。但是这些是机器学习从业者似乎并不关心的问题类型。也许统计学家也不在乎?我不知道。


5
XXX和YYY独立地分布的随机变量,其中X∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}和Y∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)。Z=(2Y−1)√的分布是什么Z=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X? 联合密度(X,Y)(X,Y)(X,Y)由下式给出 fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} 的边缘PDF 是然后 ˚F Ž(ż )= &Integral; ∞ | z | f Z ,W(z ,w )ZZZ,它不会带我到任何地方。fZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w 同样,在找到的分布函数时,出现了不完整的beta /γ函数:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) =Pr((2Y−1)X−−√≤z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y 这里变量的适当变化是什么?还有另一种方法可以找到的分布吗?ZZZ 我尝试使用Chi-Squared,Beta,“ F”和“ t”分布之间的不同关系,但似乎无济于事。也许我缺少明显的东西。 如@Francis所述,此转换是Box-Müller转换的概括。

2
什么是规则和正则化?
在学习机器学习时,我越来越多地听到这些话。实际上,有人在方程正则性方面获得了菲尔兹奖。因此,我想这是一个从统计物理/数学到机器学习的术语。当然,我问的很多人都无法直观地解释它。 我知道诸如dropout之类的方法有助于正则化(=&gt;他们说它减少了过度拟合,但是我真的不明白这是什么:如果仅减少过度拟合,为什么不只称其为anti-overfit方法=&gt;我想的更多,因此这个问题)。 如果您能解释一下,我将非常感激(我想天真的ML社区也将如此!) 您如何定义规律性?什么是规律性? 正则化是确保规律性的一种方法吗?即捕获规律? 为什么像dropout这样的集合方法,归一化方法都声称要进行正则化? 为什么这些(正则性/正则化)出现在机器学习中? 非常感谢你的帮助。


1
标准正态随机变量的平方的Pdf [关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我有这个问题,我必须找到的pdf Y=X2Y=X2Y = X^2。所有我知道的是,XXX具有分布N(0,1)N(0,1)N(0,1)。是什么分布Y=X2Y=X2Y = X^2?与相同XXX吗?我如何找到pdf文件?

2
如何计算Fisher标准权重?
我正在研究模式识别和机器学习,并且遇到了以下问题。 考虑一个具有相同先验概率的两类分类问题P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} 以及每个类中实例的分布 p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right). 如何计算Fisher标准权重? 更新2:我的书提供的计算权重为: 。W=[−43−29]W=[−43−29]W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} \end{bmatrix} …

2
当是概率密度函数时如何找到?
我该如何解决?我需要中间方程式。也许答案是。−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)是概率密度函数。 也就是说,和\ lim \ limits_ {x \ to \ infty} F(x)= 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 来源:http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf第40页 尝试下面的中间方程式: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.