Questions tagged «self-study»

从课本,自学中使用的教科书,课程或测试的例行练习。该社区的政策是为此类问题“提供有用的提示”,而不是完整的答案。

1
用Gamma分布构造Dirichlet分布
令是相互独立的随机变量,每个变量的伽玛分布参数为表示,与X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1}αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) 的联合PDF。然后找到关节(y_1,\ dots,Y_ {k + 1})的 pdf文件,我找不到jacobian即J(\ frac {x_1,\ dots,x_ {k + 1}} {y_1,\ dots,y_ {k + 1} })(Ý1,...,ÿķ+1)Ĵ(X1,...,X ķ + 1(X1,…,Xk+1)=e−∑k+1i=1xixα1−11…xαk+1−1k+1Γ(α1)Γ(α2)…Γ(αk+1)(X1,…,Xk+1)=e−∑i=1k+1xix1α1−1…xk+1αk+1−1Γ(α1)Γ(α2)…Γ(αk+1)(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})}(Y1,…,Yk+1)(Y1,…,Yk+1)(Y_1,\dots,Y_{k+1})J(x1,…,xk+1y1,…,yk+1)J(x1,…,xk+1y1,…,yk+1)J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})

1
测验:通过分类边界告诉分类器
给出以下6个决策边界。决策边界是紫罗兰色线。点和十字是两个不同的数据集。我们必须确定哪个是: 线性支持向量机 内核化SVM(2阶多项式内核) 感知器 逻辑回归 神经网络(1个隐藏层和10个整流线性单元) 神经网络(1个隐藏层,具有10 tanh单位) 我想要解决方案。但更重要的是,了解差异。例如,我会说c)是线性SVM。决策边界是线性的。但是我们也可以使线性SVM决策边界的坐标均匀化。d)核化的SVM,因为它是多项式阶数2。f)由于“粗糙”的边缘,因此校正了神经网络。也许a)逻辑回归:它也是线性分类器,但基于概率。


1
AR(2)平稳性的证明
考虑平均为中心的AR(2)过程Xt=ϕ1Xt−1+ϕ2Xt−2+ϵtXt=ϕ1Xt−1+ϕ2Xt−2+ϵtX_t=\phi_1X_{t-1}+\phi_2X_{t-2}+\epsilon_t其中是标准白噪声过程。为了简单起见,我将其称为和。着眼于特征方程的根,我得到 教科书中的经典条件如下:ϵtϵt\epsilon_tϕ1=bϕ1=b\phi_1=bϕ2=aϕ2=a\phi_{2}=az1,2=−b±b2+4a−−−−−−√2az1,2=−b±b2+4a2az_{1,2}=\frac{-b\pm\sqrt{b^2+4a}}{2a}{ | 一个| &lt; 1a±b&lt;1{|a|&lt;1a±b&lt;1\begin{cases}|a|<1 \\ a\pm b<1 \end{cases} 我尝试手动(在Mathematica的帮助下)解决根上的不等式,即系统仅可以恢复第三个条件()前两个彼此的解决方案得到,经过一些符号考虑,其变为?还是我缺少解决方案?⎧⎩⎨|−b−b2+4a√2a|&gt;1|−b+b2+4a√2a|&gt;1{|−b−b2+4a2a|&gt;1|−b+b2+4a2a|&gt;1\begin{cases}|\frac{-b-\sqrt{b^2+4a}}{2a}|>1 \\ |\frac{-b+\sqrt{b^2+4a}}{2a}|>1\end{cases}a±b&lt;1a±b&lt;1a \pm b<1|a|&lt;1|a|&lt;1|a|<1a+b+a−b&lt;2⇒a&lt;1a+b+a−b&lt;2⇒a&lt;1a+b+a-b<2 \Rightarrow a<1|a|&lt;1|a|&lt;1|a|<1

2
如何计算估计的OLS的方差
我知道 β0^=y¯−β1^x¯β0^=y¯−β1^x¯\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} ,这是我得到多远,当我计算方差: Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= Var(\bar{y} - \hat{\beta_1}\bar{x}) \\ &= Var((-\bar{x})\hat{\beta_1}+\bar{y}) \\ &= Var((-\bar{x})\hat{\beta_1})+Var(\bar{y}) \\ &= (-\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= (\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= \frac{\sigma^2 (\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 但这距离我还很远。我想要计算的最终公式是 Var(β0^)=σ2n−1∑i=1nx2i∑i=1n(xi−x¯)2Var(β0^)=σ2n−1∑i=1nxi2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= \frac{\sigma^2 n^{-1}\displaystyle\sum\limits_{i=1}^n x_i^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 我不确定如何获得假设我的数学到那里是正确的) 。(x¯)2=1n∑i=1nx2i(x¯)2=1n∑i=1nxi2(\bar{x})^2 = \frac{1}{n}\displaystyle\sum\limits_{i=1}^n …

8
插值与回归概念有何关系?
简单解释一下插值的含义。它与回归的概念有什么关系? 插值法是一种在表的各行之间阅读的技巧,在基本数学中,该术语通常表示从该函数的一组给定值或表格值中计算出函数中间值的过程。 我不能回答第二个问题。请帮忙

3
为什么我们需要引导程序?
我目前正在阅读拉里·瓦瑟曼(Larry Wasserman)的“所有统计信息”,并对他在有关估计非参数模型的统计函数的章节中写的内容感到困惑。 他写了 “有时我们可以通过一些计算找到统计函数的估计标准误差。但是,在其他情况下,如何估计标准误差并不明显”。 我想指出的是,在下一章中,他将讨论引导程序以解决此问题,但是由于我不太了解该声明,因此我没有完全获得引导程序背后的动力吗? 当不清楚如何估计标准误差时,有什么例子呢? 所有迄今为止我见过的例子已经“明显”,如然后^ 小号È(p Ñ)= √X1个,。。。Xñ 乙ë - [R (p )X1,...Xn Ber(p)X_1,...X_n ~Ber(p)小号Ë^(p^ñ)= p^⋅ (1 − p^)/ n----------√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

4
给定样本平均值,样本中位数的期望值
让ÿYY表示中值,并让ˉ XX¯\bar{X}表示平均值,大小的随机样本的Ñ = 2 ķ + 1n=2k+1n=2k+1从分发即Ñ (μ ,σ 2)N(μ,σ2)N(\mu,\sigma^2)。我该如何计算ê (Ÿ | ˉ X = ˉ X)E(Y|X¯=x¯)E(Y|\bar{X}=\bar{x})? 直观地说,因为态假设的,是有意义的要求是Ë (Ÿ | ˉ X = ˉ X)= ˉ XE(Y|X¯=x¯)=x¯E(Y|\bar{X}=\bar{x})=\bar{x}的确是正确的答案。可以严格显示吗? 我最初的想法是使用条件正态分布来解决此问题,这通常是已知的结果。那里的问题是,由于我不知道期望值,因此也不知道中位数的方差,因此我将不得不使用k + 1k+1k+1阶统计量来计算那些值。但这非常复杂,除非绝对必要,否则我不愿去那里。

1
有关如何归一化回归系数的问题
不确定normalize是否在此处使用正确的词,但是我会尽力说明我要问的问题。这里使用的估计量是最小二乘。 假设有Ŷ = β 0 + β 1 X 1y=β0+β1x1y=\beta_0+\beta_1x_1,则可以通过居中围绕平均值Ŷ = β ' 0 + β 1 X ' 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1',其中β ' 0 = β 0 + β 1 ˉ X 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1和X ' 1 = X - ˉ Xx′1=x−x¯x_1'=x-\bar x,使β ' 0β′0\beta_0'不再对估计任何影响β 1β1\beta_1。 我的意思是β 1在Ŷ = β 1 X ' …

5
自学概率论书籍
有什么好书可以解释概率论的重要概念,例如概率分布函数和累积分布函数吗? 请避免引用约翰·赖斯(John Rice)的“数学统计和数据分析”之类的书籍,这些书籍从简单的置换概念开始,然后突然(在第二章中)假设真实计算,多重和表面积分知识开始飞跃,并开始描述CDF和PDF并以3维图形进行说明。一个问题是如何连接一切。 我正在寻找自学书籍,任何与“实用人的微积分”类别相同的书籍都会有很大的帮助。

1
推导概率密度函数变量的变化?
在书本模式识别和机器学习(公式1.27)中, pÿ(y)= pX(x )∣∣∣dXdÿ∣∣∣= pX(克(y))| G′(y)|pÿ(ÿ)=pX(X)|dXdÿ|=pX(G(ÿ))|G′(ÿ)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | 其中x=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x),是pdf对应于py(y)py(y)p_y(y)相对于所述变量的变化。 这些书说,这是因为在观察范围内的下降(x,x+δx)(x,x+δx)(x, x + \delta x)会,为小值δxδx\delta x,转化为范围(y,y+δy)(y,y+δy)(y, y + \delta y)。 这是如何正式得出的? 来自Dilip Sarwate的更新 仅当GGg是严格单调递增或递减函数时,结果才成立。 一些小修改以LV Rao的答案 因此,如果gP(是≤ ÿ)= P(克(X)≤ ÿ)= { P(X≤ 克− 1(y)),P(X≥ 克− 1(y)),如果g 单调增加如果g 单调递减P(ÿ≤ÿ)=P(G(X)≤ÿ)={P(X≤G-1(ÿ)),如果 G 单调增加P(X≥G-1(ÿ)),如果 G 单调递减 \begin{equation} …

4
经典线性模型-模型选择
我有一个经典的线性模型,带有5个可能的回归变量。它们彼此不相关,并且与响应的相关性很低。我已经建立了一个模型,其中3个回归变量的t统计量具有显着系数(p &lt;0.05)。对于添加的变量,将其余2个变量中的一个或两个相加得出t统计量的p值&gt; 0.05。这使我相信3变量模型是“最佳”的。 但是,在R中使用anova(a,b)命令,其中a是3变量模型,b是完整模型,F统计量的p值&lt;0.05,这表明我更喜欢完整模型而不是3变量模型。我该如何调和这些明显的矛盾? 谢谢PS编辑:一些进一步的背景。这是家庭作业,因此我将不发布细节,但是我们没有提供回归变量代表的详细信息-它们只是从1到5编号。我们被要求“推导适当的模型,给出理由”。

2
的pdf
假设来自其中和未知X1,X2,...,XnX1,X2,...,XnX_1, X_2,...,X_nN(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)μ∈Rμ∈R\mu \in \mathcal Rσ2&gt;0σ2&gt;0\sigma^2>0 令 S是此处的标准偏差。Z=X1−X¯S,Z=X1−X¯S,Z=\frac{X_1-\bar{X}}{S}, 可以看出 具有Lebesgue pdfZZZ f(z)=n−−√Γ(n−12)π−−√(n−1)Γ(n−22)[1−nz2(n−1)2]n/2−2I(0,(n−1)/n√)(|Z|)f(z)=nΓ(n−12)π(n−1)Γ(n−22)[1−nz2(n−1)2]n/2−2I(0,(n−1)/n)(|Z|)f(z)=\frac{\sqrt{n} \Gamma\left(\frac{n-1}{2}\right)}{\sqrt{\pi}(n-1)\Gamma\left(\frac{n-2}{2}\right)}\left[1-\frac{nz^2}{(n-1)^2}\right]^{n/2-2}I_{(0,(n-1)/\sqrt{n})}(|Z|) 然后我的问题是如何获取此pdf? 问题是从示例3.3.4中的此处开始,以找到的UMVUE 。我可以理解找到UMVUE的逻辑和过程,但不知道如何获取pdf。P(X1≤c)P(X1≤c)P(X_1 \le c) 我认为这个问题也涉及到这一个 非常感谢您的帮助,或指向任何相关参考文献也将适用。
15 self-study  umvue 

2
使用正态分布的图形模拟均匀分布的图形
我最近购买了一个数据科学面试资源,其中一个概率问题如下: 给定具有已知参数的正态分布的绘图,如何模拟均匀分布的绘图? 我最初的想法是,对于离散随机变量,我们可以将正态分布分解为K个唯一的子部分,其中每个子部分在正态曲线下的面积均相等。然后,我们可以通过识别变量最终落入法线曲线的哪个区域来确定该变量取K个值。 但这仅适用于离散随机变量。我研究了如何对连续随机变量执行相同的操作,但是不幸的是,我只能找到诸如逆变换采样之类的技术,这些技术将使用统一随机变量作为输入,并且可以从其他分布中输出随机变量。我在想,也许我们可以反向进行此过程以获得统一的随机变量? 我还考虑过可能使用Normal随机变量作为线性同余生成器的输入,但是我不确定这是否可行。 关于如何处理这个问题有任何想法吗?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.