统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


3
在进行PCA之前,为什么要除以标准偏差而不是其他一些标准化因子?
我在阅读以下理由(来自cs229课程注释),说明为什么我们将原始数据除以其标准偏差: 即使我理解解释的意思,但我仍不清楚为什么除以标准偏差才能实现这一目标。它说的是,每个人都处于相同的“规模”。但是,尚不完全清楚为什么除以标准偏差才能达到目标。例如,除以方差有什么问题?为什么不另加一些呢?像...绝对值的总和?或其他一些规范...选择性病是否有数学依据? 本声明中的主张是可以通过数学(和/或统计)得出/证明的理论陈述,还是因为它似乎在“实践”中起作用而做的其中一项陈述? 基本上,可以提供一种关于为什么直觉是正确的严格数学解释吗?还是仅凭经验观察,为什么我们认为在进行PCA之前总体上可行? 另外,在PCA中,这是标准化还是标准化的过程? 我的其他一些想法可能会“解释”性病的原因: 由于可以通过最大化方差来得出PCA,因此我猜测除以相关数量(例如STD)可能是我们除以STD的原因之一。但后来我认为,如果我们将其他任何规范定义为“方差”,,那么我们将用该标准的STD除以(取pth根或某物)。虽然,这只是一个猜测,我对此不是100%,因此是个问题。我想知道是否有人对此有任何了解。1n∑ni=1(xi−μ)p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p 我确实看到可能存在一个相关的问题: PCA是相关性还是协方差? 但是似乎更多地讨论了何时使用“相关”或“协方差”,但缺乏严格,令人信服或详尽的理由,这是我主要感兴趣的。 同样适用于: 为什么我们需要在分析之前对数据进行标准化 有关: SVD / PCA的“规范化”变量

2
墨水与数据的比例和绘图背景
我注意到,许多“最先进的”绘图程序包和主题以及许多杰出的数据人员都使用灰色背景绘制绘图。以下是几个示例: ggplot2: Nate Silver的fourthirtyeight.com: 虽然在上面的第一个示例(ggplot2)中,有人可能会争辩说使用灰色背景会减少网格线所需的墨水,但第二种情况肯定不是这种情况。与白色或透明背景相比,使用灰色背景有什么优势?

1
对数概率与概率乘积
根据这一维基百科文章,可以使概率的乘积表示x⋅y为-log(x) - log(y)使计算在计算上更优化。但是,如果我尝试一个示例,请说: p1 = 0.5 p2 = 0.5 p1 * p2 = 0.25 -log(p1) - log(p2) = 2 p3 = 0.1 p4 = 0.1 p3 * p4 = 0.01 -log(p3) - log(p4) = 6.64 概率的产品p1和p2高则的一个p3和p4,但数概率较低。 怎么来的?

1
我们可以使用留一法的均值和标准差来显示离群值吗?
假设我有正态分布的数据。对于数据的每个元素,我想检查它远离均值有多少SD。数据中可能有一个异常值(可能只有一个异常值,也可能是两个或三个),但是这个异常值基本上就是我要寻找的。从均值和标准差的计算中暂时排除我当前正在查看的元素是否有意义?我的想法是,如果它接近平均值,则不会产生任何影响。如果是离群值,则可能会影响均值和SD的计算,并降低检测到均值的可能性。我不是统计学家,因此不胜感激!

3
结构计量经济学入门课
近年来,与简化形式的计量经济学相比,计量经济学的结构方法变得越来越流行。这涉及理论经济模型和统计数据的紧密结合,以便估算感兴趣的参数。以我们使用数据和统计方法的方式强加理论结构的目的是提供指导,有时甚至可以发现简化形式方法不容易估计的参数。即使对于非计量经济学家来说,这也可能是有趣的,因为模拟和抽样可能是结构估计中的重要组成部分,并且该技术也很适用于其他社会科学。 迄今为止,计量经济学的这一分支作为统计的分支似乎没有任何入门教科书。我只发现了更高级的资料,例如Choo和Shum(2013)的《结构计量经济学模型》或Reiss和Wolak的调查章节。 有人可以将我引向一组讲座或什至一本书(我只是还没有找到)来介绍结构计量经济学吗?理想情况下,这将基于具有不同方法的示例,包括代码或有关如何复制这些示例以更好理解的指南。 我知道一些研究论文,尤其是在工业组织中 国家依存模型(Rust,1987) 需求估算(Berry,1994; Berry,Levinson和Pakes,1995) 生产率估算(Olley和Pakes,1996) 估计市场力量(Nevo,2005; Sovinsky,2008) 但其中大多数很难遵循。因此,如果有人知道更温和的介绍,这将对您大有帮助。

1
Gibbs采样算法能否保证详细的平衡?
我以最高权限1认为Gibbs采样是用于马尔可夫链蒙特卡洛采样的Metropolis-Hastings算法的特例。MH算法总是给出具有详细平衡属性的转移概率;我希望吉布斯也应该如此。那么在以下简单情况下,我哪里出错了? 对于两个离散变量(为简单起见上的目标分布,完整的条件分布为: π(x,y)π(x,y)\pi(x, y)q1(x;y)q2(y;x)=π(x,y)∑zπ(z,y)=π(x,y)∑zπ(x,z)q1(x;y)=π(x,y)∑zπ(z,y)q2(y;x)=π(x,y)∑zπ(x,z) \begin{align} q_1 (x;y) & =\frac{\pi (x,y)}{\sum_z \pi (z,y)} \\ q_2 (y;x) & =\frac{\pi (x,y)}{\sum_z \pi (x,z)} \end{align} 据我了解的吉布斯采样,可以写出转移概率: Pr o b { (y1个,ÿ2)→(x1,x2)}=q1(x1;y2)q2(x2;x1)Prob{(y1,y2)→(x1,x2)}=q1(x1;y2)q2(x2;x1) Prob\{(y_1, y_2) \to (x_1, x_2)\} = q_1(x_1; y_2) q_2(x_2; x_1) 问题是 但是我能得到的最接近的是 稍有不同,并不意味着详细的平衡。感谢您的任何想法!π(y1,y2)Prob{(y1,y2)→(x1,x2)}=?π(x1,x2)Prob{(x1,x2)→(y1,y2)},π(y1,y2)Prob{(y1,y2)→(x1,x2)}=?π(x1,x2)Prob{(x1,x2)→(y1,y2)}, \pi(y_1,y_2) Prob\{(y_1, y_2) \to (x_1, x_2)\} \overset{?}{=} \pi(x_1,x_2) Prob\{(x_1, x_2) …
17 mcmc  gibbs 

1
AR(2)平稳性的证明
考虑平均为中心的AR(2)过程Xt=ϕ1Xt−1+ϕ2Xt−2+ϵtXt=ϕ1Xt−1+ϕ2Xt−2+ϵtX_t=\phi_1X_{t-1}+\phi_2X_{t-2}+\epsilon_t其中是标准白噪声过程。为了简单起见,我将其称为和。着眼于特征方程的根,我得到 教科书中的经典条件如下:ϵtϵt\epsilon_tϕ1=bϕ1=b\phi_1=bϕ2=aϕ2=a\phi_{2}=az1,2=−b±b2+4a−−−−−−√2az1,2=−b±b2+4a2az_{1,2}=\frac{-b\pm\sqrt{b^2+4a}}{2a}{ | 一个| &lt; 1a±b&lt;1{|a|&lt;1a±b&lt;1\begin{cases}|a|<1 \\ a\pm b<1 \end{cases} 我尝试手动(在Mathematica的帮助下)解决根上的不等式,即系统仅可以恢复第三个条件()前两个彼此的解决方案得到,经过一些符号考虑,其变为?还是我缺少解决方案?⎧⎩⎨|−b−b2+4a√2a|&gt;1|−b+b2+4a√2a|&gt;1{|−b−b2+4a2a|&gt;1|−b+b2+4a2a|&gt;1\begin{cases}|\frac{-b-\sqrt{b^2+4a}}{2a}|>1 \\ |\frac{-b+\sqrt{b^2+4a}}{2a}|>1\end{cases}a±b&lt;1a±b&lt;1a \pm b<1|a|&lt;1|a|&lt;1|a|<1a+b+a−b&lt;2⇒a&lt;1a+b+a−b&lt;2⇒a&lt;1a+b+a-b<2 \Rightarrow a<1|a|&lt;1|a|&lt;1|a|<1

3
使用Hosmer等人的模型建立和选择。2013。R中的应用逻辑回归
这是我在StackExchange上的第一篇文章,但是我已经将它用作一种资源已经有一段时间了,我将尽我所能来使用适当的格式并进行适当的编辑。另外,这是一个多部分的问题。我不确定是否应该将问题分为几个不同的帖子,或者只是一个。由于所有问题均来自同一文本的一个部分,因此我认为将其发布为一个问题更为相关。 我正在研究大型哺乳动物物种的栖息地用途,以作为硕士论文。该项目的目的是为森林管理者(最有可能不是统计学家)提供一个实用的框架,以评估他们管理的与该物种有关的土地上的栖息地质量。这种动物相对难以捉摸,是栖息地专家,通常位于偏远地区。关于物种的分布,尤其是在季节方面,进行的研究相对较少。数只动物装有GPS项圈,为期一年。从每只动物的GPS项圈数据中随机选择一百个位置(夏季50个,冬季50个)。此外,在每只动物的家园范围内随机产生50个点,以作为“可用”或“伪缺”位置。 对于每个位置,都在田间采样了几个栖息地变量(树木直径,水平覆盖物,粗糙的木屑等),并通过GIS远程采样了一些变量(海拔,道路距离,崎ness性等)。该变量除具有7个级别的1个类别变量外,大部分都是连续的。 我的目标是使用回归建模来构建资源选择函数(RSF),以对资源单元使用的相对概率进行建模。我想为动物种群(设计类型I)以及每只动物种群(设计类型III)建立一个季节性(冬季和夏季)RSF。 我正在使用R进行统计分析。 我一直在使用的主要文字是… “ Hosmer,DW,Lemeshow,S.和Sturdivant,RX2013。应用逻辑回归。Wiley,Chicester”。 Hosmer等人的大多数示例。使用STATA,我也一直在使用以下2个文本作为R的参考。 “ Crawley,MJ,2005年。统计数据:使用RJ Wiley的介绍,Chichester,西萨塞克斯郡,英格兰。” “植物,RE2012。使用R. CRC出版社,GBR,伦敦的生态和农业空间数据分析。” 我目前正在按照Hosmer等人的第4章中的步骤进行操作。进行“有目的的协变量选择”,并对该过程有一些疑问。我在下面的文字中概述了前几个步骤,以帮助回答我的问题。 步骤1:对每个自变量进行单变量分析(我使用了单变量logistic回归)。单变量检验的p值小于0.25的任何变量都应包含在第一个多变量模型中。 步骤2:拟合包含所有在步骤1中确定要包含的协变量的多变量模型,并使用其Wald统计量的p值评估每个协变量的重要性。在传统意义上不起作用的变量应予以消除,并采用新模型。应使用偏似然比检验将新的较小模型与旧的较大模型进行比较。 步骤3:将较小模型中的估计系数值与大型模型中的相应值进行比较。任何系数的幅度发生显着变化的变量都应重新添加到模型中,因为从提供需要调整模型中剩余变量影响的意义上来说,这一点很重要。循环执行步骤2和3,直到似乎所有重要变量都包含在模型中,而排除的变量在临床和/或统计学上并不重要。Hosmer等。使用“ delta-beta-hat-percent ”来衡量系数幅度的变化。他们提出了显着的变化,即&gt; 20%的delta-beta-hat-percent。Hosmer等。将delta-beta-hat-percent定义为 。其中θ1是从较小的模型系数和β1是从较大的模型系数。Δβ^%=100θ^1−β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} 步骤4:将步骤1中未选择的每个变量一次添加到步骤3结束时获得的模型中,并通过Wald统计p值或偏似然比检验检验其重要性,如果它是分类的具有两个以上级别的变量。这一步对于识别与结果没有显着关系但在存在其他变量的情况下起重要作用的变量至关重要。我们将第4步末的模型称为主要主效应模型。 步骤5-7:我现在还没有进展,所以我暂时不做这些步骤,或者将它们保存下来以解决其他问题。 我的问题: 在第2步中,什么是传统的显着性水平,p值&lt;0.05或更大,例如&lt;.25? 再次在第2步中,我要确保用于部分似然测试的R代码正确无误,并且要确保我正确解释了结果。这是我一直在做的...anova(smallmodel,largemodel,test='Chisq')如果p值显着(&lt;0.05),则将变量添加回模型,如果不重要,则继续删除吗? Δβ^%Δβ^%\Delta\hat{\beta}\%Δβ^%Δβ^%\Delta\hat{\beta}\% Δβ^%Δβ^%\Delta\hat{\beta}\% is correct. I have been using the following code. If there is a package that will do this for me or …

1
Logistic回归:如何获得饱和模型
我刚刚了解了逻辑回归的偏差度量。但是,对我来说,称为饱和模型的部分尚不清楚。 我在Google上进行了广泛的搜索,但没有结果回答我的问题。到目前为止,我发现一个饱和模型对每个观测值都有一个参数,因此可以实现完美拟合。这对我来说很清楚。但是:(饱和模型的)拟合值还等于观测值。 由于从我所知,被用于分类逻辑回归给定的观察到的数据与额外的标签协变量。但是,偏差度量采用的是概率,而不是实际的标号。一种方法是将计算出的逻辑回归的预测概率与观察到的概率进行比较。但是,由于只给出了标签而不是概率,我很困惑如何从这些标签构建饱和模型?ÿ∈ { 0 ,1 }ÿ∈{0,1个}y \in \{0,1\}

3
如何用极端离群值呈现箱形图?
我可以使用有关呈现某些数据的指导。 第一个图是细胞因子IL-10的病例对照比较。我已手动将y轴设置为包括99%的数据。 我之所以手动设置,是因为案例组具有极端的异常值。 我的合作者不愿对我们的数据集进行异常值移除。我可以接受,但他们宁愿不接受。那将是显而易见的解决方案。但是,如果我要保留所有数据而不是删除此异常值,那么如何最佳显示此箱线图?分割轴?仅使用第一个图并注意它被构造为包含所有数据是否可以接受?(此选项对我来说是不诚实的)。任何建议都很好。

1
Logistic回归中的遗漏变量偏差与普通最小二乘回归中的遗漏变量偏差
我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。 说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。 但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。 这是论文和一些幻灯片。 偏差显然总是朝着零。谁能解释这是如何工作的?

3
非零相关是否意味着依赖?
我们知道零相关并不意味着独立。我对非零相关性是否隐含依赖关系很感兴趣-即,如果对于一些随机变量X和Y的,我们能否总体上说f X ,Y(x ,y )≠ f X(x )f Y(y )?Corr(X,Y)≠0Corr(X,Y)≠0\text{Corr}(X,Y)\ne0XXXYYYfX,Y(x,y)≠fX(x)fY(y)fX,Y(x,y)≠fX(x)fY(y)f_{X,Y}(x,y) \ne f_X(x) f_Y(y)

2
加权主成分分析
经过一番搜索,我发现将观测权重/测量误差纳入主成分分析的内容很少。我发现的结果倾向于依靠迭代方法来包含权重(例如,here)。我的问题是为什么需要这种方法?为什么我们不能使用加权协方差矩阵的特征向量?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.