统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
为什么随机游走的方差会增加?
定义为Y t = Y t − 1 + e t的随机游走,其中e t是白噪声。表示当前位置是前一个位置的总和加上一个不可预测的项。Yt=Yt−1+etÿŤ=ÿŤ-1个+ËŤY_{t} = Y_{t-1} + e_tetete_t 可以证明的是,平均函数μt=0μt=0\mu_t = 0 ,因为E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 + 0 + ... + 0 但是,为什么方差随时间线性增加? 因为新位置与上一个位置非常相关,这是否与“纯”随机无关? 编辑: 现在,通过可视化大量随机游走,我有了更好的理解,在这里我们可以轻松地观察到总体方差确实会随着时间的推移而增加, 平均值在零附近。 毕竟这可能是微不足道的,因为在时间序列的早期(比较时间= 10,有100),随机步行者还没有时间去探索。

8
在没有假设的情况下P值的丰度
我正在流行病学。我不是统计学家,但尽管经常遇到困难,但我还是尝试自己进行分析。大约2年前,我做了第一次分析。从描述表到回归分析,P值被包括在我的分析中的所有地方(我只是做了其他研究人员所做的事情)。渐渐地,在我公寓里工作的统计学家说服我跳过所有(!)p值,除非我真正有一个假设。 问题在于,p值在医学研究出版物中很丰富。通常在太多行上都包含p值;平均值,中位数或其他通常带有p值的描述性数据(学生t检验,卡方等)。 我最近向期刊提交了一篇论文,但我拒绝(礼貌地)在我的“基准”描述性表中添加p值。该文件最终被拒绝。 例如,请参见下图;这是一本受人尊敬的内科杂志上最新发表的文章的描述性表格: 统计人员大部分(如果不是总是)参与这些手稿的审阅。因此,像我这样的外行人希望在没有假设的情况下找不到任何p值。但是它们很丰富,但是对于我来说,其原因仍然难以捉摸。我发现很难相信这是无知。 我意识到这是一个临界的统计问题。但我正在寻找这种现象背后的原因。

3
为什么居中的自变量可以适度改变主效应?
受这个CV线程的启发,我有一个与多元回归和交互相关的问题:使用中心变量分层回归分析的交互项?我们应该集中哪些变量? 在检查调节效果时,我将我的自变量居中并乘以居中的变量,以计算出交互项。然后,我进行回归分析,并检查主要影响和相互作用影响,这可能表明存在中度影响。 如果我重做分析而没有居中,则确定系数(R2R2R^2)显然不会改变,而回归系数(ββ\beta)会改变。这似乎很清楚而且合乎逻辑。 我不了解的是:主要效果的p值会随着居中而发生实质性变化,尽管交互作用并没有(正确)。因此,我对主要影响的解释可能会发生巨大变化-取决于是否居中。(在两次分析中,它仍然是相同的数据!) 有人可以澄清吗?-因为那将意味着使变量居中的选项是强制性的,因此每个人都应该这样做以使用相同的数据获得相同的结果。 非常感谢您分发该问题以及您的全面解释。请放心,非常感谢您的帮助! 对我来说,居中的最大优势是避免多重共线性。建立规则是否居中仍然令人困惑。我的印象是,尽管这样做有一些“风险”,但大多数资源都建议以中心为中心。我再次想指出一个事实,两位处理相同材料和数据的研究人员可能得出不同的结果,因为一个人居中而另一个人居中。我刚刚读过Bortz(他曾是德国和欧洲的教授,并且是统计之星)的书的一部分,他甚至没有提到这种技术。只是指出在涉及变量时要特别注意解释变量的主要作用。 毕竟,当您使用一个IV,一个主持人(或第二个IV)和DV进行回归时,您是否建议居中?

3
执行变量选择时如何处理多重共线性?
我有一个包含9个连续自变量的数据集。我正在尝试从这些变量中进行选择,以使模型适合单个百分比(因变量)变量Score。不幸的是,我知道几个变量之间将存在严重的共线性。 我尝试使用stepAIC()R中的函数进行变量选择,但是奇怪的是,该方法似乎对方程中列出变量的顺序很敏感... 这是我的R代码(因为它是百分比数据,所以我对得分使用了logit转换): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 由于某种原因,我发现方程式开头列出的变量最终被stepAIC()函数选择,结果可以通过列出来操纵,例如,Var9首先(跟随波浪号)。 在这里拟合模型的一种更有效(且争议较小)的方法是什么?我使用线性回归并没有真正陷入僵局:我唯一想做的就是能够了解9个变量中的哪一个真正驱动了变量的Score变化。优选地,这将是考虑这9个变量的共线性的强大潜力的某种方法。

1
标准和球形k均值算法之间的区别
我想了解一下,标准和球形k均值聚类算法之间的主要实现区别是什么。 在每个步骤中,k均值都会计算元素向量和聚类质心之间的距离,并将文档重新分配给这个质心最接近的质心。然后,重新计算所有质心。 在球面k均值中,所有向量均被归一化,距离度量为余弦不相似性。 这是全部,还是还有其他东西?

4
绑定三个随机变量的相关性
有三个随机变量。三个变量之间的三个相关性是相同的。那是,x,y,zx,y,zx,y,z ρ=cor(x,y)=cor(x,z)=cor(y,z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) 您可以为给出的最严格限制是什么?ρρ\rho



2
为什么RSS分布卡方数np?
我想了解为什么在OLS模型下RSS(残差平方和)分布为(是模型中参数的数量,是观测值的数量)。χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn 对于提出这样的基本问题,我深表歉意,但似乎无法在线(或在我的面向应用程序的教科书中)找到答案。


4
如何在R中进行降维
我有一个矩阵,其中a(i,j)告诉我我浏览过页面j的次数。有27K个人和95K页。我想在页面空间中有一些“尺寸”或“方面”,它们对应于经常一起查看的页面集。我的最终目标是能够计算出个人浏览过1维,2维等页面的频率。 我已经阅读了有关主成分分析和单值分解的R文档,并执行了这些命令,但是我不确定如何继续。 如何使用降维方法来做到这一点?还是这确实是一个聚类问题,而我应该研究聚类算法? 非常感谢您的见解〜l

5
为什么高斯过程中的均值函数无趣?
我刚刚开始阅读有关GP的信息,类似于正则高斯分布,它的特征在于均值函数和协方差函数或内核。我在一次演讲中,发言人说,平均值函数通常很有趣,所有推理工作都花在了估计正确的协方差函数上。 有人可以向我解释为什么会这样吗?

8
寻找一本完整的概率统计书
我从来没有机会从数学系访问统计课程。我正在寻找一本完整的自给自足的概率论和统计书。完整的意思是它包含所有证明,而不仅仅是陈述结果。自给自足是指不需要阅读另一本书就能理解这本书。当然,它可能需要大学水平(数学系学生)的微积分和线性代数。 我看过多本书,但我不喜欢其中的任何一本书。 DeGroot和Schervish(2011)概率与统计(第4版)皮尔森 这还不够完整。它只是说明了很多东西而没有推导。除此之外,我喜欢它。 瓦瑟曼(Wasserman)(2004年),《所有统计资料:统计推断简明课程》。 一点都不喜欢。几乎没有解释。 David Williams的“ Weighing the Odds”比DeGroot更为正式,似乎是完整且自给自足的。但是,我发现样式很奇怪。他还发明了似乎只有他才能使用的新术语。DeGroot中解释的所有内容也在那里得到了更好的解释。 如果您知道一本很棒的德语书,那也和我是德语一样好。


4
如何进行仅包含样本数量,样本平均值和总体平均值的学生t检验?
学生的检验要求样本标准偏差。但是,我怎么计算的当只有样本量和样本平均已知?tttssssss 例如,如果样本大小为,样本平均值为,那么我将尝试创建相同样本的列表,每个样本的值均为。预期样本标准偏差为。这将在检验中产生零除问题。494949112112112494949112112112000ttt 其他数据: ACME北部工厂工人的平均收入为$200$200\$200。据报道,在ACME南部工厂随机抽取494949名工人,他们的年收入$112$112\$112。这种差异具有统计意义吗? 我是否正确地说人口平均数为$200$200\$200?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.