统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

10
谁是常客?
我们已经有一个线程询问谁是贝叶斯主义者,以及一个询问常问者是否是贝叶斯主义者,但是没有线程直接询问谁是贝叶斯主义者?@whuber提出了这个问题,以作为对此线程的注释,并希望得到解答。它们是否存在(是否有任何自我识别的常客)?也许它们只是由贝叶斯主义者组成的,他们在批评主流统计数据时需要替罪羊怪罪? 对已经给出的答案进行元注释:相比之下,贝叶斯统计不仅是根据使用贝叶斯定理(非贝叶斯定理也使用)来定义的,也不是关于对概率的主观解释的(您不会称其为外行)这样说: “我敢打赌,机会小于50:50!”(贝叶斯)-那么我们是否只能根据对概率的解释来定义频繁性?此外,统计学≠≠\ne应用概率,那么对频繁性的定义应仅专注于概率的解释吗?

4
在LM和GLM之间选择对数转换后的响应变量
我试图了解使用广义线性模型(GLM)与线性模型(LM)的原理。我在下面创建了一个示例数据集: 日志(y)= x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon 该示例的误差不随y的大小而变化,因此我假设对数转换的y的线性模型是最好的。在下面的示例中,确实是这种情况(我认为)-因为LM在对数转换后的数据上的AIC最低。具有对数链接功能的Gamma分布GLM的AIC具有较低的平方和(SS),但是附加的自由度会导致AIC稍高。我惊讶于高斯分布AIC如此之高(即使SS是模型中最低的)。εε\varepsilonÿyy 我希望就何时应该使用GLM模型获得一些建议-即我应该在LM模型拟合残差中寻找一些东西来告诉我另一种分布更合适吗?另外,应该如何选择合适的分销家庭。 在此先感谢您的帮助。 [编辑]:我现在调整了摘要统计信息,以便对数转换后的线性模型的SS与具有对数链接功能的GLM模型相当。现在显示统计图。 例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- …

3
有关如何在lmer中指定随机效应的问题
我最近通过测量在不同上下文中查看该单词时的ERP(EEG),测量了在反复暴露(练习:第1天到第10天)时如何获取一个新单词的含义。我还控制了上下文的属性,例如,它对发现新词义(高或低)的有用性。我对练习的效果(天)特别感兴趣。由于单独的ERP记录比较嘈杂,因此可以通过对特定条件的试验求平均值来获得ERP组件值。通过该lmer函数,我应用了以下公式: lmer(ERPindex ~ practice*context + (1|participants), data=base) 和 lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) 在文献中,我还看到了以下等效随机效应: lmer(ERPindex ~ practice*context + (practice|participants) + (practice|participants:context), data=base) 使用以下形式的随机因子可以完成什么工作participants:context?是否有一个很好的资源可以让对矩阵代数仅有粗略了解的人准确地了解线性混合模型中的随机因素是什么以及应该如何选择它们?


9
高级统计书籍推荐
该站点上有多个线程可提供有关入门统计和机器学习的书籍建议,但我正在寻找有关高级统计的文章,其中包括按优先级排列的顺序:最大似然,广义线性模型,主成分分析,非线性模型。我已经尝试过AC Davison的统计模型,但是坦率地说,我不得不在2章之后将其放下。本书内容涵盖了百科全书和数学知识,但是作为一名从业者,我喜欢通过首先了解直觉来接近学科,然后再深入研究数学背景。 这些是一些我认为具有教学价值的文章。我想为我提到的更高级的科目找到同等的科目。 统计,D。Freedman,R。Pisani,R。Purves。 预测:方法与应用,R。Hyndman等。 多元回归与超越,TZ基思 Rand R. Wilcox,《应用当代统计技术》 R语言中的统计学习及其应用简介(已发布PDF版本),Gareth James,Daniela Witten,Trevor Hastie和Robert Tibshirani 统计学习的要素:数据挖掘,推理和预测。-(PDF发布版本),哈斯提,蒂布希拉尼和弗里德曼(2009)

6
R中逻辑回归的替代方法
我想要执行与逻辑回归相同任务的许多算法。也就是说,可以使用一些解释变量(X)预测二进制响应(Y)的算法/模型。 如果为算法命名后,如果您还演示如何在R中实现它,我将非常高兴。这是一个可以用其他模型更新的代码: set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

7
报告哪种逻辑度量用于逻辑回归(Cox&Snell或Nagelkerke)?
我有SPSS逻辑回归模型的输出。输出报告模型拟合的两个度量,Cox & Snell和Nagelkerke。 因此,根据经验,您会在模型适合时报告哪些R2R²R^²度量? 或者,期刊中通常会报告哪些适合指数? 一些背景:回归试图从一些环境变量(例如,陡度,植被覆盖等)中预测鸟类的存在与否。不幸的是,这只鸟很少出现(35次击中468次未中),因此回归表现很差。Cox&Snell是.09,Nagelkerke是.23。 主题是环境科学或生态学。


5
使用深度学习进行时间序列预测
我是深度学习领域的新手,对我来说,第一步是从deeplearning.net网站阅读有趣的文章。在有关深度学习的论文中,Hinton等人大多谈论将其应用于图像问题。有人可以回答我吗?它可以应用于预测时间序列值(财务,互联网流量等)的问题吗?如果可以的话,我应该重点关注哪些重要事项?

2
有关Fisher信息矩阵以及与Hessian和标准误差的关系的基本问题
好的,这是一个非常基本的问题,但是我有点困惑。我在论文中写道: 通过计算(观察到的)Fisher Information矩阵对角元素的平方根的倒数,可以找到标准误差: 由于R中的优化命令最小化-日志大号的(观察到的)费舍尔信息矩阵可以通过计算的Hessian的逆找到: 我(μ,σ2)=^ h-1sμ^,σ^2= 1我( μ^,σ^2)------√sμ^,σ^2=1个一世(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*}− 日志大号-日志⁡大号-\log\mathcal{L}我( μ^,σ^2)= 高− 1一世(μ^,σ^2)=H-1个\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} 我的主要问题:这是我所说的正确吗? 我有些困惑,因为在第7页的此资源中它说: 信息矩阵是黑森州矩阵的期望值的负数 (因此,没有黑森州的反面。) 而在第7页(脚注5)的此来源中指出: 所观察到的Fisher信息等于。(- 高)− 1(-H)-1个(-H)^{-1} (所以这是相反的。) 我知道减号,何时使用减号,何时不使用,但是为什么取反号与否有区别?

9
R和Python在数据科学方面如何互补?
在许多教程或手册中,叙述似乎暗示R和python作为分析过程的补充组件共存。但是,对我而言,这两种语言似乎在做同样的事情。 所以我的问题是,这两种语言是否真的有专门的细分市场,还是使用一种或另一种只是个人喜好?
54 r  python  software 

2
移动平均过程的真实例子
您能否举一些真实的时间序列示例,其移动平均过程为阶,即 是否有先验的理由成为好的模型?至少对我来说,自回归过程似乎很容易直观地理解,而MA过程乍一看似乎并不自然。请注意,我对这里的理论结果(例如沃尔德定理或可逆性)不感兴趣。qqqÿŤ= ∑我= 1qθ一世εt − i+ εŤ, 其中 εŤ〜ñ(0 , σ2)yt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) 作为我要寻找的示例,假设您的每日股票收益为。然后,平均每周股票收益将具有MA(4)结构作为纯统计伪像。[RŤ〜IID (0 ,σ2)rt∼IID(0,σ2)r_t \sim \text{IID}(0, \sigma^2)

9
在一个经常由外行进行分析的时代,我们是否夸大了模型假设和评估的重要性?
底线是,我对统计知识了解的越多,对本领域发表的论文的信任就越低;我只是认为研究人员的统计数据不够好。 我是一个外行,可以这么说。我接受了生物学方面的培训,但没有接受过统计学或数学方面的正规教育。我喜欢R,并且经常努力阅读(并理解...)进行研究时所用方法的一些理论基础。如果今天进行分析的大多数人实际上没有经过正式培训,这也不会令我感到惊讶。我发表了大约20篇原始论文,其中一些已被知名期刊所接受,而统计学家经常参与到审阅过程中。我的分析通常包括生存分析,线性回归,逻辑回归,混合模型。审阅者从未询问过模型假设,拟合或评估。 因此,我从未真正对模型假设,拟合和评估感到困扰。我从一个假设开始,执行回归,然后给出结果。在某些情况下,我努力评估了这些情况,但最终我总是以“ 好吧,它并不能满足所有假设,但是我相信结果(“主题知识”),并且它们是合理的,所以很好 ”和在咨询统计学家时,他们似乎总是同意。 现在,我已经与其他自己进行分析的统计学家和非统计学家(化学家,医师和生物学家)进行了交谈。似乎人们对所有这些假设和正式评估并没有太在意。但是在简历上,有很多人在询问残差,模型拟合,评估残差的方法,特征值,向量,等等。让我这样说,当lme4警告大型特征值时,我真的怀疑它的许多用户是否在意解决这个问题。 值得付出额外的努力吗?是否所有发表的结果中的大多数都不遵守这些假设,甚至可能没有对它们进行评估?这可能是一个日益严重的问题,因为数据库每天都在增长,并且有一种观念认为,数据越大,假设和评估就越不重要。 我可能是完全错误的,但这就是我对此的看法。 更新: 引自StasK的引用(如下):http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

5
贝叶斯和惯常主义方法给出不同答案的示例
注:我是知道的哲学贝叶斯和频率统计之间的差异。 例如,“在桌上的硬币正面朝上的概率是多少”在常客统计中是没有意义的,因为它已经落在正面或反面了,没有任何概率。因此,该问题没有常人性的答案。 但是,这种差异显然不是我要问的那种差异。 相反,我想知道他们的预测是如何形成良好的问题实际上是不同在现实世界中,不包括任何理论/哲学分歧,如我上面提到的例子。 换句话说: 这是一个例子的问题,该问题在常客和贝叶斯统计中都可以回答,两者的答案不同? (例如,也许其中一个回答“ 1/2”,而另一个回答“ 2/3”。) 有这样的区别吗? 如果是这样,有哪些例子? 如果没有,那么什么时候解决特定问题时使用贝叶斯统计或常客统计实际上有什么不同? 我为什么要避免一个偏向另一个?

3
使用主成分分析(PCA)进行特征选择
我是功能选择的新手,我想知道您将如何使用PCA进行功能选择。PCA是否为每个输入变量计算一个相对分数,您可以使用它来过滤掉非信息性输入变量?基本上,我希望能够按差异或所包含的信息量对数据中的原始特征进行排序。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.