Questions tagged «references»

寻求有关特定主题的外部参考文献(书籍,​​论文等)的问题。此外,请始终使用更具体的标签。


2
在Freedman等人的“统计”和Freedman等人的“统计模型:理论与实践”之间进行选择
我不是统计学家,但我对统计学非常感兴趣,我想买一本书作为参考。我有一些关于特定主题的书(例如用于机器学习的贝叶斯数据分析的统计学习元素)的......嗯,贝叶斯数据分析:)我也一直在寻找一个更通用的书。 弗里德曼的书通常在这里得到深思熟虑: 高级统计书籍推荐 您会为非统计学家的科学家推荐哪本书? Freedman,Pisani和Purves(A)的统计数据是后一个问题的选择答案,我打算购买。但是,我发现了有关统计模型的理论与实践(B)。这两本书看起来很相似(据我所知:即使阅读完整的ToC,亚马逊也限制了我……我不知道为什么)。出版日期非常接近。然而: B便宜得多。不过,我可以使用A,因此,如果A明显好于B,我愿意选择A。 A更长,但在我看来B缺少的主要章节与概率有关。我不需要那部分,所以如果那是唯一的不同或主要的不同,我宁愿购买更便宜,更便于携带的B :) 你会建议我买哪本书?
16 references 

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


5
对于平均置信区间的近似误差时
令是一族iid随机变量,其值在,具有均值和方差{Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^n[0,1][0,1][0,1]μμ\muσ2σ2\sigma^2。给出均值的简单置信区间,只要知道就 使用σσ\sigmaP(| X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). 同样,由于渐近分布为标准正态随机变量,因此有时使用正态分布来“构造”近似置信区间。X¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}} 在多项选择题答案统计考试中,我不得不使用这种近似代替(1)(1)(1)每当时。我一直对此感到非常不舒服(超出您的想象),因为无法量化近似误差。n≥30n≥30n \geq 30 为什么使用法线逼近而不是?(1)(1)(1) 我不想再盲目地应用规则。是否有好的参考文献可以支持我拒绝这样做并提供适当的替代方法?((1)是我认为合适的替代方法的示例。)n≥30n≥30n \geq 30(1)(1)(1) 在这里,虽然σσ\sigma和E[|X|3]E[|X|3]E[ |X|^3]未知,但它们很容易被限制。 请注意,我的问题是一个参考请求,尤其是有关置信区间的请求,因此与此处建议作为部分重复的问题的区别有所不同和此处。那里没有答案。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
哪些统计方法是过时的,应该从教科书中省略?[关闭]
按照目前的情况,这个问题并不适合我们的问答形式。我们希望答案会得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 6年前关闭。 在回答有关二项式比例的置信区间的问题时,我指出了这样一个事实,即正态逼近是一种不可靠的方法,是一种过时的方法。尽管可能会争论说将其作为有关什么是适当方法的一课的一部分,但不应将其作为方法来讲授。 还有哪些其他“标准”统计方法已经过了使用期限,并且应在以后的教科书版本中省略(从而为有用的思想留出空间)?

4
logit函数是否始终是二进制数据回归建模的最佳选择?
我一直在考虑这个问题。用于模拟二进制数据的常用逻辑函数为: 然而,logit函数是S形曲线,始终是建模数据的最佳选择?也许您有理由相信您的数据不遵循正常的S形曲线,而是具有域的另一种类型的曲线。log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) 是否对此有任何研究?也许您可以将其建模为Probit函数或类似的函数,但是如果它完全是其他函数呢?这样可以更好地估计效果吗?只是我的想法,我想知道是否对此有任何研究。


5
有什么好资源可以比较不同分类器的优缺点?
最好的现成2类分类器是什么?是的,我想这是一百万美元的问题,是的,我知道没有免费的午餐定理,而且我还阅读了前面的问题: 什么是最适合您的应用程序的现成2类分类器? 和最差的分类 不过,我仍然有兴趣阅读有关该主题的更多信息。 什么是良好的信息来源,包括对不同分类器的特征,优势和特征的一般比较?

2
什么是“消息传递方法”?
我对什么是消息传递方法有一个模糊的认识:一种算法,该算法通过在所有其他因子的所有近似值的基础上迭代构建分布的每个因子的近似值来构建分布的近似值。 我相信这两个都是变体消息传递和期望传播的示例。什么是更明确/正确的消息传递算法?欢迎参考。

3
很好的时间序列介绍(带R)
我目前正在收集有关与疼痛经历相关的社会心理特征的实验数据。为此,我将从参与者的电子方式收集GSR和BP测量值,以及各种自我报告和隐式测量值。我有心理背景,并且对因子分析,线性模型和实验分析很满意。 我的问题是,有什么好的(最好是免费的)资源可用于学习时间序列分析。对于这个领域,我是一个新手,因此,我们将不胜感激。我有一些试验数据可以练习,但是想在完成收集数据之前详细制定我的分析计划。 如果提供的参考文献也与R有关,那就太好了。 编辑:更改语法并添加“自我报告和隐含措施”

9
哪些书概述了适用于计算机科学的计算统计信息?
作为软件工程师,我对诸如统计算法,数据挖掘,机器学习,贝叶斯网络,分类算法,神经网络,马尔可夫链,蒙特卡洛方法和随机数生成等主题感兴趣。 我个人不喜欢使用这些技术中的任何一种,但是我不得不使用在幕后使用了这些技术并且希望从更高层次上了解它们的软件。我正在寻找涵盖广度的书-目前不需要深度。我认为,如果我能理解所采用的算法和技术背后的数学基础,就可以学到很多有关软件开发的知识。 统计分析社区可以推荐我可以用来学习更多有关在软件中实现各种统计元素的书籍吗?

3
稳健的均值估计中的速成过程
我有一堆(大约1000个)估计值,它们都应该是长期弹性的估计值。多一点的这些一半是使用方法A和使用方法B.带我读的东西,如“我认为B法估计的东西剩下的估计很不是方法的不同,因为估计是多少(50-60%)高”。我对稳健统计的了解几乎是零,所以我只计算了两个样本的样本均值和中位数...,我立即看到了差异。方法A非常集中,中位数和均值之间的差异很小,但是方法B样本变化很大。 我得出的结论是,离群值和测量误差使方法B的样本倾斜,因此我丢弃了大约50个值(约15%),这与理论非常不一致...并且突然之间,两个样本的均值(包括其CI)非常相似。密度图也是如此。 (为消除异常值,我查看了样本A的范围,并删除了样本B之外的所有样本点。)我想告诉你,我在哪里可以找到一些可靠的均值估算基础请允许我更严格地判断这种情况。并有一些参考。我不需要对各种技术有很深入的了解,而是通过对鲁棒估计方法的全面调查来阅读。 我在去除异常值后进行了t均值显着性检验,p值为0.0559(t约为1.9),对于全部样本,t stat约为4.5。但这并不是真正的重点,手段可能有所不同,但是如上所述,它们不应相差50-60%。而且我认为他们没有。

9
引用具有各种属性的分布
我经常发现自己问这样的,“我知道这个变量的问题 之处在于(0 ,1 )和大多数群众的谎言在(0 ,0.20 ),然后持续下降朝1.我可以使用哪些分布模型呢? ”Xxx(0 ,1 )(0,1)(0,1)(0 ,.20 )(0,.20)(0,.20) 在实践中,由于我了解它们,所以一次又一次地使用相同的几个分布。相反,我想以更系统的方式查找它们。我如何才能获得概率论者在开发所有这些分布方面所做的大量工作? 理想情况下,我希望按属性(支撑区域等)进行组织的参考,因此我可以根据其特征找到分布,然后根据pdf / cdf的可处理性以及理论推导的拟合程度来了解每种分布的更多信息我正在研究的问题。 是否存在这样的参考?如果不存在,如何选择发行版?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.