Questions tagged «references»

寻求有关特定主题的外部参考文献(书籍,​​论文等)的问题。此外,请始终使用更具体的标签。

4
内部与外部交叉验证和模型选择
我的理解是,通过交叉验证和模型选择,我们尝试解决两件事: P1。用我们的样本进行训练时估计人口的预期损失 P2。测量并报告我们对该估计的不确定性(方差,置信区间,偏差等) 标准做法似乎是进行反复交叉验证,因为这会减少我们估算器的差异。 但是,在报告和分析方面,我的理解是内部验证比外部验证要好,因为: 最好报告: 我们的估算器的统计数据,例如,对整个样本(在本例中为CV样本)的置信区间,方差,均值等。 比报告: 由于以下原因,我们在原始样本的保留子集上的估计量损失: (i)这将是一次测量(即使我们使用CV选择估算器) (ii)由于我们必须为保留集留出空间,因此我们将使用比原始样本小的集(例如CV集)来训练我们用于此单一测量的估计量。这导致P1中的估计更加偏颇(悲观)。 它是否正确?如果不是为什么? 背景: 很容易找到建议将样本分为两组的教科书: 该CV集,随后,反复分为训练和验证集。 在保持退出(测试)集,只在最后用来报告估计性能 我的问题是试图了解这种教科书方法的优点和优势,因为我们的目标是在本文开头真正解决问题P1和P2。在我看来,报告保留测试集是一种不好的做法,因为对CV样本的分析会提供更多信息。 嵌套K折与重复K折: 原则上,可以将保留与常规K折相结合以获得 嵌套K折。这将使我们能够评估估计量的变异性,但在我看来,对于相同数量的总训练模型(总折数),重复K折将产生比嵌套K-误差更小,更准确的估计量折。要看到这个: 对于相同的K,重复的K折使用的总样本量要比嵌套K折的样本大(即,导致较低的偏差) 100次迭代只会以嵌套K折(K = 10)给出估计值的10次测量,但是以K折为100次测量(更多的测量会导致P2的方差更低) 这个推理怎么了?

1
旧书中的统计表故意错误吗?
我记得前一段时间读过,在旧书(计算机时代以前)中,附录中显示的理论分位数的最后一位数字是不准确的,目的是防止抄袭(想法是,如果另一本书中有一张桌子,附录中最后一位数字与您所找到的数字相同,则该作者必须抄袭了您的表格)。 我试图找回该故事的来源或提及该故事的链接,但是经过数小时的搜索,我找不到了。

1
最新的流媒体学习
我最近一直在处理大型数据集,并发现了许多有关流方法的论文。仅举几例: 遵循规范的领导者和镜像后裔:等价定理和L1正则化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) 流式学习:一次通过SVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:用于SVM的原始估计子GrAdient求解器http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf 还是在这里:SVM可以一次进行流学习一个示例吗? 流随机森林(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) 但是,我无法找到有关它们之间如何比较的任何文档。我读过的每篇文章似乎都针对不同的数据集进行了实验。 我知道sofia-ml,vowpal wabbit,但与大量现有方法相比,它们似乎执行的方法很少! 不太常见的算法性能不够吗?是否有任何论文试图复习尽可能多的方法?


3
R是否适用于生产(部署)代码
我已经阅读了许多有关R,R和R的公司的文章,例如Google,Facebook和许多其他公司。我读过的另一种情况是,公司使用R来对分析解决方案进行原型设计,然后以另一种语言重新实现。 我正在尝试查找有关使用R进行实际生产分析代码的公司的文献。用例可能是推荐系统,用户可以通过网页与之交互,该网页从远程服务器上执行的R脚本获取响应。我在查找此类报告时遇到困难,这使我想知道是否不建议这样做。如果可以,为什么?
25 r  references 

5
关于Copulas的入门阅读
一段时间以来,我一直在为我的研讨会寻找有关Copulas的良好介绍性阅读。我发现有很多关于理论方面的材料,这是很好的,但是在我将其介绍之前,我希望对这一主题建立良好的直观理解。 谁能提出建议为初学者打好基础的好论文(我在合理的程度上开设了1-2门统计学课程,并了解边际,多元分布,逆变换等)?

6
有关R的统计资料参考书-是否存在,并且应包含什么?
背景 围绕此问题进行了很多讨论,因此我认为我可以从StackExchange的早期版本以及通过疯狂地搜索来找到答案。经过半天的尝试,我只为R找到了一本关于(生物)统计的参考书,但我完全感到困惑,不得不放弃。也许免费材料的组合实际上比您现在可以购买的任何书都要好。让我们找出答案。 互联网上充斥着许多不错的R语言免费文学作品,因此,平庸的书实在是没有意义的,因为平庸的书大部分时间都被用作办公装饰。R主页站点列出了与R相关的书籍,其中有很多。更准确地说:115.其中只有一个广告标有“ 独立统计参考书 ”。现在已经8岁了,可能已经过时了。带S的《现代应用统计》的第四版甚至更旧。R书经常被认为过于基础,因此不推荐使用,因为缺乏参考,格式不良的代码和草率的处理。 但是,我正在寻找一本书,该书可以用作对带有R(第二)的实用统计(第一和第一)的独立参考。这本书应该放在我的办公室桌上,收集注解,咖啡渍和油腻的指纹,而不是书架上的灰尘。它应该取代我到目前为止一直在使用的免费pdf集合,不要忘记R带有出色的参考库。“ 正确的方法是什么?”,“ 为什么?“和‘ 在技术上,它是如何工作的? ’往往更迫切问题不是‘ 怎么有R办呢? ’ 由于我是生态学家,所以我对生物统计学的应用最感兴趣。但是,由于这些东西经常联系在一起,因此跨学科的一般性参考对我来说将是最有价值的。 任务 如果存在这样的书(我对此表示怀疑),请提供该书的名称(每个答案仅一个),并简要介绍该书,以解释为什么应将其命名为该主题的参考书。由于此问题与现有问题并没有太大不同,请使用此提示进行回答。您还可以列出书中的缺陷,以便我们将其列为理想参考书的功能。 我的问题是带有R的(最常用的)统计参考书应包含哪些内容? 一些初步的想法是遵循以下一般功能(请更新): 蠢如顽石 简洁但可以理解 填满数字(提供R代码) 易于理解的表格和图表描述了文本中最重要的细节 易于理解的有关统计/方法的描述性文字,其中包含最重要的方程式。 每种方法的良好示例(带有R代码) 广泛而最新的参考文献清单 最少错别字 目录 由于我不是统计学家,因此需要此书(不存在吗?)来回答这个问题,因此我很难写出内容。因为R书显然打算成为R的统计参考书,但经常遭到批评,所以我从书中复制了目录,以此作为独立R统计参考书的目录的起点。附加任务:请为目录提供补充,建议,删除等。 入门 R语言基础 数据输入 数据框 图形 桌子 数学 古典测验 统计建模 回归 方差分析 协方差分析 广义线性模型 计数数据 表中数据计数 比例数据 二进制响应变量 广义加性模型 混合效应模型 非线性回归 树模型 时间序列分析 多元统计 …
25 r  references 

1
比较R中发生GLM后的因素水平
以下是有关我的处境的一些背景信息:我的数据是指被捕食者成功吃掉的猎物的数量。由于每个试验中猎物的数量都是有限的(可用25个),因此我有一列“ Sample”代表可用猎物的数量(因此,每个试验中有25个),另外一个名为“ Count”的数字表示成功的数量(吃了多少猎物)。我的分析基于R书中有关比例数据的示例(第578页)。解释变量是温度(4个级别,我将其视为因素)和捕食者的性别(显然是雄性还是雌性)。所以我最终得到这个模型: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) 得出“偏差分析”表后,事实证明,温度和性别(但不存在相互作用)对猎物的消耗有显着影响。现在,我的问题是:我需要知道哪个温度不同,即,我必须将这四个温度相互比较。如果我有线性模型,则可以使用TukeyHSD函数,但由于使用的是GLM,所以不能。我一直在浏览MASS软件包,并尝试建立一个对比度矩阵,但是由于某种原因它不起作用。有什么建议或参考吗? 这是我从模型中获得的摘要,如果可以使它更清楚…… y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

5
因果分析简介
什么是介绍因果分析的好书?我正在考虑一个介绍,它既可以解释因果分析的原理,又可以说明如何使用不同的统计方法来应用这些原理。

3
无知先验理论的历史
我正在为贝叶斯统计课程(经济学硕士)写一则关于非先验先验的简短理论文章,并且试图理解发展该理论的步骤。 到目前为止,我的时间轴分为三个主要步骤:拉普拉斯的冷漠原则(1812),非不变先验(Jeffreys(1946)),伯纳多参考先验(1979)。 从我的文献综述中,我了解到,冷漠原理(Laplace)是用来表示缺乏先验信息的第一个工具,但是由于缺少不变性的要求,导致这种放弃一直到40年代,杰弗里斯(Jeffreys)提出了他的方法,该方法具有不变性的期望性质。由于在70年代不小心使用了不当先验而导致的边缘化悖论的出现促使贝尔纳多(Bernardo)阐述了他的先验先验理论以解决这个问题。 阅读文献时,每个作者都引用了不同的贡献:Jaynes的最大熵,Box和Tiao的数据翻译的可能性,Zellner,... 您认为我缺少哪些关键步骤? 编辑:如果有人需要,我添加我的(主要)引用: 1)通过正式规则选择先验者,卡斯,瓦瑟曼 2)无信息先验的目录,Yang,Berger 3)非信息贝叶斯先验解释以及构造和应用问题

7
针对非技术性但深度统计文章的建议
这个问题的灵感来自于已故的Leo-Breiman著名的文章《统计模型:两种文化》(开放获取)。作者将他认为是两种截然不同的数据分析方法进行了比较,涉及经典统计和机器学习中的关键思想。但是,无论读者是在博士级别上从事统计学研究还是仅参加入门课程,对广大读者来说,这篇文章都是可以理解的。而且,这篇文章令人振奋。也就是说,它很容易引起讨论(正如同一期发表的一系列生动评论所证明的那样)。 我很好奇,发现更多具有这些品质的文章。也就是说,以下文章: 触及统计/数据分析中的基本概念 在研究重点和正式统计培训方面存在差异,因此可以被广大受众理解 通过洞察力或争议激发讨论
24 references 

1
谁发明了k折交叉验证?
我正在寻找对引入k折交叉验证的论文的参考(而不仅仅是该主题的良好学术参考)。也许时间模糊不清,无法明确地确定第一篇论文,因此使用该想法的任何早期论文都将引起关注。 我最早知道的是 PA Lachenbruch和MR Mickey,“判别分析中的错误率估计”,Technometrics,第1卷。10号 1968年2月,第1卷,第1-12页。 和 A. Luntz和V. Brailovsky,“关于在识别的统计程序中获得的字符的估计(俄语),” Techicheskaya Kibernetica,第1卷。1969年3月3日。 但据我所知,它们仅涵盖留一法交叉验证(我的技术俄语不是全部; o)。


6
结构方程建模简介
同事问我在这个问题上有什么帮助,我真的不知道。他们在一项研究中对某些潜在变量的作用进行了假设,然后一名裁判要求他们在SEM中将其正式化。由于他们的需求似乎并不困难,我想我会尝试一下……现在,我只是在寻找有关该主题的不错的入门指南! Google并不是我真正的朋友。提前谢谢了... PS:我读了结构方程模型利用SEM包中的R由约翰·福克斯,以及本文由同一作者。我认为这足以满足我的目的,无论如何欢迎其他参考。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.