Questions tagged «project-management»

组织*统计*项目的计算工作;用于有关数据存储,数据共享,代码存储库等的问题。请注意,有关编程或与统计无关的问题不在主题之列。

7
如何有效地管理统计分析项目?
我们经常听到计算机科学中的项目管理和设计模式,但是在统计分析中却很少见。但是,看来设计有效而持久的统计项目的决定性步骤是使事情井井有条。 我经常提倡使用R和在单独的文件夹(原始数据文件,转换后的数据文件,R脚本,图形,注释等)中文件的一致组织。采用这种方法的主要原因是,以后运行分析可能会更容易(例如,当您忘记了如何生成给定图时)。 统计项目管理的最佳实践是什么,或者您想根据自己的经验提出建议?当然,这适用于任何统计软件。(请给每个帖子一个答案)

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


6
如何提高研究的长期可重复性(尤其是使用R和Sweave)
情境: 为了回应先前有关可重复研究的问题,杰克写道 创建JASA归档文件时发现的一个问题是CRAN软件包的版本和默认值已更改。因此,在该归档文件中,我们还包括了所用软件包的版本。当人们更改其包装时,基于小插图的系统可能会崩溃(不确定如何在《纲要》的包装中包括额外的包装)。 最后,我想知道当R本身改变时该怎么做。例如,是否有生产虚拟机的方法,该虚拟机可以复制用于纸张的整个计算环境,从而使虚拟机不会很大? 题: 有什么好的策略可确保可重现的数据分析在将来(例如发布后的五,十年或二十年)可重现? 具体来说,使用Sweave和R时,有什么好的策略可以最大程度地提高重复性? 这似乎与确保可重现的数据分析项目将在其他人的计算机上运行时使用的默认值,软件包等略有不同的问题有关。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
有什么有效的方法来组织R代码和输出?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我正在寻找其他人如何组织其R代码和输出的输入。 我目前的做法是在文本文件的块中编写代码,如下所示: #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== 然后,我将输出粘贴到另一个文本文件中,通常带有一些注释。 此方法的问题是: 除了按日期以外,未显式链接代码和输出。 代码和输出是按时间顺序组织的,因此可能很难搜索。 我考虑过使用所有内容制作一个Sweave文档,因为那时我可以制作目录,但这似乎比它提供的好处更麻烦。 让我知道您用于组织R代码和输出的任何有效例程,这些例程将有助于有效地搜索和编辑分析。

5
如何保持对大型数据集的探索性分析?
当我在一个大数据集(许多样本,许多变量)上进行探索性分析时,我经常发现自己身上有数百个派生变量,以及成千上万的不同地块,而没有真正的方式来跟踪前进的方向。代码最终像意大利面条一样,因为从一开始就没有方向。 有什么建议的方法可以使探索性分析保持整洁?特别是,您如何处理勘探的多个分支(包括无用的分支)以及不同版本的地块? 作为参考,我正在研究地球科学数据(随时间变化的许多变量,有时甚至随着空间的变化)。我通常使用Python或R,并将所有内容存储在git中,并且也一直在尝试IPython Notebook。但是,如果答案对所有领域的人来说都是通用的并且有用其他类型的(大型?)数据,那将是很好的。

10
编辑逗号分隔值(CSV)文件的策略
在进行数据分析项目时,我经常将数据存储在逗号或制表符分隔(CSV,TSV)数据文件中。虽然数据通常属于专用的数据库管理系统。对于我的许多应用程序来说,这会做得过多。 我可以在Excel(或大概是其他电子表格程序)中编辑CSV和TSV文件。这样有好处: 电子表格可轻松输入数据 还有几个问题: 使用CSV和TSV文件会导致许多警告消息,提示丢失各种功能以及仅保存活动工作表的方式等等。因此,如果您只想打开文件并进行一些更改,则很烦人。 它执行许多“理应智能”的转换。例如,如果输入12/3,它将认为您要输入日期。 更新:我应该提到日期示例只是许多示例之一;大多数问题似乎与不当转换有关。特别是,看起来像数字或日期的文本字段会引起问题。 另外,我可以在标准文本编辑器中直接使用文本文件。这样可以确保我输入的是记录的内容。但是,这是输入数据的一种非常尴尬的方式(列不对齐;仅将数据输入到多个单元格中很难;等等)。 题 使用CSV或TSV数据文件的最佳策略是什么?也就是说,什么策略可以使输入和操作数据变得容易,同时又确保您输入的内容得到了正确的解释?

5
简单,可靠,开放且可互操作的纯文本格式,用于存储数据
在上一个问题中,我询问了用于编辑CSV文件的工具。 加文 链接到邓肯·默多克(Duncan Murdoch)对R Help的评论, 暗示数据交换格式比CSV是一种更可靠的数据存储方式。 对于某些应用程序,需要专用的数据库管理系统。但是,对于小规模的数据分析项目,更轻量的东西似乎更合适。 考虑以下用于评估文件格式的条件: 可靠:输入的数据应与输入的内容保持真实;数据应在不同软件中一致打开; 简单:如果文件格式易于理解并且理想情况下可以通过简单的文本编辑器读取,那将是很好的选择;编写简单的程序来读写格式应该很容易。 open:格式应该是开放的 可互操作的:许多系统应支持文件格式 我发现制表符和逗号分隔的值格式无法满足可靠性要求。尽管我想我可以责怪导入和导出程序,而不是文件格式。我经常发现自己不得不对选项进行一些调整, read.table以防止某些奇怪的字符破坏数据帧的加载。 问题 哪种文件格式最能满足这些需求? 数据交换格式是否是更好的选择?还是有自己的问题? 还有其他更可取的格式吗? 我是否在不公平地评估TSV和CSV?是否有一组简单的技巧来处理此类文件,从而使文件格式更可靠?

3
什么是实际上良好的数据分析过程?
我想了解或参考大多数统计数据分析师在每个数据分析项目中都要经过的分析过程。 如果要列出清单,要完成数据分析项目,分析师必须: 首先收集项目需求, 之前根据这些要求计划/设计数据分析 实际上是预处理数据, 执行数据分析并 根据他的分析结果撰写报告。 对于这个问题,我对第2步的更多细节感兴趣。但是我理解这实际上并不明确,因为分析师可能必须根据数据分析输出更改其计划或设计。关于这个主题有参考吗?

3
改善数据集中的变量名
好的变量名是: a)简短/易于输入, b)容易记住, c)可以理解/交流。 我忘记了什么吗?一致性是要寻找的东西。我要说的是,一致的命名约定有助于上述质量。一致性有助于(b)容易回忆和(c)易懂性,尽管其他因素通常更重要。在(a)名称长度/键入的难易程度(例如,所有小写字母)和(c)易懂性之间存在明显的权衡。 我在这些问题上投入了相当多的思想,因为成千上万的人正在使用数据,并且希望许多人将使用我的代码来准备数据并促进某些类型的分析。来自青少年健康纵向研究的数据分为多个数据集。我的第一步是将最常用的数据集中的227个变量重新编码,为它们指定更有意义的名称。原始变量名称是诸如“ aid”,“ s1”,“ s2”之类的名称,我将其重命名为“ aid2”,“ age”和“ male.is”。在其他数据集中还有成千上万的其他变量可以根据研究者的目标进行合并。 只要我重命名变量,我就想让它们尽可能有用。这是我考虑过的一些问题。到目前为止,我仅使用小写字母,避免使用任何破折号或下划线,并且仅将句号用于一种非常特定的目的。这具有简单性和一致性的优点,并且对于大多数变量没有任何问题。但是随着事情变得越来越复杂,我很想破坏我的一致性。以我的变量“ talkprobmsum”为例,将其更容易阅读为“ talkProbMSum”或更好的为“ talk.prob.m.sum”,但是如果我要使用大写字母或句点来分隔单词,则我不应该对所有变量都这样做吗? 有些变量会被多次记录,例如种族变量,因此我在其后附加了.is或.ih,以表明它们是来自学校还是家庭问卷。但是肯定有一些我还不知道的重复,将对数据集的引用附加到每个变量的名称上会更好吗? 我需要对许多变量进行分组居中并进行标准化,我这样做的方法是通过附加.zms来表示男性和学校的z分数。 任何一般或特定的想法或资源,将不胜感激。看到我的一些代码以及具有变量名列表的描述性统计信息,见此存储库。我简要描述的原因分享这段代码在这里,它被宣传了一下这里,但最后这两个环节不变量命名惯例的问题确实有关。 补充:我对此内容进行了少量编辑,主要是为了移动段落,以免避免注释中明显的混淆。感谢您的想法! 新增2016-09-05:值得注意的是Hadley Wickham的R风格指南和Google的R风格指南 ... Hadley说: 变量和函数名称应小写。使用下划线(_)分隔名称中的单词。 Google说: 请勿在标识符中使用下划线(_)或连字符(-)。标识符应根据以下约定命名。变量名的首选形式是所有小写字母和单词,并用点号(variable.name)分隔,但variableName也被接受;函数名称带有大写字母且没有点(FunctionName);常量的名称类似于函数,但以k开头。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.