好的变量名是:
a)简短/易于输入,
b)容易记住,
c)可以理解/交流。
我忘记了什么吗?一致性是要寻找的东西。我要说的是,一致的命名约定有助于上述质量。一致性有助于(b)容易回忆和(c)易懂性,尽管其他因素通常更重要。在(a)名称长度/键入的难易程度(例如,所有小写字母)和(c)易懂性之间存在明显的权衡。
我在这些问题上投入了相当多的思想,因为成千上万的人正在使用数据,并且希望许多人将使用我的代码来准备数据并促进某些类型的分析。来自青少年健康纵向研究的数据分为多个数据集。我的第一步是将最常用的数据集中的227个变量重新编码,为它们指定更有意义的名称。原始变量名称是诸如“ aid”,“ s1”,“ s2”之类的名称,我将其重命名为“ aid2”,“ age”和“ male.is”。在其他数据集中还有成千上万的其他变量可以根据研究者的目标进行合并。
只要我重命名变量,我就想让它们尽可能有用。这是我考虑过的一些问题。到目前为止,我仅使用小写字母,避免使用任何破折号或下划线,并且仅将句号用于一种非常特定的目的。这具有简单性和一致性的优点,并且对于大多数变量没有任何问题。但是随着事情变得越来越复杂,我很想破坏我的一致性。以我的变量“ talkprobmsum”为例,将其更容易阅读为“ talkProbMSum”或更好的为“ talk.prob.m.sum”,但是如果我要使用大写字母或句点来分隔单词,则我不应该对所有变量都这样做吗?
有些变量会被多次记录,例如种族变量,因此我在其后附加了.is或.ih,以表明它们是来自学校还是家庭问卷。但是肯定有一些我还不知道的重复,将对数据集的引用附加到每个变量的名称上会更好吗?
我需要对许多变量进行分组居中并进行标准化,我这样做的方法是通过附加.zms来表示男性和学校的z分数。
任何一般或特定的想法或资源,将不胜感激。看到我的一些代码以及具有变量名列表的描述性统计信息,见此存储库。我简要描述的原因分享这段代码在这里,它被宣传了一下这里,但最后这两个环节不变量命名惯例的问题确实有关。 补充:我对此内容进行了少量编辑,主要是为了移动段落,以免避免注释中明显的混淆。感谢您的想法!
新增2016-09-05:值得注意的是Hadley Wickham的R风格指南和Google的R风格指南 ... Hadley说:
变量和函数名称应小写。使用下划线(_)分隔名称中的单词。
Google说:
请勿在标识符中使用下划线(_)或连字符(-)。标识符应根据以下约定命名。变量名的首选形式是所有小写字母和单词,并用点号(variable.name)分隔,但variableName也被接受;函数名称带有大写字母且没有点(FunctionName);常量的名称类似于函数,但以k开头。
R
,而是与记录和使用数据的适当做法有关。