作为R,bash,Python,asciidoc,(La)TeX,开源软件或任何un * x工具的发烧友,我无法提供客观的答案。而且,由于我经常反对使用任何类型的MS Excel或电子表格(嗯,您看到了数据或数据的一部分,但是还有什么呢?),所以我不会为辩论做出积极的贡献。我不是唯一的一个,例如
我的一位同事由于缺乏向后兼容性等原因而失去了所有宏。另一位同事试图导入遗传数据(大约700位受试者在800,000个标记(120 Mo)上进行了基因分型),只是为了“看看它们”。Excel失败了,记事本也放弃了...我可以用vi“查看它们”,并使用sed / awk或perl脚本快速重新格式化数据。因此,我认为在讨论电子表格的有用性时需要考虑不同的层次。您要么处理小型数据集,要么只希望应用基本的统计资料,也许还可以。然后,您可以信任结果,也可以始终要求提供源代码,但是使用NIST基准对所有内联过程进行快速测试也许会更简单。我不认为这仅是因为它不是真正的统计软件(IMHO)而不是一种进行统计的好方法,尽管作为上述列表的更新,MS Excel的较新版本似乎已经证明了其准确性的提高。统计分析,请参见Keeling和Pavur,《九种统计软件包的可靠性比较研究》(CSDA 2007 51:3811)。
尽管如此,在10或20(生物医学,心理学,精神病学)中,大约有一篇论文包含用Excel制作的图形,有时不删除灰色背景,水平的黑线或自动图例(Andrew Gelman和Hadley Wickham肯定和看到我的时候)。但更笼统地说,根据FlowingData 最近的一项调查,它往往是最常用的“软件” ,这让我想起了Brian Ripley的老话(他是MASS R软件包的合著者,并且写了一本关于模式识别的好书,以及其他):
我们不要自欺欺人:最广泛使用的统计软件是Excel(B。Ripley,通过Jan De Leeuw),http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
现在,如果您觉得它为您提供了一种快速简便的方法来完成统计信息,那为什么不呢?问题是在这样的环境中仍然有些事情无法完成(或者至少很棘手)。我想到了自举,置换,多元探索性数据分析等。除非您非常精通VBA(既不是脚本语言也不是编程语言),否则我倾向于认为即使是较小的数据操作也可以在R(或Matlab或Python)下更好地处理,从而为您提供正确的处理工具例如所谓的data.frame)。最重要的是,我认为Excel不会为数据分析员带来很好的做法(但它也适用于任何“候机楼”,请参阅有关Medstats的有关维护数据处理记录的讨论,记录分析和数据编辑),我发现《实用统计》上的这篇文章相对说明了一些Excel的陷阱。尽管如此,它仍然适用于Excel,但我不知道它如何转换为GDocs。
关于共享您的工作,我倾向于认为Github(或源代码为Gist)或Dropbox(尽管EULA可能会劝阻某些人)是很好的选择(修订历史记录,必要时进行授权管理等)。我不鼓励您使用基本上以二进制格式存储数据的软件。我知道可以将其导入到R,Matlab,Stata,SPSS中,但我认为:
- 数据应明确为文本格式,并可以由其他统计软件读取;
- 分析应该是可重现的,这意味着您应该为分析提供一个完整的脚本,并且该脚本应随时在另一个操作系统上运行(我们在这里接近理想的情况...)。
- 您自己的统计软件应实现公认的算法,并应有一种简便的方法对其进行更新,以反映当前统计建模中的最佳做法;
- 您选择的共享系统应包括版本控制和协作功能。
而已。