你们中的某些人是否使用Google Docs电子表格来进行和与他人共享统计工作?


15

我知道你们大多数人可能会觉得Google文档仍然是一种原始工具。它不是Matlab或R,甚至不是Excel。但是,我对这种基于Web的软件的强大功能感到困惑,该软件仅使用浏览器的操作功能(并且与许多工作方式非常不同的浏览器兼容)。

活跃在该论坛中的Mike Lawrence已使用Google Docs与我们共享了一个电子表格,并在其中做了一些漂亮的工作。我个人已经复制了一个非常全面的假设测试框架(包括众多参数和非参数测试),最初是在Google文档的Excel中完成的。

我很想知道您是否尝试过Google文档,并在有趣的应用程序中将其推到了极限。我也很想听听您在使用Google文档时遇到的错误或缺陷

我将这个问题指定为“用于社区Wiki”,表示对此没有最佳答案。它比任何东西都更重要。


您能否链接到Mike Lawrence提供的电子表格?
安迪W


1
经过正式测试的Google文档在大多数统计计算中都表现不佳(当时它完全可以做到)。参见Kellie B. Keeling和Robert J. Pavur(2011):Spreadsheet Software的统计准确性,《美国统计学家》,65:4,265-273
麻烦

Answers:


12

我对google电子表格的主要用途是使用google表单,用于收集数据,然后轻松地将其导入R。这是我半年前写的一篇帖子:

Google电子表格+ Google表格+ R =轻松收集和导入数据进行分析

另外,如果您要进行协作,我选择的工具是DropBox。几个月前,我写了一篇关于它的文章:

使用DropBox在计算机之间同步文件

我现在已经在有5位共同作者的项目中使用了大约半年的时间,而且它非常宝贵(同步3位贡献者的数据文件,每个人都可以看到我正在生成的输出的最新版本,并且每个人都在寻找在与文章相同的.docx文件中)。

这两篇文章都提供了视频教程和口头指示。


感谢您的反馈意见。这正是我感兴趣的评论的类型。您确实利用了Google文档的共享和导入组件。对你有益。我将阅读您的材料以了解更多信息。
Sympa

亲爱的盖坦,我很高兴您的回应-谢谢您的客气话。最好,塔尔。
Tal Galili

19

作为R,bash,Python,asciidoc,(La)TeX,开源软件或任何un * x工具的发烧友,我无法提供客观的答案。而且,由于我经常反对使用任何类型的MS Excel或电子表格(嗯,您看到了数据或数据的一部分,但是还有什么呢?),所以我不会为辩论做出积极的贡献。我不是唯一的一个,例如

我的一位同事由于缺乏向后兼容性等原因而失去了所有宏。另一位同事试图导入遗传数据(大约700位受试者在800,000个标记(120 Mo)上进行了基因分型),只是为了“看看它们”。Excel失败了,记事本也放弃了...我可以用vi“查看它们”,并使用sed / awk或perl脚本快速重新格式化数据。因此,我认为在讨论电子表格的有用性时需要考虑不同的层次。您要么处理小型数据集,要么只希望应用基本的统计资料,也许还可以。然后,您可以信任结果,也可以始终要求提供源代码,但是使用NIST基准对所有内联过程进行快速测试也许会更简单。我不认为这仅是因为它不是真正的统计软件(IMHO)而不是一种进行统计的好方法,尽管作为上述列表的更新,MS Excel的较新版本似乎已经证明了其准确性的提高。统计分析,请参见Keeling和Pavur,《九种统计软件包的可靠性比较研究》CSDA 2007 51:3811)。

尽管如此,在10或20(生物医学,心理学,精神病学)中,大约有一篇论文包含用Excel制作的图形,有时不删除灰色背景,水平的黑线或自动图例(Andrew Gelman和Hadley Wickham肯定和看到我的时候)。但更笼统地说,根据FlowingData 最近的一项调查,它往往是最常用的“软件” ,这让我想起了Brian Ripley的老话(他是MASS R软件包的合著者,并且写了一本关于模式识别的好书,以及其他):

我们不要自欺欺人:最广泛使用的统计软件是Excel(B。Ripley,通过Jan De Leeuw),http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

现在,如果您觉得它为您提供了一种快速简便的方法来完成统计信息,那为什么不呢?问题是在这样的环境中仍然有些事情无法完成(或者至少很棘手)。我想到了自举,置换,多元探索性数据分析等。除非您非常精通VBA(既不是脚本语言也不是编程语言),否则我倾向于认为即使是较小的数据操作也可以在R(或Matlab或Python)下更好地处理,从而为您提供正确的处理工具例如所谓的data.frame)。最重要的是,我认为Excel不会为数据分析员带来很好的做法(但它也适用于任何“候机楼”,请参阅有关Medstats的有关维护数据处理记录的讨论,记录分析和数据编辑),我发现《实用统计》上的这篇文章相对说明了一些Excel的陷阱。尽管如此,它仍然适用于Excel,但我不知道它如何转换为GDocs。

关于共享您的工作,我倾向于认为Github(或源代码为Gist)或Dropbox(尽管EULA可能会劝阻某些人)是很好的选择(修订历史记录,必要时进行授权管理等)。我不鼓励您使用基本上以二进制格式存储数据的软件。我知道可以将其导入到R,Matlab,Stata,SPSS中,但我认为:

  • 数据应明确为文本格式,并可以由其他统计软件读取;
  • 分析应该是可重现的,这意味着您应该为分析提供一个完整的脚本,并且该脚本应随时在另一个操作系统上运行(我们在这里接近理想的情况...)。
  • 您自己的统计软件应实现公认的算法,并应有一种简便的方法对其进行更新,以反映当前统计建模中的最佳做法;
  • 您选择的共享系统应包括版本控制和协作功能。

而已。


@Gaetan除了回答外,我还给问题+1,因为我认为这与辩论统计实践和项目管理非常相关。
chl

对于下降投票的评论将不胜感激。
chl 2010年

@chl:尽管我没有对这个答案投票,但是我想我理解为什么有人会对此投票。您提供的信息是正确的,非常非常重要且发人深省的。但是,大多数(除了最后两段)都无法回答问题。理想情况下,可以将这个大的免责声明写在其他地方并提供链接。
鲍里斯·哥列里克

@chl:尽管我在我的评论说,我爱你的答案和赞成票它
鲍里斯戈列利克

@bgbg感谢您的评论。也许我没有回答CW问题。但是,我从未打算给出一个纯粹的挑衅性答案。OP询问了GDocs中潜在的“错误和缺陷”:我提供了我从Excel中了解到的插图,并承认我不知道它将如何转换为GDocs。我也将部分问题理解为“使用GDocs进行数据分析有什么好处”,我只是提出了一些反对在大型项目中使用电子表格或在前沿进行分析的观点(尽管如此,我仍然承认开始这会产生偏差)。
chl 2010年

10

“我也很想知道您在使用Google文档时遇到的错误或缺陷。”

我将仅回答原始问题的这一部分。我对Google文档电子表格(GSheets)的探索一直与数学和统计功能有关。最后,我的评估是,在这方面,Google Spreadsheets在2012年的表现要劣于1997年的恶意Excel。

见证:Google表格显然使用erfc(x)= 1-erf(x)来计算erf(x)接近1的参数的erfc(x)。它们通过平方减去平方的平均值来评估标准偏差或方差平均 这是不好的数字实践。组合函数和离散概率,例如poisson(n,x)= pow(x,n)* exp(-x)/ n!逐因子评估,导致不必要的溢出。使用斯特林逼近系数逐因子评估阶乘,从而导致进一步不必要的溢出。仅通过做有限的和就可以计算出累积的泊松分布,因此舍入后的归一化特性会丢失;对于累积二项式分布也是如此。累积正态分布完全混乱了;它超出[0,1]范围。相对于其他软件包中相同功能的实现,通常会丢失准确性。四舍五入等基本功能的描述通常是乱码,难以理解。解释是一个猜谜游戏。

我已经在Google Docs产品论坛上的两组帖子中记录了这些问题:

(2011-11-13及更高版本)normdist仍然抛出负值 https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06及更高版本)GSheets中的统计和数学函数存在错误和其他问题, 网址为https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1)换句话说,看来Google 的(许多!)统计学家丝毫没有参与该项目。
主教

我使用的Google文档唯一一部分是编辑器,它在实时协作编辑中非常有用。我不认为git和朋友可以解决这个问题!
kjetil b halvorsen 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.