我正在写一个示例,并整理了一些数据。我想让读者清楚这不是真实数据,但我也不想给人留下恶意的印象,因为它只是一个例子。
此特定数据没有(伪)随机成分,因此在我看来“模拟”不合适。如果我称其为虚构或捏造,是否给人以欺诈性数据的印象?“虚构”这个词是否适合科学背景?
统计文献中非模拟虚构数据的术语是什么?
我正在写一个示例,并整理了一些数据。我想让读者清楚这不是真实数据,但我也不想给人留下恶意的印象,因为它只是一个例子。
此特定数据没有(伪)随机成分,因此在我看来“模拟”不合适。如果我称其为虚构或捏造,是否给人以欺诈性数据的印象?“虚构”这个词是否适合科学背景?
统计文献中非模拟虚构数据的术语是什么?
Answers:
我可能会称其为“合成”或“人工”数据,尽管我也可能称其为“模拟”(模拟非常简单)。
如果您想将数据视为虚构,那么您将处于良好状态,因为这是弗朗西斯·安斯科姆(Francis Anscombe)用来形容他现在著名的四重奏的术语。
摘自F.Anscombe(1973)。“ 统计分析图 ”,美国。统计 27(1):
表中显示了其中四个虚拟数据集,每个虚拟数据集由11对(x,y)对组成。
但是我认为您的警告措辞适当,因为我的OED(v4)似乎表明这种虚构的使用已过时
虚构的,一个。
(fɪkˈtɪʃəs)
[F。L.fictīci-us(f.fingĕreto fashion,feign)+ -ous:请参阅-itious。]
1.1†a.1.a与自然相反(人造)。b.1.b假冒伪劣产品;不是正版。
在IT中,我们通常称其为模型数据,可以通过模型(应用程序)呈现。
样机数据也可以通过功能齐全的应用程序提供,例如以受控方式测试应用程序的功能。
我遇到过相当数量的“伪数据”一词。我想它可能会有一些负面的含义,但是我经常听到它,所以它对我完全没有负面影响。
FWIW,Andrew Gelman也使用它:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
谷歌快速搜索“伪数据”会发现很多结果似乎都在使用类似的术语:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
甚至还有一个fakeR
软件包,表明这是相对常见的:https :
//cran.r-project.org/web/packages/fakeR/fakeR.pdf
根据使用数据的方式,我使用不同的词。如果我发现虚构的数据集周围并且以确认的方式指出了我的算法,那么“合成”一词就可以了。
但是,通常每当我使用这种类型的数据时,我就发明这些数据是为了炫耀我的算法的功能。换句话说,我发明数据的目的是为了获得“良好的结果”。在这种情况下,我喜欢“人为”一词,并解释了我对数据的期望。这是因为我不想让任何人误以为我将算法指向我发现的任意综合数据集,而且效果很好。如果我有精心挑选的数据(实际上是为了弥补这一点),则可以使我的算法正常工作,我会这样说。这是因为这样的结果证明了我的算法可以效果很好,但仅提供了非常微弱的证据,人们可能会期望该算法总体上能很好地工作。“人为”一词确实很好地概括了一个事实,即我选择数据时先天考虑了“良好结果”。
“给人以欺诈性数据的印象吗?”
没有,但是,它是明确的任何数据集的来源,是重要的报告您的任何数据集结果时先验期望为实验者。术语“欺诈”明确包括掩盖某些内容或完全撒谎的方面。#1的方式在学术欺诈避免佣金是仅仅是诚实和直率关于您的数据和预期的性质。换句话说,如果您的数据是伪造的,而您却无法以任何方式说出太多的话,并且存在某种期望,那就是数据不是伪造的,或者更糟的是,您声称数据是以某种非伪造的方式收集的当然,那是“欺诈”。不要那样做 如果您想使用“听起来更好”的“人造”一词作为同义词,例如“合成”,那么没有人会指责您,但与此同时,我认为除了您之外,没有人会注意到其中的区别。
一个人声称拥有先验期望而实际上是事后解释的情况不太明显。这也是对数据的欺诈性分析。
当人们出于“炫耀”算法功能的目的而专门选择数据时,存在这种危险,合成数据通常就是这种情况。
只要您对所做的事情诚实且直率,这样做就没有问题。如果您不遗余力地创建了一个可提供“良好结果”的数据集,请这么做。只要您让读者知道您在数据分析中所采取的步骤,他们就具有有效权衡证据以支持或反对您的假设所必需的信息。当您不诚实或不坦率时,这可能会给人一种印象,即您的证据比实际证据更强大。当您为了使您的证据看起来比实际情况更强而并不诚实和直率时,那的确是欺诈。
无论如何,这就是为什么我更喜欢此类数据集的“人为”一词,以及简短的解释,即实际上是在考虑假设的情况下选择它们的原因。“人为”传达的含义是,我不仅创建了一个综合数据集,而且还这样做是出于特殊意图,反映了我的假设在创建数据集之前就已经存在的事实。
使用任何您喜欢的术语,“合成”,“人为”,“虚构”,“虚构”。但是,您使用的术语不足以确保您的结果不会引起误解。确保在报告中清楚了解数据的来源,包括对数据的期望以及选择数据的原因。
在生物学中,有时使用神话动物数据集来证明分析结果。是否明确声明模拟数据取决于作者/审阅者。
生态学动物模型指南,2009年
这些教程描述了对狮g种群的一系列定量遗传分析(反映了作者在鸟类和哺乳动物偏见之间的折衷)。由于狮ry是神话中的野兽,因此必须对提供的数据进行模拟。
固定效应方差以及可重复性和遗传力的估计:问题和解决方案,2017年
为了说明这一点,让我们回到Wilson(2008)的独角兽数据集。众所周知的事实是,在独角兽中,牛角的长度根据个体体重而变化(对于包括年龄,性别及其相互作用的完整模型,坡度:β= 0.403)。
直观地讲,我将使用“虚拟数据”一词,就好像“ Lorem ipsum ...”被称为“虚拟文本”一样。对于不同背景的人来说,“虚拟”一词非常笼统,易于理解,因此不太可能被统计背景较浅的读者误解。
数据是给定的拉丁语,在现代被用作给定记录事实的简写。因此,以某种方式将虚假唱片称为某种给定事实将是一个公开的矛盾。
但是,由于越来越多地使用数据来简单地指代记录 -不管记录的原始推定是事实,我们在谈论可能是真实的或不真实的记录(因此是真实/虚假数据)时,都会彼此愉快地了解。
我将在下面总结我处理伪造录音的方式的经验。所使用的标签取决于是否假设我们是在谈论数据是虚假记录,目的是为了看起来合理而切合实际,以便进行进一步分析,还是将数据作为计算负荷。