编造数据的最佳术语?


23

我正在写一个示例,并整理了一些数据。我想让读者清楚这不是真实数据,但我也不想给人留下恶意的印象,因为它只是一个例子。

此特定数据没有(伪)随机成分,因此在我看来“模拟”不合适。如果我称其为虚构或捏造,是否给人以欺诈性数据的印象?“虚构”这个词是否适合科学背景?

统计文献中非模拟虚构数据的术语是什么?


9
只是添加一条注释,该注释会散布在多个答案中:“合成”是组成数据的一个好词,它试图看起来尽可能逼真,而“模拟”则建议对数据进行精心设计以展示一些特殊的东西。例如,“模拟”数据可能包含荒谬的异常值,只是为了证明正确处理异常值是多么重要。
Cort Ammon-恢复莫妮卡

我个人更喜欢“模拟的”一词,并且在统计文献中使用得最多(即“我们进行了模拟以比较我们的模型与X,Y,Z ....”
萨米尔·拉希德·扎伊姆,

Answers:


45

我可能会称其为“合成”或“人工”数据,尽管我也可能称其为“模拟”(模拟非常简单)。


30
人们会听到“玩具数据”,“玩具示例”和“虚拟数据”。我也同意,即使没有随机数,“模拟”也很合适。
rolando2

7
“说明性数据”或“示例数据”也可能会起作用
亨利

8
+1“ 合成数据 ”和“ 玩具示例 ”都是我可能使用的术语(如果出现这种情况),例如“构造示例”。有时我会说“说明性示例”或类似的东西,特别是当示例被明确构造为具有特定功能时(例如,当设计为与某些错误概念的对立时)。
Glen_b-恢复莫妮卡

1
我倾向于将玩具数据(没有人工模拟的)用于真实(测量)的数据集,以“展示”某些东西。
cbeleites支持Monica

1
哪种方法最有效取决于您的应用程序。例如,我也正在使用“伪造”数据进行项目,但是该项目的另一部分涉及使用计算机模型仿真。因此,这可能会使我迷惑读者,将假数据称为“模拟”,错误地暗示了数据来自模拟。因此,我一直依赖“人工”,有时我将数据描述为“制造的”。我个人将避免使用“合成”,因为该术语意味着数据是其他数据源的某种组合(例如,数据A和数据B的“合成”)。
Ceph

12

如果您想将数据视为虚构,那么您将处于良好状态,因为这是弗朗西斯·安斯科姆(Francis Anscombe)用来形容他现在著名的四重奏的术语。

摘自F.Anscombe(1973)。“ 统计分析图 ”,美国。统计 27(1):

表中显示了其中四个虚拟数据集,每个虚拟数据集由11对(x,y)对组成。

但是我认为您的警告措辞适当,因为我的OED(v4)似乎表明这种虚构的使用已过时

虚构的,一个。

(fɪkˈtɪʃəs)

[F。L.fictīci-us(f.fingĕreto fashion,feign)+ -ous:请参阅-itious。]

1.1†a.1.a与自然相反(人造)。b.1.b假冒伪劣产品;不是正版。


在可读性方面,第一个建议和评论是更好的选择。无需使用不常见的复杂单词。
蒂姆

1
@Tim:我想同意,但是我不确定我要同意什么。您是否在说虚构是一个错误的选择,尽管以前曾在类似的环境中使用过?因为这就是我的意思。
AkselA

7

在IT中,我们通常称其为模型数据,可以通过模型(应用程序)呈现。

样机数据也可以通过功能齐全的应用程序提供,例如以受控方式测试应用程序的功能。


5
很好,但是我相信样机数据和模拟数据并不完全相同。在为单元测试创​​建模型数据时,只需要保留真实数据的某些非常基本的属性,而在将模拟数据用于统计分析时,通常会使用更复杂的数据示例。
蒂姆

2
我仍然相信ErikE是正确的,当您编写分析代码时,您需要真实的东西或模拟数据。模拟数据可以和imo一样大。
Mathijs Segers

1
我猜,实践可能会随着术语的使用而变化。对于我们的许多测试和分析,我们使用实时数据,这些数据由于安全性和匿名性而被“解密”。对于其他人,我们创建蒂姆描述的裸骨数据。我没有强烈的意见,但我们确实很宽松地使用了样机一词。
ErikE

3

我曾多次对“合成数据”一词提出建议。但是,该术语与您要表达的含义具有广泛的使用和非常不同的含义:https : //en.wikipedia.org/wiki/Synthetic_data

我不确定是否有一个普遍接受的科学术语,但是术语“示例数据”似乎很难理解?


1
那篇文章似乎有点混乱-与匿名化的关系非常脆弱。
马特·克劳斯

+1,但我同意先前的评论:除了第二段(假设合成数据是一种匿名数据)之外,该Wikipedia文章的其余部分似乎都在描述发问者的需求。即看起来逼真的化妆数据。
达伦·库克

3

2

根据使用数据的方式,我使用不同的词。如果我发现虚构的数据集周围并且以确认的方式指出了我的算法,那么“合成”一词就可以了。

但是,通常每当我使用这种类型的数据时,我就发明这些数据是为了炫耀我的算法的功能。换句话说,我发明数据的目的是为了获得“良好的结果”。在这种情况下,我喜欢“人为”一词,并解释了我对数据的期望。这是因为我不想让任何人误以为我将算法指向我发现的任意综合数据集,而且效果很好。如果我有精心挑选的数据(实际上是为了弥补这一点),则可以使我的算法正常工作,我会这样说。这是因为这样的结果证明了我的算法可以效果很好,但仅提供了非常微弱的证据,人们可能会期望该算法总体上能很好地工作。“人为”一词确实很好地概括了一个事实,即我选择数据时先天考虑了“良好结果”。

“给人以欺诈性数据的印象吗?”

没有,但是,它是明确的任何数据集的来源,是重要报告您的任何数据集结果时先验期望为实验者。术语“欺诈”明确包括掩盖某些内容或完全撒谎的方面。#1的方式在学术欺诈避免佣金是仅仅是诚实直率关于您的数据和预期的性质。换句话说,如果您的数据是伪造的,而您却无法以任何方式说出太多的话,并且存在某种期望,那就是数据不是伪造的,或者更糟的是,您声称数据是以某种非伪造的方式收集的当然,那“欺诈”。不要那样做 如果您想使用“听起来更好”的“人造”一词作为同义词,例如“合成”,那么没有人会指责您,但与此同时,我认为除了您之外,没有人会注意到其中的区别。

旁注:

一个人声称拥有先验期望而实际上是事后解释的情况不太明显。这也是对数据的欺诈性分析。

当人们出于“炫耀”算法功能的目的而专门选择数据时,存在这种危险,合成数据通常就是这种情况。

DHHDD

HDHD

只要您对所做的事情诚实直率,这样做就没有问题。如果您不遗余力地创建了一个可提供“良好结果”的数据集,请这么做。只要您让读者知道您在数据分析中所采取的步骤,他们就具有有效权衡证据以支持或反对您的假设所必需的信息。当您不诚实或不坦率时,这可能会给人一种印象,即您的证据比实际证据更强大。当您为了使您的证据看起来比实际情况更强而并不诚实直率时,那的确是欺诈

无论如何,这就是为什么我更喜欢此类数据集的“人为”一词,以及简短的解释,即实际上是在考虑假设的情况下选择它们的原因。“人为”传达的含义是,我不仅创建了一个综合数据集,而且还这样做是出于特殊意图,反映了我的假设在创建数据集之前就已经存在的事实。

ADx.y

tl; dr

使用任何您喜欢的术语,“合成”,“人为”,“虚构”,“虚构”。但是,您使用的术语不足以确保您的结果不会引起误解。确保在报告中清楚了解数据的来源,包括对数据的期望以及选择数据的原因。


尽管这里的答案是重叠的,几乎所有的答案都很好,但我认为这最好地传达了一个关键点,即没有一个术语可以向所有读者传达构成数据背后的意图。原因不仅是适当的,而且对于目的是必不可少的,从懒惰(介绍性文字不佳)到作弊和欺诈。解释为什么要花一定的时间可能是个好主意。
尼克·考克斯

...原因...
尼克·考克斯

1

首先,没有理由不将其称为“数据集”。对于“伪造”与“模拟”与……数据,尚无通用的术语。如果目标是完全清楚,则最好实际使用句子而不是单词来限定该数据集的含义。此后,您可以放宽指定,仅将数据称为数据。

在我看来,“合成”,“人工”与其他MCMC采样的“模拟”数据集没有区别。将准随机数生成器与固定种子一起使用(如适当的培训所规定),还会创建一个合成或人工数据集。

如果要为一个特定的示例策划一个数据集,而不是从一个概率模型生成一个实例或实现,我认为最好将这样的数据集称为“ 示例数据集 ”。像这样的数据类似于Anscombe的四重奏:完全抽象且不合理,但旨在说明一个要点。


1

在生物学中,有时使用神话动物数据集来证明分析结果。是否明确声明模拟数据取决于作者/审阅者。

生态学动物模型指南,2009年

这些教程描述了对狮g种群的一系列定量遗传分析(反映了作者在鸟类和哺乳动物偏见之间的折衷)。由于狮ry是神话中的野兽,因此必须对提供的数据进行模拟。

固定效应方差以及可重复性和遗传力的估计:问题和解决方案,2017年

为了说明这一点,让我们回到Wilson(2008)的独角兽数据集。众所周知的事实是,在独角兽中,牛角的长度根据个体体重而变化(对于包括年龄,性别及其相互作用的完整模型,坡度:β= 0.403)。


1
有趣的方法!我认为这对于教授生物学学生的统计数据可能会很棒。不过,当向公众展示时,我不确定这是否会给人以正确的印象
弗朗斯·罗登堡

0

直观地讲,我将使用“虚拟数据”一词,就好像“ Lorem ipsum ...”被称为“虚拟文本”一样。对于不同背景的人来说,“虚拟”一词非常笼统,易于理解,因此不太可能被统计背景较浅的读者误解。


2
如果是在回归上下文中,我将避免重载“虚拟”,以免您有编码虚拟数据的虚拟变量。
Matt Krause

我同意,我个人将避免使用它,因为“虚拟”已经具有回归的固定含义。鉴于有大量可用的术语,最好避免使用那些对不同的人可能意味着不同含义的术语。
萨米尔·拉希德·扎伊姆

0

数据给定的拉丁语,在现代被用作给定记录事实的简写。因此,以某种方式将虚假唱片称为某种给定事实将是一个公开的矛盾。

但是,由于越来越多地使用数据来简单地指代记录 -不管记录的原始推定是事实,我们在谈论可能是真实的不真实的记录(因此是真实/虚假数据)时,都会彼此愉快地了解。

我将在下面总结我处理伪造录音的方式的经验。所使用的标签取决于是否假设我们是在谈论数据是虚假记录,目的是为了看起来合理而切合实际,以便进行进一步分析,还是将数据作为计算负荷。

  • 在分析/数据科学/战略咨询界,人们最经常地将在现实假设下生成的一组伪造的记录作为合成数据(有时是模拟数据)进行处理。使用粗略假设创建的虚构录音被称为玩具数据集
  • 其中软件工程师,假数据假数据编造数据实体模型数据频繁的标签,主要是提示录音不一定意味着有现实性,但只分享与原始数据基本属性(年龄数据始终是数字,电子邮件地址始终是包含“ @”的字符串)。
  • 学术研究人员会将一组真实的伪造录音称为伪数据模拟数据。在某些圈子中,如果捏造的观测结果是蒙特卡洛模拟的结果,则通俗地称为蒙特卡洛。半真实记录通常用于说明目的或测试备用假设,称为玩具数据集

2
“ Monte Carlo”是方法的名称,因此“口语”名称将非常容易引起误解。
蒂姆

确实,@ Tim可能被误导。但是,语言只是基于社区共识作为一种提及事物的工具。如此之多,以至于我们在此站点上指的是给定的记录和测量结果(拉丁数据的英文)。如果我采纳您的观点,我会发现将模拟测量值视为假冒是很可疑的。
famargar

我希望您现在会看到,将“蒙特卡洛模拟”简称为“蒙特卡洛”是将“给定观测值”称为“给定”的现代版本。我修改了答案,以结合“数据”一词的含义与实际用法之间的这种和更多考虑。
famargar

1
“学术研究人员最常将一组真实的伪造唱片称为伪数据”:我不记得在40多年的学术研究中曾见过这个术语。“学术界通常对不切实际的录音毫无用处”:对不起,但这是完全错误的。许多领域的学者都使用几种不同类型的模拟。甚至不切实际的模拟也可能有用,例如,正常样本的可变性对于评估非正常性是重要的背景。
尼克·考克斯

@NickCox Pseudodata在物理学中经常使用,我已经在生物学和统计学中看到过。想知道您的领域是什么以及您的领域如何指代模拟会很好奇。对于不真实的数据,我区分了不真实和半真实。我想念您的用例吗?
famargar
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.