统计和大数据 dataset

14

在《Amstat新闻》最近的一篇文章中，作者（Mark van der Laan和Sherri Rose）说：“我们知道，对于足够大的样本量，每项研究（包括无效假设为零的研究）都将声明具有统计学意义的效果。”。好吧，我一个人都不知道。这是真的？这是否意味着假设检验对大数据集毫无价值？

129 hypothesis-testing sample-size dataset large-data

25

查找免费可用的数据样本

我一直在研究一种用于分析和解析数据集的新方法，以识别和隔离总体中的子组，而无需预知任何子组的特征。尽管该方法对于人工数据样本（即专门为识别和隔离总体子集而创建的数据集）足够有效，但我想尝试使用实时数据对其进行测试。我正在寻找的是免费的（即非机密，非专有的）数据源。优选地，包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息？

98 dataset sample population teaching

6

基本数据检查测试

在我的工作中，我经常与其他人的数据集一起工作，非专家为我带来了临床数据，我帮助他们进行总结并进行统计检验。我遇到的问题是，我带来的数据集几乎总是错字，不一致和其他各种问题。我很想知道其他人是否有标准测试，他们会尝试检查输入的任何数据集。我过去常常为每个变量绘制直方图，但现在我意识到有很多可怕的错误可以在测试中幸免。例如，前几天我有一个重复测量数据集，对于某些人，该重复测量在时间2上与时间1上相同。这随后被证明是不正确的，正如您所期望的那样。另一个数据集包含一个个体，从非常严重的无序状态（以高分表示）变为无问题（以0表示）。这是不可能的，尽管我无法确切地证明这一点。那么，我可以在每个数据集上运行哪些基本测试，以确保它们没有错别字并且不包含不可能的值？提前致谢！

93 dataset outliers checking

8

如何模拟满足特定约束（例如具有特定均值和标准偏差）的数据？

这个问题是由我的荟萃分析问题引起的。但是我想这对于在您要创建与现有已发布数据集完全相同的数据集的教学环境中也很有用。我知道如何从给定的分布中生成随机数据。因此，例如，如果我读到了一项研究的结果，该研究具有：平均102 标准偏差5.2 样本大小为72。我可以rnorm在R中使用生成类似的数据。例如， set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) 当然，平均值和标准差将分别不完全等于102和5.2： round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 通常，我对如何模拟满足一组约束的数据感兴趣。在上述情况下，约束条件是样本大小，均值和标准差。在其他情况下，可能会有其他限制。例如，可能知道数据或基础变量的最小值和最大值。可能已知该变量仅采用整数值或仅采用非负值。数据可能包含具有相互关系的多个变量。问题通常，我该如何模拟完全满足一组约束的数据？是否有关于此的文章？R中是否有任何程序可以做到这一点？为了举例说明，我应该并且应该如何模拟变量，使其具有特定的均值和sd？

56 r dataset simulation random-generation

3

数据API /提要作为R中的软件包提供

编辑：Web技术和服务 CRAN 任务视图包含R中可用的数据源和API的更全面的列表。如果希望将包添加到任务视图，则可以在github上提交拉取请求。我列出了已经挂接到R或易于设置的各种数据馈送。这是我最初的软件包列表，我想知道我还缺少什么。我试图将此列表限制为“实时”或“接近实时”数据供稿/ API，其中底层数据可能在下载之间发生变化。静态数据集有很多列表，只需下载一次即可。该列表目前偏向于财务/时间序列数据，我可以借助一些帮助将其扩展到其他领域。免费数据：数据源-包谷歌财经的历史数据 - quantmod 谷歌财经的资产负债表 - quantmod 雅虎财经的历史数据 - quantmod 雅虎财经的历史数据- TSERIES 雅虎财经当前的期权链 - quantmod 雅虎财经历史分析师的预期 - fImport 雅虎财经当前关键统计 - fImport -似乎被打破 OANDA历史汇率/金属价格 - quantmod FRED历史性的宏观经济指标 - quantmod 世界银行历史的宏观经济指标 - WDI 谷歌趋势的历史搜索量数据 - RGoogleTrends 谷歌文档- RGoogleDocs 谷歌存储- RGoogleStorage Twitter的 - Twitter的 Zillow的 …

53 r references dataset

3

对数转换的预测变量和/或响应的解释

我想知道是否仅对因变量（无论是因变量还是自变量）还是仅对自变量进行了对数转换，在解释上是否有所不同。考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长，但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

9

微小的（真实的）数据集，用于课堂教学中的例子？

我认识的老师在讲授入门课时，往往会发明一些数字和一个故事，以例证他们所教的方法。我更希望用真实的数字讲一个真实的故事。但是，这些故事需要与非常小的数据集相关联，从而可以进行手动计算。对于此类数据集的任何建议将非常受欢迎。小型数据集的一些示例主题：相关/回归（基本）方差分析（1/2方式） z / t测试-一个/两个未配对的样本比例比较-双向表

43 dataset references teaching

8

如何使人们更好地处理数据？

我的工作场所拥有来自不同学科的员工，因此我们以许多不同的形式生成数据。因此，每个团队都开发了自己的存储数据系统。有些使用Access或SQL数据库。有些团队（令我恐惧的是）几乎完全依赖Excel电子表格。通常，数据格式因项目而异。在某些情况下，称其为“系统”太客气了。这带来的问题是，我必须编写新代码来清理每个项目的数据，这很昂贵；手动编辑电子表格的人几乎不可能进行数据的可重复性和审计。甚至更糟的是，数据可能会丢失或变得不正确。我有机会与公司董事会成员讨论这些问题，我需要弄清楚该如何告诉他。我认为我已经说服了他我们有一个问题，正确解决这个问题将使科学更好并节省资金。问题是：我们应该瞄准什么，如何到达那里？进一步来说：我们应该如何存储数据，以使我们能够跟踪数据从创建到发布的过程？（数据库存储在中央服务器上吗？）您如何实现数据库格式的标准化？有什么好的资源可以教育人们如何护理数据？（通常，职业卫生师和炸药工程师不是数据呆子；因此，非技术性内容优先。）

42 dataset reproducible-research quality-control

2

如何从“大数据”中得出有效的结论？

媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事，例如KDNuggets对2012年的热门话题进行了民意测验。但是，我对此深表关切。有了大数据，每个人似乎都很高兴能拿出任何东西。但是，我们是否违反了所有经典的统计原理，例如假设检验和代表性抽样？只要我们仅对同一数据集做出预测，就可以了。因此，如果我使用Twitter数据来预测Twitter用户的行为，那可能还可以。但是，使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外，大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此，在分析Twitter时，您很快就会只测量活动和机器人。（例如，参见“雅虎预测美国的政治胜利者”这充满了民意测验，并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90％”（他有28％，而金里奇在初选中有40％）。您知道其他这样的大数据失败吗？我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限... 至于推特数据，或者实际上是从网络上收集到的任何“大数据”，我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集，这只是他们数据集中的另一个偏见。将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据，我需要大量“压缩”我的信息，以至于我不太可能过大。我最近听到了这个笑话，大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男，女，兽人，毛茸茸，是和否”。那么，我们必须采用什么方法才能使统计信息重新回到分析中，特别是在尝试预测“大数据”数据集之外的数据时？

40 data-mining dataset large-data validation

2

如何规范-1和1之间的数据？

我已经看到了min-max归一化公式，但是该归一化了0到1之间的值。如何将-1到1之间的数据归一化？我的数据矩阵中同时有负值和正值。

36 dataset normalization

5

免费的数据集，用于非常高的尺寸分类[关闭]

有超过1000个要素（或样本点（如果包含曲线））可免费用于分类的数据集是什么？已经有一个关于免费数据集的社区Wiki：查找免费可用的数据样本但是在这里，最好有一个更集中的列表，可以更方便地使用它，我还建议以下规则：每个数据集一个帖子没有链接到数据集每个数据集必须与一个名称（弄清楚它的含义）和一个指向数据集的链接（可以使用包名称来命名R数据集）特征数（假设为p），数据集的大小（假设为n）和标签/类的数量（假设为k）根据您的经验（将使用的算法写成文字）或文献（在最后一种情况下，链接本文）得出典型的错误率

35 machine-learning classification dataset large-data

5

如果我的线性回归数据包含多个混合线性关系，该怎么办？

假设我正在研究水仙花对各种土壤条件的反应。我收集了有关土壤pH值与水仙花成熟高度的数据。我期望线性关系，所以我开始进行线性回归。但是，当我开始研究时，并没有意识到该种群实际上含有两种水仙花，每种水仙花对土壤pH的反应都非常不同。因此，该图包含两个不同的线性关系：当然，我可以盯着它并手动将其分离。但我想知道是否有更严格的方法。问题：是否有统计检验来确定一个数据集适合单行还是N行？如何运行线性回归以拟合N条线？换句话说，如何解开混合数据？我可以想到一些组合方法，但它们在计算上似乎很昂贵。说明：在数据收集时，尚不存在两种变体。未观察到，未记录和未记录每种水仙花的变化。无法恢复此信息。自收集数据以来，水仙花已经死亡。我的印象是，该问题类似于应用集群算法，因为您几乎需要在开始之前就知道集群的数量。我相信，使用任何数据集，增加行数将减少总均方根误差。在极端情况下，您可以将数据集分为任意对，并在每对之间画一条线。（例如，如果您有1000个数据点，则可以将它们分成500对任意对，并在每对之间画一条线。）拟合将是精确的，并且rms误差将恰好为零。但这不是我们想要的。我们想要“正确”的行数。

34 regression linear-model dataset

3

为类似于Anscombe四重奏的目的而构建的数据集

我刚刚遇到过Anscombe的四重奏（四个数据集具有几乎无法区分的描述性统计数据，但在绘制时看起来非常不同），我很好奇是否已经创建了其他或多或少的知名数据集来证明某些方面的重要性统计分析。

32 regression data-visualization dataset

2

可视化数据后执行统计测试-数据挖掘？

我将通过一个示例提出这个问题。假设我有一个数据集，例如波士顿住房价格数据集，其中有连续的和分类的变量。在这里，我们有一个“质量”变量（从1到10）和销售价格。通过（任意）创建质量截止值，我可以将数据分为“低”，“中”和“高”质量房屋。然后，使用这些分组，我可以绘制销售价格的直方图。像这样：在此，“低”是，和“高”是> 7上的“质量”的分数。现在，我们可以得出三个组中每个组的销售价格分布。显然，中型和高质量房屋的位置中心不同。现在，完成所有这些操作后，我认为“嗯。位置中心似乎有所不同！为什么不对均值进行t检验？”。然后，我得到一个p值，它似乎正确地拒绝了均值没有差异的零假设。≤ 3≤3\leq 3> 7>7>7 现在，假设在绘制数据之前，我没有想到要检验此假设。这是在挖泥吗？如果我想：“我敢打赌，优质房子的价格会更高，因为我以前是住在这所房子里的人。我要对数据进行绘图。啊哈！看起来不一样！时间还在吗？”进行t检验！” 自然地，如果收集数据集是为了一开始就检验这个假设，那不是数据挖掘。但是通常必须处理提供给我们的数据集，并被告知“寻找模式”。考虑到这个模糊的任务，某人如何避免数据挖掘？创建测试数据的保留集？可视化是否“算作”窥探机会来测试数据提出的假设？

31 hypothesis-testing data-visualization p-value dataset inference

3

可视化多个集合的交集

是否有一个可视化模型可以很好地显示许多集合的交集重叠？我在思考类似维恩图的方法，但是它可能以某种方式更好地适用于更多的集合，例如10个或更多集合。Wikipedia确实显示了一些较高的维恩图，但即使是4组图也需要很多。我对数据的最终结果的猜测是，许多数据集不会重叠，因此维恩图可能会很好-但我想找到一种能够生成该数据的计算机工具。在我看来，它看起来像Google图表不允许那么多集合。

30 data-visualization dataset

Questions tagged «dataset»