Questions tagged «dataset»

对数据集的请求在此站点上不合时宜。使用此标记可解决有关创建,处理或维护数据集的问题。

3
使数据具有零均值的想法
我经常看到人们通过删除所有元素的均值来使数据集的维/特征为零均值。但是我从来不明白为什么要这么做?将其作为预处理步骤有什么作用?它会提高分类性能吗?回答有关数据集的问题是否有帮助?在进行可视化以了解数据时是否有帮助?

2
为什么有些人在原始数据上测试类似回归模型的假设,而另一些人在残差上测试它们呢?
我是实验心理学的博士生,我努力提高自己的技能和知识,以分析数据。 在我进入心理学的五年级之前,我一直认为类似回归的模型(例如ANOVA)假设以下内容: 数据的正态性 数据的方差同质性等等 我的本科课程使我相信这些假设与数据有关。但是,在我五年级的时候,我的一些讲师强调了这样一个事实,即假设是关于误差(由残差估计)的,而不是原始数据。 最近,我与一些同事谈论假设问题,他们也承认,他们发现只有在大学的最后几年才检查残差假设的重要性。 如果我了解得很好,类似回归的模型将对误差做出假设。因此,检查残差的假设是有意义的。如果是这样,为什么有人检查原始数据的假设?是否因为这样的检查程序近似于我们通过检查残差而获得的结果? 我会与一些比我和我的同事更准确的知识的人就这个问题进行讨论。我在此先感谢您的回答。

4
简单存储数据以在R中进行统计分析的最佳方法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 一段时间以来,我一直在使用文本文件来存储我的R数据。但是对于最近的项目,文件的大小太大了,原始文本文件无法处理。最好的简单替代方法是什么?
12 r  dataset 

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
错误使用统计工具造成的高成本后果的例子
我怀疑统计工具的大多数用户是辅助用户(没有或没有经过正规统计学培训的人们)。对于研究人员和其他专业人员来说,将统计方法应用于他们的数据非常诱人,因为他们在同行评审的论文,灰色文献,网络或会议上已经“先于”看过它们。但是,如果没有对所需的假设和统计工具的局限性有清楚的了解,则会导致错误的结果-错误通常是无法识别的! 我发现,本科生(尤其是社会科学和自然科学专业的学生)要么没有意识到统计学上的陷阱,要么发现这些陷阱没有什么意义(后者通常是这种情况)。尽管可以在许多入门级教科书,网络或StackExchange中找到不当使用统计工具的示例,但我很难找到具有不利结果的现实示例(例如,以美元计的成本,受影响的生命和失去的职业) 。为此,我正在寻找真实的例子,这些例子突出了对统计方法的滥用: 统计入门课程通常涵盖所使用的统计方法(即推断统计,回归等)。 最终结果带来了高昂的后果(美元损失,生活受到影响,职业崩溃等等)。 这些数据随时可以用作课程中的工作示例(目的是让学生通过对现实世界产生影响的现实示例进行研究)。 在讨论在研究项目中正确定义单位的重要性时,我想举一个非统计的例子,这是“度量事故”,导致损失了1.25亿美元的卫星!这通常会引起学生的:-o因素,并且似乎具有持久的印象(至少在他们短暂的学习生涯中如此)。

2
创建“整理数据”的最佳做法
Hadley Wickham 去年在JSS中撰写了一篇名为“ Tidy Data”(链接)的恒星文章,内容涉及数据操纵和使数据处于“最佳”状态以便进行分析。但是,我想知道在工作环境中显示表格数据方面的最佳实践是什么?假设您的同事要您向他提供一些数据。在构造数据时使用哪些一般规则?“整理数据”中的准则是否适用于与非数据专业人员共享数据的情况?显然,这是非常特定于上下文的,但是我要问的是高层“最佳实践”。
12 dataset  tables 

2
将数据分为测试和训练集纯粹是一种“统计”事情吗?
我是一名学习机器学习/数据科学的物理专业学生,所以我并不是要这个问题引起任何冲突:)但是,任何物理本科课程的很大一部分都是做实验室/实验,这意味着很多数据处理和统计分析。但是,我注意到物理学家处理数据的方式与我的数据科学/统计学习书籍处理数据的方式之间存在巨大差异。 关键区别在于,当尝试对从物理实验获得的数据进行回归时,将回归算法应用于WHOLE数据集,因此绝对不会拆分为训练集和测试集。在物理学世界中,基于整个数据集为模型计算R ^ 2或某种类型的伪R ^ 2。在统计世界中,几乎总是将数据分为80-20、70-30等...,然后根据测试数据集对模型进行评估。 还有一些重大的物理实验(ATLAS,BICEP2等)从未进行过数据拆分,所以我想知道为什么物理学家/实验学家进行统计的方式与数据科学家的方式之间存在如此严格的差异做统计。

2
关于给定响应变量的最佳分箱
我正在寻找相对于给定响应(目标)二进制变量并以最大间隔数为参数的连续变量的最佳合并方法(离散化)。 示例:我对“身高”(数字连续)和“ has_back_pains”(二进制)变量的人有一组观察。我想将高低离散化为最多3个间隔(组),以不同比例的背部疼痛患者来做,这样算法就可以最大程度地使各组之间的差异最大化(例如,在给定限制的情况下,每个间隔至少有x个观察值)。 解决此问题的明显方法是使用决策树(一个简单的单变量模型),但我在R中找不到任何将“最大分支数”作为参数的函数-它们全部将变量除分成2块(<= x和> x)。SAS矿工具有“最大分支”参数,但我正在寻找非商业解决方案。 我的一些变量只有几个唯一值(可以视为离散变量),但我想将它们离散化为较小的间隔。 与我的问题最接近的解决方案是在R中的smbinning包中实现的(依赖于party包中的ctree函数),但是它有两个缺点:无法设置间隔数(但是,您可以通过更改间隔找到解决方法p参数),并且当数据向量的唯一值少于10个时无效。无论如何,您可以在此处看到示例输出(Cutpoint和Odds列至关重要): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 …

3
实用的PCA数据教程
在Internet上搜索PCA教程可获得数千个结果(甚至是视频)。许多教程非常好。但是我找不到任何实际的示例,其中使用一些可用于演示的数据集来解释PCA。我需要一个教程,该教程提供一些易于绘制的小型数据集(而不是10000s的数据线和100s的尺寸),在PCA分析之前和之后,其差异/结果可以清楚地说明。(我认为一个逐步的实际示例非常有用,该示例中的数据大约有100条线和3维。 你有什么建议吗?

14
您可以从一个名字中挖掘多少信息?
名称:首先,可能是中间名和姓。 我很好奇您可以使用公开可用的数据集从名字中挖掘出多少信息。我知道,使用美国人口普查数据,您可以在低高概率(取决于输入)之间的任意位置获得以下信息:1)性别。2)比赛。 例如,Facebook正是利用这一点准确地找到了其网站用户的种族分布(https://www.facebook.com/note.php?note_id=205925658858)。 还有什么可以开采的?我没有在寻找任何具体的问题,这是一个非常开放的问题,可以缓解我的好奇心。 我的示例是特定于美国的,因此我们假设该名称是位于美国的某人的名字;但是,如果有人知道其他国家/地区的公开数据集,那么我对他们也很开放。 我不太确定这是否是正确的地方,否则,如果有人可以将我指向一个更合适的地方,我将不胜感激。 我希望这是一个有趣的问题,并且这是合适的地方!

3
我应该使用哪种算法将庞大的二进制数据集聚为几类?
我有一个很大的(650K行* 62列)二进制数据矩阵(仅0-1个条目)。矩阵大部分是稀疏的:大约占8%。 我想将其分为5组-从1到5命名。我尝试了层次化群集,但是它无法处理大小。考虑到长度为62的650K位向量,我还使用了基于汉明距离的k-means聚类算法。在这些情况下,我都没有得到正确的结果。 请帮忙。

3
涵盖数据预处理和异常检测技术的好书
就像标题一样,有谁知道一本很好的,最新的书,该书涵盖了一般的数据预处理,尤其是异常检测技术? 这本书并不需要专心于此,但是它应该详尽地处理上述主题-我对以起点为起点的论文感到满意,并引用了一系列论文,对各种技术的解释必须出现在本书中。这本书本身。 处理丢失数据的技术更可取,但不是必需的...


1
数据处理错误是否已经“纳入”统计分析?
好的,合理的警告-这是一个不涉及数字的哲学问题。我一直在思考错误将如何随着时间逐渐潜入数据集中,以及分析人员应如何处理这些错误,或者它是否真的很重要? 就背景而言,我正在一项长期研究中进行分析,该研究涉及大约7-8年内可能由25个人收集的许多数据集-没有人将所有数据整合到一个一致的结构中(这是我的职责)。我一直在进行大量数据输入(从旧实验室笔记本的影印本抄录),并且不断发现其他人犯的小抄录错误,并且发现难以或无法读取的数据条目-主要是因为墨水随着时间的流逝而消失。我正在使用上下文对数据的含义做出“最佳猜测”,如果我不太确定,则将数据完全指出。但是我一直在考虑这样一个事实,每次复制数据时,错误的频率不可避免地会增加,直到原始数据完全丢失为止。 因此,这使我想到:除了仪器/测量错误和记录错误之外,还有一个基本的“数据处理错误”组件会随着时间的推移以及对数据的更多处理而增加(注意:这可能是由于这只是说明热力学第二定律的另一种方式,对吗?数据熵将一直增加)。因此,我想知道是否应该引入某种“校正”来说明数据集的寿命历史(类似于Bonferroni校正)?换句话说,我们是否应该假设较旧或复制较多的数据集的准确性较低;如果是,则应相应地调整发现结果吗? 但是,我的另一种想法是错误是数据收集和数据处理的固有部分,并且既然所有统计测试都是使用真实数据开发的,那么这些错误源可能已经被分析所“价”了吗? 另外,值得一提的另一点是,由于数据错误是随机的,因此降低发现强度的可能性远大于改善发现的强度-换句话说,数据处理错误将导致类型2错误,而不是类型1错误。 。因此,在许多情况下,如果您使用的是旧的/有问题的数据并且仍然发现了一种影响,则可以增加您对这种影响是真实存在的信心(因为它足够强大,可以承受向数据集添加随机误差的影响)。因此,出于这个原因,也许“校正”应该采取另一种方式(增加“查找”所需的Alpha水平),还是不给我们带来麻烦? 无论如何,很抱歉如此冗长和晦涩,我不确定如何更简洁地提出这个问题。感谢您的支持。
10 dataset  error 

2
数据类型(标称/有序/间隔/比率)是否真的应视为变量类型?
例如,这是我从标准教科书中获得的定义 变量-总体或样本的特征。例如 测试中股票或等级的价格 数据-实际观测值 因此,对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K},{jim | 200K}将是数据 因此,如果我说[名称]列是名义数据,[收入]是比率数据,那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗?我知道这可能是语义,这很好,那就是全部。但是我担心这里可能会丢失一些东西。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.