Questions tagged «dataset»

对数据集的请求在此站点上不合时宜。使用此标记可解决有关创建,处理或维护数据集的问题。


2
对过采样的不平衡数据进行测试分类
我正在处理严重不平衡的数据。在文献中,使用几种方法通过重新采样(过采样或欠采样)来重新平衡数据。两种好的方法是: SMOTE:合成少数类过采样技术(SMOTE) ADASYN:用于失衡学习的自适应合成采样方法(ADASYN) 我之所以实现ADASYN,是因为它具有自适应性并且易于扩展到多类问题。 我的问题是如何测试由ADASYN产生的过采样数据(或任何其他过采样方法)。在上述两篇论文中还不清楚他们如何进行实验。有两种情况: 1-对整个数据集进行过采样,然后将其拆分为训练和测试集(或交叉验证)。 2-拆分原始数据集后,仅对训练集执行过采样,然后对原始数据测试集进行测试(可以通过交叉验证执行)。 在第一种情况下,结果要比不进行过度采样好得多,但我担心是否存在过度拟合。在第二种情况下,结果比没有过采样的情况略好,但比第一种情况差得多。但是第二种情况的问题在于,如果所有少数族裔样本都进入测试集,那么过采样将不会带来任何好处。 我不确定是否还有其他设置可以测试此类数据。

2
计算第95个百分位数:比较正态分布,R Quantile和Excel方法
我试图在以下数据集中计算第95个百分位数。我遇到了一些这样做的在线参考。 方法1:基于样本数据 在第一个告诉我获得TOP 95 Percent的数据集,然后选择MIN或AVG生成的一组。对以下数据集执行此操作即可得到: AVG: 29162 MIN: 0 方法2:假设正态分布 所述第二个说,第95百分位是平均约两个标准差以上(我明白)和I进行的: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 方法3:R Quantile 我曾经R获得第95个百分位: > quantile(data$V1, 0.95) 79515.2 方法4:Excel的方法 最后,我遇到了这个,它解释了Excel是如何做到的。该方法的摘要如下: 给定一组N有序值{v[1], v[2], ...}和要求计算pth百分位数,请执行以下操作: 计算 l = p(N-1) + 1 拆分l成整数和小数成分即l = k + d 将所需值计算为 V = v[k] + d(v[k+1] - v[k]) 这种方法给我 79515.2 尽管我相信R的值是正确的值,但没有一个值匹配(我也从ecdf图中观察到了它)。我的目标是从给定的数据集中手动计算第95个百分位数(仅使用AVG和STDEV函数),并且不确定是否会发生什么。有人可以告诉我我要去哪里错吗? 93150 …
17 r  dataset  quantiles  sql 

6
在哪里可以找到大型文本语料库?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我正在寻找要下载的大型(> 1000)文本语料库。最好是带有国际新闻或某种报道。我只找到一个拥有专利的产品。有什么建议么?
16 dataset 


4
有哪些好的数据集可以说明统计分析的特定方面?
我意识到这是主观的,但是我认为谈论我们喜欢的数据集以及我们认为使它们变得有趣的内容会很好。那里有大量的数据,以及所有API(例如Datamob)和经典数据集(例如R data)的作用,我认为这可能会有一些非常有趣的响应。 例如,我一直喜欢“波士顿住房”数据集(尽管有不幸的含义)和“ mtcars”这样的数据集,因为它们具有多功能性。从教学的角度来看,可以证明使用它们的各种统计技术的优点。Anderson / Fisher的虹膜数据集将在我的心中永远占有一席之地。 有什么想法吗?
16 dataset 


4
免费的公共利益数据托管?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我在http://data.barrycarter.info/上有许多站点的每小时和每天的温度报告 我鼓励人们下载它,但是在6.6G时,它会占用大量带宽。 是否有免费托管“公共利益”数据的服务? 我知道http://aws.amazon.com/publicdatasets,但是您需要一个Amazon EC2帐户才能访问该数据。
14 dataset 

3
如何进行数据扩充和训练验证拆分?
我正在使用机器学习进行图像分类。 假设我有一些训练数据(图像),并将其分为训练和验证集。我还想通过随机旋转和噪声注入来增强数据(从原始图像生成新图像)。扩充是离线完成的。 进行数据扩充的正确方法是哪种? 首先将数据分为训练和验证集,然后对训练和验证集进行数据扩充。 首先将数据分为训练集和验证集,然后仅对训练集进行数据扩充。 首先对数据进行数据扩充,然后将数据分为训练和验证集。

6
R中获取由标识符分组的数据帧的第一行的快速方法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 有时,我只需要按标识符将数据集的第一行获取,例如当每个人有多个观察值时检索年龄和性别时。在R中最快(或最快)的方法是什么?我在下面使用了aggregate(),并怀疑还有更好的方法。在发布此问题之前,我在Google上进行了一些搜索,发现并尝试了ddply,但感到惊讶的是它运行速度极慢,并给我数据集上的内存错误(400,000行x 16列,7,000个唯一ID),而aggregate()版本相当快。 (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # 1 30 1 # 2 40 0 # 2 40 0 # 3 35 1 # 3 35 1 ag <- data.frame(ID=levels(dx$ID)) ag <- …
14 r  dataset  aggregation  plyr 

2
k倍交叉验证如何适合训练/验证/测试集的背景?
我的主要问题是试图了解k倍交叉验证在具有训练/验证/测试集的情况下的适合度(如果完全适合这种情况)。 通常,人们会谈论将数据分为训练,验证和测试集-例如,每幅吴安德(Andrew Ng)课程的比例为60/20/20-验证集用于识别模型训练的最佳参数。 但是,如果希望在数据量相对较小的情况下使用k折交叉验证以希望获得更具代表性的准确性度量,那么在这种60/20/20拆分中,进行k折交叉验证的确切含义是场景? 例如,这是否意味着我们实际上将训练和测试集(数据的80%)组合在一起,并对它们进行k倍交叉验证,以获取我们的准确性指标(通过具有明确的“测试集”有效地丢弃)?如果是这样,我们在生产中使用a)和b)对验证集使用哪种训练模型并确定最佳训练参数?例如,a和b的一个可能答案可能是使用最佳折叠模型。

4
在哪里可以找到有关临床试验的原始数据?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我希望将有关临床试验的原始数据用于我的硕士生的期末考试。只要试验完成(第1到第4阶段),这些数据就可以处理任何种类的分子。 您是否有想法在网上找到这样的免费数据集? 谢谢。

2
如何将频率表转换为值向量?
使用R或Excel,将频率表转换为值向量的最简单方法是什么? 例如,您如何转换以下频率表 Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 进入以下向量? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5
13 r  dataset  excel 

4
从样本中分离出两个总体
我正在尝试从单个数据集中分离出两组值。我可以假设其中一个总体是正态分布的,并且至少是样本大小的一半。第二个的值都低于或高于第一个的值(分布未知)。我要尝试做的是找到上限和下限,以将正常分布的人群与其他人群隔离开来。 我的假设为我提供了起点: 样本四分位数范围内的所有点均来自正态分布的总体。 我正在尝试测试是否将异常值从样本的其余部分中提取出来,直到它们不适合正态分布总体的第3个标准差。这不是理想的,但似乎会产生足够的结果。 我的假设在统计上合理吗?有什么更好的方法来解决这个问题? ps请修复某人的标签。

4
汇总和分析数据的最佳方法
最近刚开始自学机器学习和数据分析,我发现自己对创建和查询大量数据的需求感到困惑。我想对自己在职业和个人生活中积累的数据进行分析,但是我不确定执行以下操作的最佳方法: 我应该如何存储这些数据?Excel?SQL??? 初学者开始尝试分析这些数据的好方法是什么?我是一名专业的计算机程序员,所以复杂性不在于编写程序,而是或多或少地针对数据分析领域。 编辑:为我的含糊而道歉,当您第一次开始学习某些东西时,很难知道您不知道的内容,是吗?;) 话虽如此,我的目的是将其应用于两个主要主题: 软件团队指标(考虑敏捷速度,量化风险,在x个故事点数的情况下成功完成迭代的可能性) 机器学习(例如,在给定的一组模块中发生了系统异常),一个模块将在现场抛出异常的可能性是多少,代价是多少,数据可以告诉我哪些关键模块需要改进,从而获得最好的解决方案,预测用户接下来要使用哪个系统部分以开始加载数据,等等)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.