Questions tagged «dataset»

对数据集的请求在此站点上不合时宜。使用此标记可解决有关创建,处理或维护数据集的问题。

3
应该仅对训练数据(或所有数据)执行特征选择吗?
应该仅对训练数据(或所有数据)执行特征选择吗?我经历了一些讨论和论文,例如Guyon(2003)以及Singhi and Liu(2006),但仍然不确定正确的答案。 我的实验设置如下: 数据集:50位健康对照者和50位疾病患者(cca 200功能可能与疾病预测相关)。 任务是根据可用功能诊断疾病。 我要做的是 取整个数据集并执行特征选择(FS)。我仅保留选定的功能以进行进一步处理 拆分以测试和训练,使用火车数据和所选功能进行火车分类。然后,将分类器应用于测试数据(再次仅使用所选功能)。使用留一法验证。 获得分类精度 平均:重复1)-3)N次。(100)。N=50N=50N=50 我同意在整个数据集上进行FS会带来一些偏差,但是我认为在平均过程中它被“平均”了(步骤4)。那是对的吗?(精度方差)&lt;2%&lt;2%<2\% 1 Guyon,I.(2003),“变量和特征选择简介”,《机器学习研究杂志》,第1卷。3,第1157-1182页 2 Singhi,SK和Liu,H.(2006)“用于分类学习的特征子集选择偏差”,进行ICML '06的第23届国际机器学习会议论文集,第849-856页

3
使用最少的内存来训练数据的最有效方法是什么?
这是我的训练数据:200,000个示例x 10,000个功能。所以我的训练数据矩阵是-200,000 x 10,000。 当我为每个示例生成功能时,我设法将每个数据集一个接一个地保存(一个示例一个接一个),从而将其保存到一个平面文件中而没有内存问题。 但是,现在当我使用Milk,SVM light或任何其他机器学习算法时,一切都会尝试将整个训练数据加载到内存中,而不是一一训练。但是,我只有8 GB的RAM,因此无法进行这种方式。 您是否知道我可以逐个训练一个数据集的算法?也就是说,在训练时,我随时都可以将一个数据集加载到内存中。

3
不同国家的儿童统计教育?
我很想知道孩子们在世界各地学习的统计数据水平。您能否建议可以说明这方面正在发生什么的数据/链接? 我开始 以色列:参加高级数学学习的学生或多或少-均值,标准差,直方图,正态分布,非常基本的概率。
10 dataset  teaching 

3
使用回归来投影超出数据范围可以吗?永远不行吗?有时候好吗?
您对使用回归来投影数据范围之外有什么想法?如果我们确定模型遵循线性或幂模型形状,那么超出数据范围的模型是否有用?例如,我的数量受价格驱动。我们应该能够预测我认为超出数据范围的价格。你的想法? VOL PRICE 3044 4.97 2549 4.97 3131 4.98 2708 4.98 2860 4.98 2907 4.98 3107 4.98 3194 4.98 2753 4.98 3228 4.98 3019 4.98 3077 4.99 2597 4.99 2706 4.99 3000 4.99 3022 4.99 3084 4.99 3973 4.99 3675 4.99 3065 4.99 3407 4.99 2359 4.99 2802 4.99 2589 …

2
什么是桶装?
我一直在四处寻找没有运气的机器学习中“桶化”的清晰解释。到目前为止,我了解到的是,存储桶化类似于数字信号处理中的量化,其中一系列连续值被一个离散值代替。它是否正确? 应用存储桶化有什么利弊(除了丢失信息的明显影响)?关于如何应用存储分区是否有任何经验法则?在应用机器学习之前,是否有任何准则/算法可用于应用桶化?

2
最高和经常关闭-包括答案
中号ÿ d一个吨一个小号ë 吨:中号ÿ d一个Ť一个sËŤ:My \ \ dataset: 1 :A ,B ,C,E1个:一个,乙,C,Ë1: A,B,C,E 2 :A ,C,D ,E2:一个,C,d,Ë2:A,C,D,E 3 :B ,C ,E3: 乙,C,Ë3:\ \ \ \ \ B,C,E 4 :A ,C,D ,E4:一个,C,d,Ë4:A,C,D,E 5 :C ,D ,E5: C,d,Ë5:\ \ \ \ C, D, E 6 :A ,D ,E 6: 一个,d,Ë6: \ \ \ …

2
从关系数据中学习
设置 许多算法对单个关系或表进行操作,而许多现实世界数据库将信息存储在多个表中(Domingos,2003年)。 问题 哪些类型的算法可以从多个(关系)表中很好地学习。特别是,我对适用于回归和分类任务的算法(而不是面向网络分析的算法,例如链接预测)感兴趣。 我知道下面列出了几种方法(但可以肯定的是我缺少了一些方法): 多关系数据挖掘(MRDM)(Dzeroski,2002) 归纳逻辑编程(ILP)(Muggleton,1992年) 统计关系学习(SRL)(Getoor,2007年) Džeroski,S。(2003)。多关系数据挖掘:简介。ACM SIGKDD勘探通讯。 Getoor,Lise和Ben Taskar编辑。统计关系学习简介。麻省理工学院出版社,2007。 S. Muggleton和C. Feng。逻辑程序的有效归纳。第一次算法学习理论会议论文集,第368–381页。1990年,东京,欧姆萨(Ohmsha)。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
在哪里可以找到对测试我自己的机器学习实现有用的数据集?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我目前正在尝试自行实现一些机器学习算法。他们中的许多人具有难以调试的讨厌特性,某些错误不会导致程序崩溃,而是无法按预期方式工作,而且似乎算法给出的结果较弱。 我想以某种方式增加对实现的信心,例如,如果我有一些小型数据集,并带有其他信息“算法X用于Y迭代,并且结果Z在该数据集上”,那将非常有帮助。有人听说过这样的数据集吗?
9 dataset 


4
使用Matlab自相关和神经网络时,如何处理时间序列数据中的缺口/ NaN?
我有一个时间序列的测量值(高度一维序列)。在观察期内,测量过程下降了一些时间点。因此,所得数据是带有NaN的矢量,其中数据中存在间隙。使用MATLAB,这在计算自相关(autocorr)和应用神经网络(nnstart)时给我带来了问题。 这些差距/ NaN应该如何处理?我应该将它们从载体中删除吗?还是将其条目替换为插值?(如果是这样,那么在MATLAB中如何操作)

7
寻找2D人工数据以演示聚类算法的属性
我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子: 星状云数据 四个集群,一个容易分离 螺旋形(无簇) 戒指 两片几乎分开的云 两个平行的簇形成螺旋 ...等等

7
用于数据可视化示例,教学和研究的数据集
我正在搜索可用于测试正在研究的多种datavis技术的现有数据集。 我知道一些资源,例如R中包含的资源(请尝试plot(Orange)或在此处查看)。 但我想向前迈出一步: 哪些是测试可视化工具的最佳现实数据集? 您在有关datavis的学术论文或教学幻灯片中使用了哪些数据集? 在现实世界中,哪一个是最好的例子来展示制图的优势?

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.