统计和大数据 dataset

3

应该仅对训练数据（或所有数据）执行特征选择吗？我经历了一些讨论和论文，例如Guyon（2003）以及Singhi and Liu（2006），但仍然不确定正确的答案。我的实验设置如下：数据集：50位健康对照者和50位疾病患者（cca 200功能可能与疾病预测相关）。任务是根据可用功能诊断疾病。我要做的是取整个数据集并执行特征选择（FS）。我仅保留选定的功能以进行进一步处理拆分以测试和训练，使用火车数据和所选功能进行火车分类。然后，将分类器应用于测试数据（再次仅使用所选功能）。使用留一法验证。获得分类精度平均：重复1）-3）N次。（100）。N=50N=50N=50 我同意在整个数据集上进行FS会带来一些偏差，但是我认为在平均过程中它被“平均”了（步骤4）。那是对的吗？（精度方差）<2%<2%<2\% 1 Guyon，I.（2003），“变量和特征选择简介”，《机器学习研究杂志》，第1卷。3，第1157-1182页 2 Singhi，SK和Liu，H.（2006）“用于分类学习的特征子集选择偏差”，进行ICML '06的第23届国际机器学习会议论文集，第849-856页

10 dataset cross-validation experiment-design feature-selection

3

使用最少的内存来训练数据的最有效方法是什么？

这是我的训练数据：200,000个示例x 10,000个功能。所以我的训练数据矩阵是-200,000 x 10,000。当我为每个示例生成功能时，我设法将每个数据集一个接一个地保存（一个示例一个接一个），从而将其保存到一个平面文件中而没有内存问题。但是，现在当我使用Milk，SVM light或任何其他机器学习算法时，一切都会尝试将整个训练数据加载到内存中，而不是一一训练。但是，我只有8 GB的RAM，因此无法进行这种方式。您是否知道我可以逐个训练一个数据集的算法？也就是说，在训练时，我随时都可以将一个数据集加载到内存中。

10 machine-learning dataset algorithms python

3

不同国家的儿童统计教育？

我很想知道孩子们在世界各地学习的统计数据水平。您能否建议可以说明这方面正在发生什么的数据/链接？我开始以色列：参加高级数学学习的学生或多或少-均值，标准差，直方图，正态分布，非常基本的概率。

10 dataset teaching

3

使用回归来投影超出数据范围可以吗？永远不行吗？有时候好吗？

您对使用回归来投影数据范围之外有什么想法？如果我们确定模型遵循线性或幂模型形状，那么超出数据范围的模型是否有用？例如，我的数量受价格驱动。我们应该能够预测我认为超出数据范围的价格。你的想法？ VOL PRICE 3044 4.97 2549 4.97 3131 4.98 2708 4.98 2860 4.98 2907 4.98 3107 4.98 3194 4.98 2753 4.98 3228 4.98 3019 4.98 3077 4.99 2597 4.99 2706 4.99 3000 4.99 3022 4.99 3084 4.99 3973 4.99 3675 4.99 3065 4.99 3407 4.99 2359 4.99 2802 4.99 2589 …

10 regression dataset linear-model

2

什么是桶装？

我一直在四处寻找没有运气的机器学习中“桶化”的清晰解释。到目前为止，我了解到的是，存储桶化类似于数字信号处理中的量化，其中一系列连续值被一个离散值代替。它是否正确？应用存储桶化有什么利弊（除了丢失信息的明显影响）？关于如何应用存储分区是否有任何经验法则？在应用机器学习之前，是否有任何准则/算法可用于应用桶化？

10 machine-learning dataset data-preprocessing

2

最高和经常关闭-包括答案

中号ÿ d一个吨一个小号ë 吨：中号ÿ d一个Ť一个sËŤ：My \ \ dataset: 1 ：A ，B ，C，E1个：一个，乙，C，Ë1: A,B,C,E 2 ：A ，C，D ，E2：一个，C，d，Ë2:A,C,D,E 3 ：B ，C ，E3：乙，C，Ë3:\ \ \ \ \ B,C,E 4 ：A ，C，D ，E4：一个，C，d，Ë4:A,C,D,E 5 ：C ，D ，E5： C，d，Ë5:\ \ \ \ C, D, E 6 ：A ，D ，E 6：一个，d，Ë6: \ \ \ …

10 data-mining dataset association-rules

2

从关系数据中学习

设置许多算法对单个关系或表进行操作，而许多现实世界数据库将信息存储在多个表中（Domingos，2003年）。问题哪些类型的算法可以从多个（关系）表中很好地学习。特别是，我对适用于回归和分类任务的算法（而不是面向网络分析的算法，例如链接预测）感兴趣。我知道下面列出了几种方法（但可以肯定的是我缺少了一些方法）：多关系数据挖掘（MRDM）（Dzeroski，2002）归纳逻辑编程（ILP）（Muggleton，1992年）统计关系学习（SRL）（Getoor，2007年） Džeroski，S。（2003）。多关系数据挖掘：简介。ACM SIGKDD勘探通讯。 Getoor，Lise和Ben Taskar编辑。统计关系学习简介。麻省理工学院出版社，2007。 S. Muggleton和C. Feng。逻辑程序的有效归纳。第一次算法学习理论会议论文集，第368–381页。1990年，东京，欧姆萨（Ohmsha）。

9 regression machine-learning classification dataset

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

在哪里可以找到对测试我自己的机器学习实现有用的数据集？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 6年前关闭。我目前正在尝试自行实现一些机器学习算法。他们中的许多人具有难以调试的讨厌特性，某些错误不会导致程序崩溃，而是无法按预期方式工作，而且似乎算法给出的结果较弱。我想以某种方式增加对实现的信心，例如，如果我有一些小型数据集，并带有其他信息“算法X用于Y迭代，并且结果Z在该数据集上”，那将非常有帮助。有人听说过这样的数据集吗？

9 dataset

1

如何量化统计上的无关紧要？

我是统计学的新手，并且了解我的问题可能完全被误解了。我正在测试自己的算法与其他算法。尽管输出不完全相同，但我想表明这些差异“在统计上无关紧要”。我该如何量化这一点呢？

9 correlation statistical-significance dataset

4

使用Matlab自相关和神经网络时，如何处理时间序列数据中的缺口/ NaN？

我有一个时间序列的测量值（高度一维序列）。在观察期内，测量过程下降了一些时间点。因此，所得数据是带有NaN的矢量，其中数据中存在间隙。使用MATLAB，这在计算自相关（autocorr）和应用神经网络（nnstart）时给我带来了问题。这些差距/ NaN应该如何处理？我应该将它们从载体中删除吗？还是将其条目替换为插值？（如果是这样，那么在MATLAB中如何操作）

9 time-series dataset matlab autocorrelation missing-data

7

寻找2D人工数据以演示聚类算法的属性

我正在寻找遵循不同分布和形式的二维数据点（每个数据点是两个值（x，y）的向量）的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子：星状云数据四个集群，一个容易分离螺旋形（无簇）戒指两片几乎分开的云两个平行的簇形成螺旋 ...等等

9 distributions data-visualization clustering dataset

7

用于数据可视化示例，教学和研究的数据集

我正在搜索可用于测试正在研究的多种datavis技术的现有数据集。我知道一些资源，例如R中包含的资源（请尝试plot(Orange)或在此处查看）。但我想向前迈出一步：哪些是测试可视化工具的最佳现实数据集？您在有关datavis的学术论文或教学幻灯片中使用了哪些数据集？在现实世界中，哪一个是最好的例子来展示制图的优势？

9 data-visualization dataset teaching

2

计算数据的ROC曲线

因此，我进行了16次试验，试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下，只有试验1为“真阳性”： Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是，我真的不确定如何根据此数据制作ROC曲线（FPR与TPR或FAR与FRR）。哪一个都不重要，但是我只是对如何进行计算感到困惑。任何帮助，将不胜感激。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Questions tagged «dataset»