统计和大数据 dataset

5

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

作为示例/教学/测试数据集，“虹膜”数据集的哪些方面使其如此成功

在“IRIS”的数据集是很熟悉这里大多数人-这是规范的测试数据集和一个去到例如数据集，一切从数据可视化机器学习。例如，这个问题中的每个人最终都将其用于讨论按处理分开的散点图。是什么使Iris数据集如此有用？只是它首先在那儿？如果有人试图创建有用的示例/测试数据集，他们可以从中学到什么？

28 dataset

1

从lmer模型计算效果的可重复性

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

自由度可以是非整数吗？

当我使用GAM时，它给了我剩余的DF为（代码的最后一行）。这意味着什么？超越GAM示例，通常，自由度可以是非整数吗？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

统计人员无法自动化执行哪些操作？

软件最终会使统计人员过时吗？不能编程到计算机上的操作已完成？

26 machine-learning dataset careers

4

作为审稿人，即使期刊没有，我是否可以要求提供数据和代码？

由于科学必须具有可复制性，因此根据定义，人们越来越认识到数据和代码是可复制性的重要组成部分，正如耶鲁圆桌会议针对数据和代码共享所讨论的那样。在审阅不需要数据和代码共享的期刊的稿件时，我可以要求提供数据和代码吗？在审查时对我出版时公开发表（该杂志支持增刊）另外，我该如何表达这样的要求？更新：尽管我对一般情况感兴趣，但此特殊情况包括对所有以前发布的数据进行的荟萃分析，并且代码是SAS中的简单线性模型边注：如果更多的研究提供原始数据，则进行交叉研究推断的能力（即荟萃分析的目标）将大大增强。更新2：我要求编辑提供数据和代码以供审核，编辑认为请求合理，并且我在一天之内就收到了所要求的材料（足够但带有隐含的变量名，没有元数据并且几乎没有内联注释）。

23 dataset validation reproducible-research journals

2

通用数据集的数据增强技术？

在许多机器学习应用程序中，所谓的数据增强方法已允许构建更好的模型。例如，假设训练集包含张猫和狗的图像。通过旋转，镜像，调整对比度等，可以从原始图像生成其他图像。100100100 对于图像，数据扩充相对简单。但是，假设（例如）一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办？100100100

21 machine-learning predictive-models dataset independence data-augmentation

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

9

过拟合和欠拟合

我已经对过拟合和欠拟合进行了一些研究，并且我了解了它们的确切含义，但是我找不到原因。过度拟合和拟合不足的主要原因是什么？为什么我们在训练模型时会面临这两个问题？

20 machine-learning dataset overfitting

1

机器学习算法中缺失数据和稀疏数据之间的区别

稀疏数据和缺失数据之间的主要区别是什么？它如何影响机器学习？更具体地说，稀疏数据和缺失数据对分类算法和算法的回归（预测数）类型有什么影响。我说的是一种情况，丢失数据的百分比很大，我们不能删除包含丢失数据的行。

20 machine-learning dataset missing-data sparse

1

远距离监督：监督，半监督或两者兼而有之？

“远距离监督”是一种学习方案，其中在给定标记较弱的训练集的情况下学习分类器（训练数据基于启发式/规则自动标记）。我认为监督学习和半监督学习都可以通过“启发式/自动标记”来标记这种“远程监督”。但是，在此页面中，“远程监督”被定义为“半监督学习”（即，仅限于“半监督”）。所以我的问题是，“远程监管”是否专门指半监管？我认为它可以应用于监督学习和半监督学习。请提供任何可靠的参考。

20 machine-learning data-mining dataset references unsupervised-learning

5

有什么好的数据集可以学习基本的机器学习算法，为什么呢？

我是机器学习的新手，正在寻找一些可以比较和对比不同机器学习算法（决策树，Boosting，SVM和神经网络）之间差异的数据集。在哪里可以找到这样的数据集？考虑数据集时我应该寻找什么？如果您可以指向一些好的数据集，并告诉我是什么使它们成为一个好的数据集，那将是很好的选择？

19 machine-learning dataset

4

需要受治疗影响的协变量的良好数据示例

我查看了很多R数据集，DASL中的发布以及其他地方，但没有找到很多有趣的数据集的很好的例子来说明实验数据的协方差分析。在统计教科书中有许多“玩具”数据集，其中包含人为的数据。我想举一个例子：数据是真实的，有一个有趣的故事至少有一个治疗因素和两个协变量至少一个协变量受一种或多种治疗因素的影响，而一个不受治疗的影响。实验性而非观察性，最好背景我的真正目标是找到一个很好的例子，将我的R包放入小插图中。但是更大的目标是，人们需要看到良好的例子来说明协方差分析中的一些重要问题。考虑以下组合方案（请理解，我的农业知识充其量只是肤浅的）。我们进行了一项实验，其中将肥料随机分配给田地，并种植了农作物。经过适当的生育期后，我们收获农作物并测量一些质量特征-这就是响应变量。但是，我们还记录了生长期的总降雨量，以及收获时的土壤酸度，当然还记录了使用的肥料。因此，我们有两个协变量和一个处理。分析结果数据的常用方法是将处理作为一个因素拟合线性模型，并对协变量进行累加效应。然后总结一下结果，在平均降雨量和3平均土壤酸度下，计算“调整均值”（AKA最小二乘均值），这是每种肥料模型预测的结果。这使一切都处于平等地位，因为当我们比较这些结果时，我们将降雨量和酸度保持恒定。但这可能是错误的做法-因为肥料可能会影响土壤酸度以及反应。这会使调整后的方法产生误导，因为处理效果包括其对酸度的影响。解决此问题的一种方法是将酸度从模型中剔除，然后通过降雨调整后的方法进行公平的比较。但是，如果酸度很重要，那么这种公平性将付出巨大代价，这会增加残留变化。有多种方法可以解决此问题，方法是在模型中使用调整后的酸度版本而不是其原始值。我的R软件包lsmeans即将更新，这将使这一切变得容易。但是我想有一个很好的例子来说明这一点。我将非常感谢并适当感谢任何能将我引向一些出色的说明性数据集的人。

19 dataset ancova predictor

2

数据库的质量保证和质量控制（QA / QC）准则

背景我正在监督从原始文献到数据库的数据输入。数据输入过程容易出错，尤其是因为用户必须解释实验设计，从图形和表格中提取数据并将结果转换为标准化单位。数据通过Web界面输入到MySQL数据库中。到目前为止，已包含来自> 20个变量，> 100个物种和> 500个引用的超过10,000个数据点。我不仅要检查变量数据的质量，还要检查查询表中包含的数据的质量，例如与每个数据点相关的种类，研究位置等。数据输入正在进行中，因此QA / QC将需要间歇运行。数据尚未公开发布，但我们计划在未来几个月内发布。目前，我的质量检查/质量控制涉及三个步骤：第二个用户检查每个数据点。直观检查直方图每个变量的异常值。用户获得虚假结果后报告可疑数据。问题是否有可用于为该数据库开发健壮的QA / QC程序的指南？第一步是最耗时的；有什么我可以做的以提高效率吗？

18 dataset meta-analysis quality-control database

10

社交网络数据集

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我正在寻找分类任务的社交网络数据集（Twitter，FriendFeed，Facebook，Lastfm等），最好是Arff格式。到目前为止，我通过UCI和Google进行的搜索均未成功……有什么建议吗？

18 classification dataset

Questions tagged «dataset»