Questions tagged «train»

训练(或估计)统计模型或算法。

5
权衡批次大小与迭代次数以训练神经网络
训练神经网络时,设置有什么区别: 批处理大小为,迭代次数为一种一种abbb vs.批处理大小为和迭代次数为CCcddd 其中?a b = c d一种b=Cd ab = cd 换句话说,假设我们使用相同数量的训练示例训练神经网络,那么如何设置最佳批处理大小和迭代次数?(其中批处理数量*迭代次数=向神经网络显示的训练示例的数量,同一训练示例可能多次显示) 我知道批处理大小越大,所需的内存空间就越大,并且通常可以使计算速度更快。但是,就训练有素的网络的性能而言,这有什么不同?

1
分层抽样与随机抽样在分类中生成训练数据的好处
我想知道在将原始数据集分为训练和测试集进行分类时,使用分层抽样而不是随机抽样是否有任何/某些优势。 另外,分层抽样是否比随机抽样给分类器带来更大的偏差? 我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器,在2上进行了训练2323\frac{2}{3}原始数据集的 3。在分类器之前,还有一个合成样本生成的步骤(SMOTE [1]),可以平衡类的大小。 [1] Chawla,Nitesh V.等。“ SMOTE:合成少数族群过采样技术。 ”人工智能研究杂志16(2002):321-357。


4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
Scikit使用CalibratedClassifierCV校准分类器的正确方法
Scikit具有CalibratedClassifierCV,它使我们能够在特定的X,y对上校准模型。它还明确指出data for fitting the classifier and for calibrating it must be disjoint. 如果它们必须不相交,则对分类器进行以下训练是否合法? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 我担心使用相同的训练集会违反disjoint data规则。另一种可能是设置验证集 my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) 这样做的缺点是要保留较少的数据用于训练。另外,如果CalibratedClassifierCV只适合于适合其他训练集的模型,为什么默认选项为cv=3,也适合基本估计量?交叉验证是否可以自行处理不相交规则? 问题:使用CalibratedClassifierCV的正确方法是什么?

2
通过插入号和基本randomForest包从randomForest获得不同的结果
我有点困惑:经过插入符号训练的模型的结果与原始包装中的模型有什么不同?我阅读了使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理?但我在这里不使用任何预处理。 我通过使用插入符号包并调整了不同的mtry值来训练了不同的随机森林。 > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, method = "rf", metric="ROC", tuneGrid = newGrid) > curClassifier = classifierRandomForest 我发现mtry = …

3
培训,测试,验证生存分析问题
我一直在这里浏览各种线程,但我认为我的确切问题没有得到回答。 我有约50,000名学生及其辍学时间的数据集。我将使用大量潜在的协变量进行比例风险回归。我还将对辍学/留学情况进行逻辑回归。主要目标是为新的学生群体做预测,但我们没有理由相信他们与去年的学生群体会有很大不同。 通常,我没有这么多的数据,并且通过某种形式的惩罚进行模型拟合,但是这次我想将int训练和测试数据集分离,然后在训练集上进行变量选择。然后使用测试数据集估算参数和预测能力。 这是个好策略吗?如果没有,哪个更好? 欢迎引用,但不是必须的。


4
良好的范例/书籍/资源,可学习有关应用机器学习的知识(不仅限于ML本身)
我以前参加过ML课程,但是现在我正在从事与ML相关的项目工作,因此我在实际应用中费了不少力气。我敢肯定,我正在做的事情已经过研究/处理,但是我找不到特定的主题。 我在网上找到的所有机器学习示例都很简单(例如,如何在Python中使用KMeans模型并查看预测)。我正在寻找有关如何实际应用这些资源的良好资源,也许是大规模机器学习实现和模型培训的代码示例。我想学习如何有效地处理和创建新数据,从而使ML算法更加有效。

3
从庞大的数据集中学习的方法?
基本上,有两种学习大型数据集的常用方法(当您面临时间/空间限制时): 作弊:)-仅使用“可管理”子集进行训练。由于收益递减规律,准确性的损失可以忽略不计-模型的预测性能通常在将所有训练数据纳入模型之前就已经趋于平缓。 并行计算-将问题分解为较小的部分,并在单独的计算机/处理器上解决每个问题。虽然您需要算法的并行版本,但是好消息是,许多常见算法自然是并行的:最近邻居,决策树等。 还有其他方法吗?何时使用它们有什么经验法则吗?每种方法的缺点是什么?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.