Questions tagged «scikit-learn»

用于Python的机器学习库。对于(a)涉及scikit-learn或该问题的关键部分或预期答案的任何主题问题,请使用此标签;&(b)不仅仅是关于如何使用scikit-learn。


1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Scikit二项式偏差损失函数
这是scikit GradientBoosting的二项式偏差损失函数, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

1
我们如何预测罕见事件?
我正在开发保险风险预测模型。这些模型具有“罕见事件”的特征,例如航空公司的空机预测,硬件故障检测等。准备数据集时,我尝试应用分类,但是由于否定案例的比例很高,因此无法获得有用的分类器。 除了高中统计课程外,我在统计和数据建模方面没有太多经验,所以我有点困惑。 首先想到的是,我一直在考虑使用不均匀的泊松过程模型。我根据事件数据(日期,纬度,经度)对它进行了分类,从而可以很好地估计在特定日期,特定地点的特定时间发生风险的可能性。 我想知道,预测稀有事件的方法/算法是什么? 您如何建议您解决此问题?

4
Python中的主成分分析和回归
我试图找出如何在Python中重现我在SAS中所做的一些工作。使用这个存在多重共线性问题的数据集,我想在Python中执行主成分分析。我看过scikit-learn和statsmodels,但是我不确定如何获取它们的输出并将其转换为与SAS相同的结果结构。一方面,当您使用时,SAS似乎在相关矩阵上执行PCA PROC PRINCOMP,但是大多数(全部?)Python库似乎都在使用SVD。 在数据集中,第一列是响应变量,接下来的5个是预测变量,称为pred1-pred5。 在SAS中,常规工作流程为: /* Get the PCs */ proc princomp data=indata out=pcdata; var pred1 pred2 pred3 pred4 pred5; run; /* Standardize the response variable */ proc standard data=pcdata mean=0 std=1 out=pcdata2; var response; run; /* Compare some models */ proc reg data=pcdata2; Reg: model response = pred1 pred2 …

2
将PCA应用于测试数据以进行分类
我最近了解了出色的PCA,并完成了scikit-learn文档中概述的示例。 我想知道如何将PCA应用于新数据点以进行分类。 在二维平面(x,y轴)上可视化PCA之后,我看到我可能可以画一条线来分隔数据点,以便一侧将属于一种分类,而另一侧则属于另一种分类。如何绘制此“边界”并将其应用于新数据点?


2
多类分类中的Scikit SVM输出始终给出相同的标签
我目前正在使用带有以下代码的Scikit学习: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') 然后用7个不同的标签拟合并预测一组数据。我得到了一个奇怪的输出。无论我在验证集上使用预测的标签是哪种交叉验证技术,始终都是标签7。 我尝试了其他一些参数,包括完整的默认参数one(svm.SVC()),但是只要我使用的内核方法rbf代替,poly否则linear它将无法工作,而对于polyand 来说确实很好linear。 此外,我已经尝试对火车数据而不是验证数据进行预测,它非常适合。 有人以前见过这种问题,知道这里发生了什么吗? 我从不详细查看我的班级分布,但我知道应该有30%左右是7、14%是4。 我什至尝试手动进行1-vs-rest实施,但仍然没有帮助。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


2
调整后的兰德指数与调整后的共同信息
我正在尝试评估集群性能。我正在阅读有关metrics的skiscit-learn文档。我不了解ARI和AMI之间的区别。在我看来,他们以两种不同的方式做同样的事情。 从文档中引用: 有了基本实况类分配labels_true和我们的相同样本labels_pred的聚类算法分配的知识,调整后的兰德指数就可以衡量两个分配的相似性,而无需考虑排列和机会归一化。 与 在了解了基本事实类分配labels_true和我们的相同样本labels_pred的聚类算法分配的知识后,互信息是一个函数,用于测量两个分配的一致性,而忽略排列... AMI是最近提出的,并针对机会。 我应该在聚类评估中同时使用它们吗?还是多余?

3
使用scikit Learn选择功能后识别过滤的功能
这是我的Python 功能选择方法代码: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) 但是在获得新的X(因变量-X_new)之后,我如何知道在此新的更新变量中删除了哪些变量以及考虑了哪些变量?(已删除的一个或数据中存在的三个。) 获得此标识的原因是对新的测试数据应用相同的过滤。

2
嵌套交叉验证的实现
我试图弄清楚我对嵌套交叉验证的理解是否正确,因此我写了这个玩具示例来看看我是否正确: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X = boston.data y = boston.target outer_scores = [] # outer cross-validation outer = cross_validation.KFold(len(y), n_folds=3, shuffle=True, …

1
随机森林能否比MNIST上的2.8%测试误差好得多?
我还没有发现在随机森林的应用MNIST,CIFAR,STL-10等任何文学,所以我想我会尝试将其与排列不变 MNIST自己。 在R中,我尝试: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) 运行了2个小时,测试错误为2.8%。 我也试过scikit学习,与 RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) 70分钟后,我得到了2.9%的测试错误,但是当n_estimators = 200时,仅7分钟后我得到了2.8%的测试错误。 使用OpenCV,我尝试了 rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) 运行了6.5分钟,rf用于预测给出了15%的测试误差。我不知道它训练了多少棵树,因为它们对Random Forests的Python绑定似乎忽略了该params参数,至少在版本2.3.1中如此。我也无法弄清楚如何讲清楚OpenCV的,我想解决一个分类问题,而不是回归-我有我的怀疑,因为替换astype('int')用astype('float32')的结果相同。 在神经网络中,对于不变排列的 MNIST基准,目前的技术水平是0.8%的测试错误,尽管在一个CPU上训练可能要花费2个小时以上。 是否有可能比使用随机森林的MNIST上的2.8%测试错误好得多?我认为普遍的共识是随机森林通常至少与内核SVM一样好,我相信它可以得到1.4%的测试错误。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.