Questions tagged «predictive-modeling»

用于预测结果的统计技术。

8
为什么过度拟合对机器学习不利?
逻辑经常指出,通过过度拟合模型,模型的概括能力受到限制,尽管这仅意味着过度拟合会阻止模型在经过一定复杂度后得以改进。无论数据的复杂性如何,过度拟合都会导致模型变得更糟,如果是,为什么会这样呢? 相关:对以上问题的跟踪: “ 何时模型不足? ”

4
如果有新的观察结果,是否应该对模型进行重新训练?
因此,我尚未找到有关此主题的任何文献,但似乎值得深思: 如果有新的观察结果,那么模型训练和优化的最佳实践是什么? 在预测开始下降之前,有什么方法可以确定重新训练模型的周期/频率吗? 如果针对聚合数据重新优化参数,是否过度拟合? 注意,学习不一定是在线的。在最近的预测中观察到重大差异后,不妨升级现有模型。

1
使用LSTM进行时间序列预测:使时间序列平稳的重要性
在关于平稳性和差分的链接中,已经提到诸如ARIMA之类的模型需要平稳的时间序列进行预测,因为其统计特性(例如均值,方差,自相关等)随时间是恒定的。由于RNN具有更好的学习非线性关系的能力(如此处给出:用于时间序列预测的递归神经网络),并且在数据量较大时,其性能要优于传统的时间序列模型,因此了解平稳性至关重要数据会影响其结果。我需要知道答案的问题如下: 对于传统的时间序列预测模型,时间序列数据的平稳性使其更易于预测,原因和方式如何? 在使用LSTM建立时间序列预测模型的同时,使时间序列数据平稳是否重要?如果是这样,那为什么呢?

2
使用Word2vec模型预测单词
给出一个句子:“当我打开??门时,它会自动开始加热” 我想获得??中可能的单词的列表 很有可能。 word2vec模型中使用的基本概念是根据周围环境“预测”单词。 一旦建立模型,什么是正确的上下文向量运算以对新句子执行我的预测任务? 它仅仅是线性和吗? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
在机器学习中合并稀疏和密集的数据以提高性能
我有可预测的稀疏特征,也有一些也可预测的密集特征。我需要将这些功能结合在一起,以提高分类器的整体性能。 现在,当我尝试将它们组合在一起时,稠密特征往往比稀疏特征更占主导地位,因此与仅具有稠密特征的模型相比,AUC仅改善了1%。 有人遇到过类似的问题吗?非常感谢您的投入,有点卡住。我已经尝试了许多不同的分类器,分类器的组合,特征转换以及使用不同算法的处理。 先谢谢您的帮助。 编辑: 我已经尝试了评论中给出的建议。我观察到的是,对于几乎45%的数据,稀疏特征的性能确实很好,只有稀疏特征的AUC约为0.9,而对于其余稠密特征,AUC约为0.75的性能很好。我尝试将这些数据集分离出来,但得到的AUC为0.6,因此,我不能简单地训练模型并确定要使用的功能。 关于代码段,我已经尝试了很多东西,以至于我不确定要分享什么:(

3
如何预测xgboost的概率?
下面的预测函数也给出-ve值,因此它不可能是概率。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 我用谷歌搜索,pred_s <- predict(bst, x_mat_s2,type="response") 但没有成功。 题 如何预测概率呢?


1
哈希技巧-实际发生了什么
当ML算法(例如Vowpal Wabbit或某些因式分解机器赢得点击率竞争(Kaggle))提到功能“散乱”时,这实际上对模型意味着什么?可以说有一个变量表示互联网添加的ID,该变量采用诸如“ 236BG231”之类的值。然后,我了解到此功能已哈希为一个随机整数。但是,我的问题是: 是模型中现在使用的整数,是整数(数字)或 哈希值是否仍然仍然像分类变量一样被一键编码?因此,哈希技巧只是为了以某种方式节省大数据的空间?

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


3
回归树可以连续预测吗?
假设我有一个平滑函数,如。我有一个训练集d ⊊ { ((X ,Y ^ ),˚F (X ,Y ^ ))| (X ,Y ^ )∈ [R 2 },当然,我不知道˚F虽然我可以评估˚F地方我想要的。F(x ,y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回归树是否能够找到函数的平滑模型(因此,输入中的微小变化只应该导致输出中的微小变化)? 根据我在第10课:回归树中所读的内容,在我看来,回归树基本上将函数值放入了bin中: 对于经典回归树,每个像元中的模型只是Y的恒定估计值。 当他们写“经典”时,我猜有一个变体,其中的细胞做一些更有趣的事情?

3
KS,AUROC和Gini之间的关系
诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!

3
在多党系统中使用什么回归来计算选举结果?
我想对议会选举的结果作出预测。我的输出将是每一方收到的百分比。有超过2个参与方,因此逻辑回归不是可行的选择。我可以为每个参与方进行单独的回归,但在那种情况下,结果将在某种程度上彼此独立。它不能确保结果的总和为100%。 我应该使用哪种回归(或其他方法)?是否可以通过特定的库在R或Python中使用此方法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.