Questions tagged «model-selection»

4
关于功能数量与实例数量的任何“经验法则”吗?(小数据集)
我想知道,在特征数量与观察数量之间是否有启发式方法?显然,如果特征数量等于观测值数量,则模型将过拟合。通过使用稀疏方法(LASSO,弹性网),我们可以删除一些特征以简化模型。 我的问题是(理论上):在我们使用度量来评估模型选择之前,是否存在将最佳特征数量与观察数量相关联的经验观察? 例如:对于每个类中有20个实例的二进制分类问题,要使用的特征数量是否有上限?

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
如何比较特征选择方法的性能?
有几种特征选择 /变量选择方法(例如,参见Guyon&Elisseeff,2003;Liu等,2010): 过滤器方法(例如,基于相关性,基于熵,基于随机森林重要性), 包装器方法(例如,前向搜索,爬山搜索)和 特征选择是模型学习的一部分的嵌入式方法。 机器学习工具(例如R,Python等)也实现了许多已发布的算法。 比较不同的特征选择算法并为给定问题/数据集选择最佳方法的合适方法是什么?另一个问题是,是否存在已知的衡量特征选择算法性能的指标?

2
科学家如何提出使用正确的隐马尔可夫模型参数和拓扑?
我了解如何在基因组序列(例如寻找基因)中使用隐马尔可夫模型。但是我不明白如何提出一个特定的马尔可夫模型。我的意思是,模型应具有多少个状态?有多少种可能的过渡?模型应该有一个循环吗? 他们怎么知道他们的模型是最优的? 他们是否想像出10种不同的模型,对这10种模型进行基准测试并发布最佳模型?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.