Questions tagged «sampling»

4
噪声对比估计(NCE)损失的直观解释?
我从以下两个来源了解到NCE(一种候选抽样形式): Tensorflow写 原始纸 有人可以为我提供以下帮助: NCE的工作原理的简单说明(我发现上面的内容很难解析和理解,因此直观的方法可以很好地介绍此处的数学知识) 在上面的第1点之后,自然而然地描述了它与负采样有何不同。我可以看到公式略有变化,但无法理解数学。在以下情况下,我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本,V并仅对那些样本进行更新,因为它们|V|很大,因此可以加快速度。如果有误,请更正。 何时使用哪一个,如何决定?如果您可以包括示例(可能易于理解的应用程序),那就太好了。 NCE比负采样好吗?哪种方式更好? 谢谢。

2
train_test_split()错误:发现输入变量的样本数不一致
对Python来说是相当新的东西,但是基于一些分类数据建立了我的第一个RF模型。我已经将所有标签转换为int64数字数据,并以numpy数组的形式加载到X和Y中,但是在尝试训练模型时遇到错误。 这是我的数组的样子: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

1
是否需要分层抽样(随机森林,Python)?
我使用Python在不平衡的数据集上运行随机森林模型(目标变量是一个二进制类)。在拆分训练和测试数据集时,我很难避免是否使用分层抽样(如所示的代码)。到目前为止,我在项目中观察到分层案例将导致更高的模型性能。但是我认为,如果我将使用我的模型来预测新案例,那么新案例的目标类与当前数据集的分布很可能会有所不同。因此,我倾向于放宽此限制,并使用未分层的拆分。任何人都可以建议以澄清这一点吗? train,test=train_test_split(myDataset, test_size=0.25, stratify=y)

1
使用随机森林采样多少个特征
引用“统计学习的要素”的维基百科页面显示: 通常,对于具有特征的分类问题 ,每个分割中都使用特征。⌊ √ppp⌊ p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 我知道这是一个相当有根据的猜测,并且可能已得到经验证据的证实,但是还有其他原因导致人们选择平方根吗?那里有统计现象吗? 这是否有助于减少误差的方差? 回归和分类是否相同?

3
对于不平衡的类,我是否必须在验证/测试数据集上使用欠采样?
我是机器学习的初学者,正面临一种情况。我正在处理IPinYou数据集的实时出价问题,并且正在尝试进行点击预测。 事实是,您可能知道,数据集非常不平衡:大约1300个否定示例(非点击)中有1个肯定示例(点击)。 这是我的工作: 加载数据 将数据集分为3个数据集:A =训练(60%)B =验证(20%)C =测试(20%) 对于每个数据集(A,B,C),对每个负分类进行欠采样,以使比率为5(1个正样本的5个负样本)。这给了我3个更加平衡的新数据集:A'B'C' 然后,我用数据集A'和逻辑回归训练模型。 我的问题是: 我必须使用哪个数据集进行验证?B还是B'? 我必须使用哪个数据集进行测试?C或C' 哪些指标与评估我的模型最相关?F1Score似乎是一个很好使用的指标。但是这里由于类的不平衡(如果我使用数据集B和C),精度较低(低于0.20),F1Score受较低的召回率/精度的影响很大。使用aucPR或aucROC会更准确吗? 如果要绘制学习曲线,应该使用哪些指标?(知道如果我使用B'数据集进行验证,则%error与错误无关) 在此先感谢您的时间 ! 问候。

2
为什么我们需要处理数据不平衡?
我需要知道为什么我们需要处理数据不平衡问题。我知道如何处理它以及通过上采样或下采样或使用Smote来解决该问题的不同方法。 例如,如果我患一种罕见疾病,即100分之一,而我决定为我的训练集选择一个平衡的数据集,即:50/50样本不会使机器认为50%的患者会疾病?即使比率是100的1。所以 为什么我们需要处理数据不平衡问题? 设定余额的建议比率是多少

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
我们什么时候应该认为数据集不平衡?
我面临的情况是数据集中正例和负例的数量不平衡。 我的问题是,是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样,以便在数据集中实施某种平衡。 例子: 如果正面示例的数量是1,000,负面示例的数量是10,000,我应该在整个数据集中训练分类器,还是应该对负面示例进行二次抽样? 1,000个肯定示例和100,000个否定示例的相同问题。 10,000个正数和1,000个负数的相同问题。 等等...

2
交叉验证:K折与重复随机子采样
我想知道针对分类问题选择哪种类型的模型交叉验证:K折或随机子采样(引导采样)? 我最好的猜测是使用数据集的2/3(约1000个项目)进行训练,并使用1/3进行验证。 在这种情况下,K折仅给出三个迭代(折),这不足以看到稳定的平均误差。 另一方面,我不喜欢随机子采样功能:有些项目永远不会被选择进行训练/验证,而有些项目会被多次使用。 使用的分类算法:随机森林和逻辑回归。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.