Questions tagged «preprocessing»

2
如何为神经网络准备/增强图像?
我想使用神经网络进行图像分类。我将从训练有素的CaffeNet开始,然后为我的应用程序对其进行训练。 我应该如何准备输入图像? 在这种情况下,所有图像都属于同一物体,但具有变化(请考虑:质量控制)。它们的比例/分辨率/距离/照明条件略有不同(很多情况下我不知道比例)。同样,在每个图像中,目标对象周围都有一个区域(已知),网络应该忽略该区域。 我可以(例如)裁剪每个图像的中心,以确保其中包含感兴趣对象的一部分而没有忽略区域。但这似乎会浪费掉信息,而且结果的范围也不尽相同(可能是1.5倍的变化)。 数据集扩充 我听说过通过随机裁剪/镜像/等方式创建更多训练数据,是否有标准方法?它对分类器的准确性有何改善?

3
拆分数据前后的StandardScaler
当我阅读有关使用的内容时StandardScaler,大多数建议都说您应该在使用StandardScaler 之前将数据分成训练/测试,但是当我检查一些在线发布的代码(使用sklearn)时,有两个主要用途。 1-使用StandardScaler所有数据。例如 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) 要么 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) 或者简单地 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- StandardScaler在分割数据上使用。 from sklearn.preprocessing import StandardScaler sc = StandardScaler() …

4
不同的测试集和训练集分布
我正在参加一个数据科学比赛,其测试集的分布与训练集的分布不同。我想从与测试集非常相似的训练集中对观察结果进行子采样。 我怎样才能做到这一点?

3
CNN的图像大小调整和填充
我想训练CNN进行图像识别。用于训练的图像尺寸不固定。例如,我希望CNN的输入大小为50x100(高x宽)。当我将一些较小尺寸的图像(例如32x32)调整为输入尺寸时,图像的内容在水平方向上拉伸得太多,但是对于某些中等尺寸的图像而言,它看起来还不错。 在避免内容被破坏的同时调整图像大小的正确方法是什么? (我正在考虑将图像的大小调整到一定程度并保持宽度和高度的比率后,将图像以0s填充为完整大小。这种方法可以吗?)

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
如何使用匿名可缩放的数字预测变量来处理numer.ai竞争?
Numer.ai已经存在了一段时间,并且在网络上似乎只有很少的帖子或其他讨论。 系统不时更改,今天的设置如下: 训练(N = 96K)和测试(N = 33K)具有21个特征的数据,这些特征具有[0,1]中的连续值和二进制目标。 数据是干净的(无缺失值),每2周更新一次。您可以上传预测(在测试集上)并查看对数损失。测试数据的一部分甚至是实时数据,您都会获得良好预测的报酬。 我想讨论的是: 由于功能完全是匿名的,我认为我们无法进行太多的功能工程。所以我的方法很机械: 灵感来自于这个我使用的分类算法过滤掉哪些适合我的测试数据最好的训练数据。 找出一些不错的预处理 训练好的分类算法 建立他们的合奏(堆叠,..)。 具体问题: 关于步骤1:您有使用这种方法的经验吗?假设我对火车样本属于测试的概率(通常低于0.5)进行排序,然后取最大的K概率。您将如何选择K?我尝试使用15K ..但主要是为了在第3步中加快训练速度而设置了一个小的训练数据集。 关于步骤2:数据已经为0,1比例。如果我应用任何(类似于PCA的)线性变换,那么我将打破这一规模。如果您有这样的数值数据并且不知道实际上是什么,那么您将在预处理中尝试什么。 PS:我知道,因为numer.ai付钱给人们讨论这可以帮助我赚钱。但这是公开的,这将对那里的所有人有所帮助... PPS:当今的排行榜有一个有趣的模式:对数损失为0.64xx的前两名,然后是0.66xx的第三名,然后大多数预测指标达到0.6888x。 因此,似乎只有很小的顶尖领域,并且有很多中等成功的人(包括我)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.