数据科学 kaggle

3

我正在参加kaggle比赛。数据集包含约100个要素，所有要素都是未知的（就其实际表示而言）。基本上，它们只是数字。人们正在对这些功能执行许多功能工程。我想知道一个人究竟能对未知的特征执行特征工程吗？有人可以帮助我理解这一点，以及一些有关如何对未知特征执行特征工程的提示吗？

19 machine-learning feature-selection feature-extraction feature-engineering kaggle

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

为什么我们将偏斜的数据转换为正态分布

我正在针对Kaggle（人类模拟的房价内核：高级回归技术）上的房价竞争解决方案，遇到了以下部分： # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下：为什么在这里这样做？或这有什么帮助？这与功能扩展有何不同？这是功能设计的必要步骤吗？如果我跳过此步骤，可能会发生什么？

15 regression feature-extraction feature-engineering kaggle feature-scaling

1

哈希技巧-实际发生了什么

当ML算法（例如Vowpal Wabbit或某些因式分解机器赢得点击率竞争（Kaggle））提到功能“散乱”时，这实际上对模型意味着什么？可以说有一个变量表示互联网添加的ID，该变量采用诸如“ 236BG231”之类的值。然后，我了解到此功能已哈希为一个随机整数。但是，我的问题是：是模型中现在使用的整数，是整数（数字）或哈希值是否仍然仍然像分类变量一样被一键编码？因此，哈希技巧只是为了以某种方式节省大数据的空间？

12 machine-learning predictive-modeling kaggle

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

当我的训练集中没有y负值时，为什么Gradient Boosting回归预测负值？

当我增加树木的数量在scikit学习的GradientBoostingRegressor，我得到更多的负面预测，即使在我的训练或测试组没有负值。我有大约10个功能，其中大多数是二进制的。我正在调整的一些参数是：树木/迭代次数；学习深度；和学习率。负值的百分比似乎最大约为2％。1（树桩）的学习深度似乎是负值的最大百分比。随着树木的增多和学习率的降低，这一百分比似乎也有所增加。该数据集来自kaggle游乐场比赛之一。我的代码是这样的： from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

8 machine-learning python algorithms scikit-learn kaggle

Questions tagged «kaggle»