数据科学 feature-scaling

3

我正在阅读有关OTTO Kaggle挑战的解决方案，并且第一位的解决方案似乎对输入数据X使用了多种转换，例如Log（X + 1），sqrt（X + 3/8）等。关于何时对各种分类器应用哪种类型的转换的一般指南？我确实了解均值-均值和最小-最大归一化的概念。但是，对于上述转换，我的猜测是使用Log和Sqrt来压缩数据的动态范围。x轴偏移只是为了更新数据。但是，当输入不同的分类器时，作者选择对同一输入X使用不同的归一化方法。有任何想法吗？

22 machine-learning feature-extraction feature-scaling

3

转换循环序数属性的好方法是什么？

我将“小时”字段作为属性，但是它具有循环值。我如何转换功能以保留诸如“ 23”和“ 0”小时之类的信息，距离不远。我认为的一种方法是进行转换： min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 11 10 9 8 7 6 …

21 feature-extraction feature-scaling featurization

1

一个热向量应该用数值属性缩放吗

在具有分类属性和数字属性的组合的情况下，我通常将分类属性转换为一个热向量。我的问题是我应该保留这些向量不变，并通过标准化/归一化来缩放数字属性，还是应该将一个热向量与数字属性一起缩放？

20 feature-engineering feature-scaling data-science-model

1

处理经度/纬度特征的方法

已关闭。这个问题需要细节或说明。它当前不接受答案。想改善这个问题吗？添加详细信息并通过编辑此帖子来澄清问题。 3年前关闭。我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度，其他功能是pH值，海拔高度，windSpeed等变化范围的功能。我可以对其他要素进行归一化，但是如何处理纬度/经度要素？编辑：这是预测农业产量的问题。我认为纬度/经度非常重要，因为位置在预测中至关重要，因此造成了困境。

19 machine-learning python feature-engineering feature-scaling normalization

3

为什么我们将偏斜的数据转换为正态分布

我正在针对Kaggle（人类模拟的房价内核：高级回归技术）上的房价竞争解决方案，遇到了以下部分： # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下：为什么在这里这样做？或这有什么帮助？这与功能扩展有何不同？这是功能设计的必要步骤吗？如果我跳过此步骤，可能会发生什么？

15 regression feature-extraction feature-engineering kaggle feature-scaling

4

如何缩放有符号整数数组的范围从0到1？

我正在使用Brain在包含正值和负值的功能集上训练神经网络。但是Brain需要0到1之间的输入值。什么是标准化我的数据的最佳方法？

14 machine-learning neural-network feature-scaling normalization javascript

2

特征缩放的后果

我目前正在使用SVM，并将训练功能扩展到[0,1]的范围。我首先调整/变换训练集，然后将相同的变换应用于测试集。例如： ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) 假设训练集中的给定特征的范围为[0,100]，而测试集中的相同特征的范围为[-10,120]。在训练集中，该特征将被适当地缩放为[0,1]，而在测试集中，该特征将被缩放到最初指定的范围之外的范围，例如[-0.1,1.2]。我想知道测试集功能超出用于训练模型的功能范围会带来什么后果？这有问题吗？

11 machine-learning svm feature-scaling

2

线性回归和数据缩放

下图显示了通过线性回归获得的系数（以mpg作为目标变量，所有其他作为预测变量）。对于mtcars数据集（此处和此处），无论是否缩放数据：如何解释这些结果？仅当数据缩放后，变量hp和disp才有意义。是am和qsec同样重要或am比数量更为重要qsec？一个人应该说哪个变量是重要的决定因素mpg？感谢您的见解。

10 feature-selection linear-regression feature-scaling

3

零均值和单位方差

我正在研究数据扩展，尤其是标准化方法。我已经了解了其背后的数学原理，但是我不清楚为什么赋予特征零均值和单位方差很重要。你能解释一下吗？

10 machine-learning feature-scaling normalization

Questions tagged «feature-scaling»