Questions tagged «feature-scaling»

特征缩放是数据预处理步骤,其中变量值的范围是标准化的。数据集的标准化是许多机器学习算法的普遍要求。流行的特征缩放类型包括缩放数据以使其均值和单位方差为零,以及在给定的最小值和最大值之间缩放数据。

3
输入数据的特征转换
我正在阅读有关OTTO Kaggle挑战的解决方案,并且第一位的解决方案似乎对输入数据X使用了多种转换,例如Log(X + 1),sqrt(X + 3/8)等。关于何时对各种分类器应用哪种类型的转换的一般指南? 我确实了解均值-均值和最小-最大归一化的概念。但是,对于上述转换,我的猜测是使用Log和Sqrt来压缩数据的动态范围。x轴偏移只是为了更新数据。但是,当输入不同的分类器时,作者选择对同一输入X使用不同的归一化方法。有任何想法吗?



1
处理经度/纬度特征的方法
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加详细信息并通过编辑此帖子来澄清问题。 3年前关闭。 我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度,其他功能是pH值,海拔高度,windSpeed等变化范围的功能。我可以对其他要素进行归一化,但是如何处理纬度/经度要素? 编辑:这是预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此造成了困境。

3
为什么我们将偏斜的数据转换为正态分布
我正在针对Kaggle(人类模拟的房价内核:高级回归技术)上的房价竞争解决方案,遇到了以下部分: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下: 为什么在这里这样做?或这有什么帮助? 这与功能扩展有何不同? 这是功能设计的必要步骤吗?如果我跳过此步骤,可能会发生什么?


2
特征缩放的后果
我目前正在使用SVM,并将训练功能扩展到[0,1]的范围。我首先调整/变换训练集,然后将相同的变换应用于测试集。例如: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) 假设训练集中的给定特征的范围为[0,100],而测试集中的相同特征的范围为[-10,120]。在训练集中,该特征将被适当地缩放为[0,1],而在测试集中,该特征将被缩放到最初指定的范围之外的范围,例如[-0.1,1.2]。 我想知道测试集功能超出用于训练模型的功能范围会带来什么后果?这有问题吗?

2
线性回归和数据缩放
下图显示了通过线性回归获得的系数(以mpg作为目标变量,所有其他作为预测变量)。 对于mtcars数据集(此处和此处),无论是否缩放数据: 如何解释这些结果?仅当数据缩放后,变量hp和disp才有意义。是am和qsec同样重要或am比数量更为重要qsec?一个人应该说哪个变量是重要的决定因素mpg? 感谢您的见解。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.