程序设计 dummy-variable

如果我在回归中使用二进制解释变量，如何告诉R使用某个级别作为参考？默认情况下，它仅使用某个级别。 lm(x ~ y + as.factor(b)) 与b {0, 1, 2, 3, 4}。假设我要使用3而不是R使用的零。

112 r regression linear-regression categorical-data dummy-variable

get_dummies（Pandas）和OneHotEncoder（Scikit-learn）之间的优缺点是什么？

我正在学习将机器学习分类器将分类变量转换为数字的不同方法。我遇到了这种pd.get_dummies方法，sklearn.preprocessing.OneHotEncoder()我想看看它们在性能和用法上有何不同。我发现关于如何使用教程OneHotEncoder()上https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/自该sklearn文档对该功能的帮助不是很大。我有一种感觉，我做得不正确...但是有人能解释一下使用pd.dummiesover的利弊sklearn.preprocessing.OneHotEncoder()吗？我知道这OneHotEncoder()为您提供了一个稀疏矩阵，但除此之外，我不确定该如何使用以及该pandas方法有什么好处。我使用效率低下吗？ import pandas as pd import numpy as np from sklearn.datasets import load_iris sns.set() %matplotlib inline #Iris Plot iris = load_iris() n_samples, m_features = iris.data.shape #Load Data X, y = iris.data, iris.target D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names)) DF_data = pd.DataFrame(X,columns=iris.feature_names) DF_data["target"] = pd.Series(y).map(D_target_dummy) #sepal length (cm) sepal width (cm) …

83 python pandas machine-learning scikit-learn dummy-variable

Questions tagged «dummy-variable»