Questions tagged «decision-trees»

决策树是一种决策支持工具,它使用树状决策图或模型及其可能的后果,包括偶然事件结果,资源成本和效用。这是显示算法的一种方式。


6
字符串作为决策树/随机森林中的特征
我在决策树/随机森林的应用程序上遇到了一些问题。我正在尝试解决一个以数字和字符串(例如国家/地区名称)为特征的问题。现在的库scikit-learn仅将数字作为参数,但是我想注入字符串,因为它们具有大量的知识。 如何处理这种情况? 我可以通过某种机制将字符串转换为数字,例如Python中的哈希。但是我想知道有关如何在决策树问题中处理字符串的最佳实践。



5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
如何预测xgboost的概率?
下面的预测函数也给出-ve值,因此它不可能是概率。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 我用谷歌搜索,pred_s <- predict(bst, x_mat_s2,type="response") 但没有成功。 题 如何预测概率呢?

1
如何为决策树中的连续变量选择分割点?
我有两个与决策树有关的问题: 如果我们有一个连续的属性,我们如何选择分割值? 例如:年龄=(20,29,50,40 ....) 想象一下,我们有一个连续属性,其值在R中。我该如何写一个算法找到分裂点v,以便当我们将f除以v时,我们得到f > v的最小增益?fffRRRvvvfffvvvf>vf>vf>v

4
决策树与KNN
在哪种情况下最好使用决策树,而在其他情况下使用KNN? 为什么在某些情况下使用其中之一?还有其他情况不同吗?(通过查看其功能而不是算法) 有人对此有一些解释或参考吗?


1
梯度增强树可以满足任何功能吗?
对于神经网络,我们具有通用逼近定理,该定理指出神经网络可以逼近的紧子集上的任何连续函数。[RñRnR^n 梯度增强树有类似的结果吗?由于您可以继续添加更多分支,这似乎是合理的,但是我找不到关于该主题的任何正式讨论。 编辑:我的问题似乎非常类似于 回归树可以连续预测吗?,尽管可能不会问完全相同的问题。但是请参阅该问题进行相关讨论。

1
决策树:逐叶(最佳优先)和逐层树遍历
问题1: 我对LightGBM对树的扩展方式的描述感到困惑。 他们声明: 大多数决策树学习算法都是按级别(深度)逐级增长树,如下图所示: 问题1:哪种“最多”算法以这种方式实现?据我所知C4.5和CART使用DFS。XGBoost使用BFS。哪些其他算法或软件包将BFS用于决策树? 问题2: LightGBM指出: LightGBM按叶子方向(最佳优先)生长树,它将选择具有最大delta损失的叶子进行生长。当生长相同的叶子时,与逐级算法相比,逐叶算法可以减少更多的损失。 问题2:说水平生长树的所有叶子具有相同的深度是否正确? 问题3:如果问题2不正确,则遍历结束时(不进行修剪等),从水平和叶子方向生长的树将看起来相同。这是正确的说法吗? 问题4:如果问题3是正确的,“叶级算法比级算法可以减少更多的损失”怎么办?它与修剪后的算法有关吗?

1
XGBRegressor与xgboost.train的巨大速度差异?
如果我使用以下代码训练模型: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 它会在大约1分钟内完成。 如果我使用Sci-Kit学习方法训练模型: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

3
班级不平衡-如何最大程度地减少误报?
我有一个具有二进制类属性的数据集。有623个类别为+1的实例(癌症阳性)和101,671个实例为-1的实例(癌症阴性)。 我尝试了各种算法(朴素贝叶斯,随机森林,AODE,C4.5),并且所有算法都有不可接受的假负比率。随机森林具有最高的总体预测准确度(99.5%)和最低的假阴性率,但仍错过了79%的阳性分类(即未能检测到79%的恶性肿瘤)。 有什么想法可以改善这种情况吗? 谢谢!

3
回归树可以连续预测吗?
假设我有一个平滑函数,如。我有一个训练集d ⊊ { ((X ,Y ^ ),˚F (X ,Y ^ ))| (X ,Y ^ )∈ [R 2 },当然,我不知道˚F虽然我可以评估˚F地方我想要的。F(x ,y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回归树是否能够找到函数的平滑模型(因此,输入中的微小变化只应该导致输出中的微小变化)? 根据我在第10课:回归树中所读的内容,在我看来,回归树基本上将函数值放入了bin中: 对于经典回归树,每个像元中的模型只是Y的恒定估计值。 当他们写“经典”时,我猜有一个变体,其中的细胞做一些更有趣的事情?

2
如何规范化神经网络和决策林的数据
我有一个包含20000个样本的数据集,每个样本都有12种不同的功能。每个样本都在类别0或1中。我想训练一个神经网络和一个决策林来对样本进行分类,以便我可以比较结果和这两种技术。 我偶然发现的第一件事是数据的正确规范化。一个特征是在范围,另外一个在[ 30 ,40 ]和有一个特点,大多采用值8和有时7.因此,正如我在不同的来源读取,输入数据的适当的归一化对于神经网络至关重要。我发现,有许多可能的方法可以对数据进行规范化,例如:[0,106][0,106][0,10^6][30,40][30,40][30,40] 最小-最大归一化:输入范围被线性变换到间隔(或可替代[ - 1 ,1 ],关系?)[0,1][0,1][0,1][−1,1][−1,1][-1,1] Z-分数标准化:该数据被变换为具有零均值和单位方差: ynew=yold−meanVar−−−√ynew=yold−meanVary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} 我应该选择哪种归一化?决策林是否也需要规范化?通过Z-Score归一化,我的测试数据的不同功能不在同一范围内。这可能是个问题吗?是否应该使用相同的算法对每个功能进行归一化,以便我决定对所有功能使用Min-Max还是对所有功能使用Z-Score? 是否有组合,其中数据被映射到,并且还具有零平均值(这将意味着该数据的非线性变换,并因此在方差和输入数据的其他特征的改变)。[−1,1][−1,1][-1,1] 我感到有点迷茫,因为我找不到可以回答这些问题的参考资料。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.