sklearn-RandomForest
[toc]
Bagging
以K近邻作为基学习器
1 | from sklearn.ensemble import BaggingClassifier |
2 | from sklearn.neighbors import KNeighborsClassifier |
3 | bagging=BaggingClassifier(KNeighborsClassifier(),max_samples=0.6,max_features=0.6) |
4 | bagging.fit(X_train,y_train) |
5 | y_pred=bagging.predict(X_test) |
随机森林RF
随机森林基于CART实现,有分类模型和回归模型
1 | class sklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',oob_score=False,max_features='auto',max_depth=None,max_leaf_nodes=None,min_samples_split=2,min_impurity_split=1e-07,min_samples_leaf=1,class_weight=None,n_jobs=1) |
2 | |
3 | class sklearn.ensemble.RandomForestRegressor(n_estimators=10,criterion='mse',oob_score=False,max_features='auto',max_depth=None,max_leaf_nodes=None,min_samples_split=2,min_impurity_split=1e-07,min_samples_leaf=1,n_jobs=1) |
参数
参数调节包括两部分参数,Bagging参数和CART决策树参数n_estimators
基学习器的最大迭代次数criterion
特征划分时的评价标准
分类器
gini基尼系数
entropy信息增益
回归器
mse 均方误差
mae 绝对误差oob_score
是否采用袋外样本评估模型好坏max_features
划分时考虑的最大特征数max_depth
决策树的最大深度max_leaf_nodes
最大叶子节点数min_samples_split
内部节点在划分时所需的最小样本数min_impurity_split
节点划分的最小不纯度min_samples_leaf
叶子节点最小样本数class_weight
样本所属权重的类别n_jobs
CPU核数
属性
feature_importances_
给出各个特征的重要程度estimators_
存放各个训练好的基学习器情况列表n_features_
模型训练好时使用的特征数目n_outputs_
模型训练好后输出的数目oob_score_
模型训练好后使用训练集袋外样本验证得到的分数oob-predicition_
训练好的模型对训练集袋外样本预测的结果
方法
apply(X)
获取样本X中各个样本在集成模型的各基学习器中叶子节点位置信息fit(X_train,y_train)
score(X_test,y_test)
predict(X)
predict_proba(X)
predict_log_proba(X)
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 jaytp@qq.com
文章标题:sklearn-RandomForest
本文作者:Espresso
发布时间:2019-12-05, 16:22:37
最后更新:2019-12-05, 16:52:05
原始链接:http://yoursite.com/2019/12/05/sklearn-RandomForest/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。