机器学习 API 总结

wang 发布于 2024-11-25 2898 次阅读


简易版

类别API 名称用途
数据处理与划分train_test_split将数据集划分为训练集和测试集
模型评估指标StandardScaler特征标准化(均值为 0,标准差为 1)
classification_report生成分类模型的精确率、召回率、F1 分数等指标
accuracy_score计算分类准确率
roc_auc_score计算 ROC 曲线下面积(用于二分类)
mean_squared_error计算均方误差(回归任务)
mean_absolute_error计算平均绝对误差(回归任务)
线性模型LogisticRegression逻辑回归(二分类 / 多分类)
Ridge岭回归(L2 正则化的线性回归)
LassoLasso 回归(L1 正则化的线性回归)
树模型与集成学习DecisionTreeClassifier决策树分类器
RandomForestClassifier随机森林分类器
GradientBoostingClassifier (GBDT)梯度提升决策树(需导入from sklearn.ensemble import GradientBoostingClassifier)
XGBClassifier (XGBoost)XGBoost 分类器(需单独安装xgboost库)
概率模型GaussianNB (朴素贝叶斯)高斯朴素贝叶斯分类器(需导入from sklearn.naive_bayes import GaussianNB)
支持向量机SVC (SVM)支持向量分类器(需导入from sklearn.svm import SVC)
聚类算法KMeansK-means 聚类(需导入from sklearn.cluster import KMeans)
特征降维PCA主成分分析(需导入from sklearn.decomposition import PCA)
模型选择工具GridSearchCV网格搜索超参数优化
数据结构pandas, numpy数据处理与分析的基础库

完全版

类型名称sklearn 来源包核心函数 / 类关键参数简要说明
模型评估训练测试集划分sklearn.model_selectiontrain_test_split()test_size: 测试集比例
random_state: 随机种子
stratify: 按标签分层
将数据集分割为训练集和测试集
标准化sklearn.preprocessingStandardScaler()with_mean: 是否中心化
with_std: 是否标准化
特征标准化(均值 0,方差 1)
分类报告sklearn.metricsclassification_report()y_true: 真实标签
y_pred: 预测标签
生成精确率、召回率、F1 分数等分类指标
准确率accuracy_score()计算分类准确率
ROC 曲线下面积roc_auc_score()计算 ROC 曲线下面积(用于二分类)
均方误差mean_squared_error()计算回归任务的均方误差
平均绝对误差mean_absolute_error()计算回归任务的平均绝对误差
线性模型Logistic 回归sklearn.linear_modelLogisticRegression()penalty: L1/L2 正则化
C: 正则化强度倒数
solver: 优化算法选择
二分类或多分类(通过 softmax)
Ridge 回归Ridge()alpha: 正则化强度
solver: 求解器类型
L2 正则化的线性回归
Lasso 回归Lasso()alpha: 正则化强度
max_iter: 最大迭代次数
L1 正则化的线性回归(支持特征选择)
树模型决策树sklearn.treeDecisionTreeClassifier()criterion: gini/entropy
max_depth: 树的最大深度
基于特征进行递归划分的分类器
集成学习随机森林sklearn.ensembleRandomForestClassifier()n_estimators: 树的数量
max_features: 最大特征数
集成多棵决策树的分类器
GBDTGradientBoostingClassifier()learning_rate: 学习率
n_estimators: 迭代次数
梯度提升决策树
XGBoostfrom xgboost(需单独安装)XGBClassifier()objective: 目标函数
learning_rate: 学习率
n_estimators: 树的数量
高效梯度提升框架
概率模型高斯朴素贝叶斯sklearn.naive_bayesGaussianNB()priors: 先验概率基于贝叶斯定理的概率分类器
支持向量机SVMsklearn.svmSVC()kernel: 核函数类型 (linear/rbf/poly)
C: 惩罚系数
gamma: 核系数
支持向量分类器
聚类算法K-meanssklearn.clusterKMeans()n_clusters: 聚类数
init: 初始化方法 (k-means++/random)
基于距离的聚类算法
特征降维PCAsklearn.decompositionPCA()n_components: 主成分数量
svd_solver: 求解器类型
无监督特征降维(主成分分析)
模型选择网格搜索sklearn.model_selectionGridSearchCV()estimator: 模型
param_grid: 参数网格
cv: 交叉验证折数
超参数优化(穷举搜索)
数据处理库pandaspandas数据结构和分析工具(DataFrame、Series)
numpynumpy科学计算基础库(数组、矩阵运算)

一名热爱海贼的AI开发者
最后更新于 2025-12-13