简易版
| 类别 | API 名称 | 用途 |
| 数据处理与划分 | train_test_split | 将数据集划分为训练集和测试集 |
| 模型评估指标 | StandardScaler | 特征标准化(均值为 0,标准差为 1) |
| classification_report | 生成分类模型的精确率、召回率、F1 分数等指标 | |
| accuracy_score | 计算分类准确率 | |
| roc_auc_score | 计算 ROC 曲线下面积(用于二分类) | |
| mean_squared_error | 计算均方误差(回归任务) | |
| mean_absolute_error | 计算平均绝对误差(回归任务) | |
| 线性模型 | LogisticRegression | 逻辑回归(二分类 / 多分类) |
| Ridge | 岭回归(L2 正则化的线性回归) | |
| Lasso | Lasso 回归(L1 正则化的线性回归) | |
| 树模型与集成学习 | DecisionTreeClassifier | 决策树分类器 |
| RandomForestClassifier | 随机森林分类器 | |
| GradientBoostingClassifier (GBDT) | 梯度提升决策树(需导入from sklearn.ensemble import GradientBoostingClassifier) | |
| XGBClassifier (XGBoost) | XGBoost 分类器(需单独安装xgboost库) | |
| 概率模型 | GaussianNB (朴素贝叶斯) | 高斯朴素贝叶斯分类器(需导入from sklearn.naive_bayes import GaussianNB) |
| 支持向量机 | SVC (SVM) | 支持向量分类器(需导入from sklearn.svm import SVC) |
| 聚类算法 | KMeans | K-means 聚类(需导入from sklearn.cluster import KMeans) |
| 特征降维 | PCA | 主成分分析(需导入from sklearn.decomposition import PCA) |
| 模型选择工具 | GridSearchCV | 网格搜索超参数优化 |
| 数据结构 | pandas, numpy | 数据处理与分析的基础库 |
完全版
| 类型 | 名称 | sklearn 来源包 | 核心函数 / 类 | 关键参数 | 简要说明 |
| 模型评估 | 训练测试集划分 | sklearn.model_selection | train_test_split() | test_size: 测试集比例 random_state: 随机种子 stratify: 按标签分层 | 将数据集分割为训练集和测试集 |
| 标准化 | sklearn.preprocessing | StandardScaler() | with_mean: 是否中心化 with_std: 是否标准化 | 特征标准化(均值 0,方差 1) | |
| 分类报告 | sklearn.metrics | classification_report() | y_true: 真实标签 y_pred: 预测标签 | 生成精确率、召回率、F1 分数等分类指标 | |
| 准确率 | accuracy_score() | 计算分类准确率 | |||
| ROC 曲线下面积 | roc_auc_score() | 计算 ROC 曲线下面积(用于二分类) | |||
| 均方误差 | mean_squared_error() | 计算回归任务的均方误差 | |||
| 平均绝对误差 | mean_absolute_error() | 计算回归任务的平均绝对误差 | |||
| 线性模型 | Logistic 回归 | sklearn.linear_model | LogisticRegression() | penalty: L1/L2 正则化 C: 正则化强度倒数 solver: 优化算法选择 | 二分类或多分类(通过 softmax) |
| Ridge 回归 | Ridge() | alpha: 正则化强度 solver: 求解器类型 | L2 正则化的线性回归 | ||
| Lasso 回归 | Lasso() | alpha: 正则化强度 max_iter: 最大迭代次数 | L1 正则化的线性回归(支持特征选择) | ||
| 树模型 | 决策树 | sklearn.tree | DecisionTreeClassifier() | criterion: gini/entropy max_depth: 树的最大深度 | 基于特征进行递归划分的分类器 |
| 集成学习 | 随机森林 | sklearn.ensemble | RandomForestClassifier() | n_estimators: 树的数量 max_features: 最大特征数 | 集成多棵决策树的分类器 |
| GBDT | GradientBoostingClassifier() | learning_rate: 学习率 n_estimators: 迭代次数 | 梯度提升决策树 | ||
| XGBoost | from xgboost(需单独安装) | XGBClassifier() | objective: 目标函数 learning_rate: 学习率 n_estimators: 树的数量 | 高效梯度提升框架 | |
| 概率模型 | 高斯朴素贝叶斯 | sklearn.naive_bayes | GaussianNB() | priors: 先验概率 | 基于贝叶斯定理的概率分类器 |
| 支持向量机 | SVM | sklearn.svm | SVC() | kernel: 核函数类型 (linear/rbf/poly) C: 惩罚系数 gamma: 核系数 | 支持向量分类器 |
| 聚类算法 | K-means | sklearn.cluster | KMeans() | n_clusters: 聚类数 init: 初始化方法 (k-means++/random) | 基于距离的聚类算法 |
| 特征降维 | PCA | sklearn.decomposition | PCA() | n_components: 主成分数量 svd_solver: 求解器类型 | 无监督特征降维(主成分分析) |
| 模型选择 | 网格搜索 | sklearn.model_selection | GridSearchCV() | estimator: 模型 param_grid: 参数网格 cv: 交叉验证折数 | 超参数优化(穷举搜索) |
| 数据处理库 | pandas | pandas | 数据结构和分析工具(DataFrame、Series) | ||
| numpy | numpy | 科学计算基础库(数组、矩阵运算) |
Comments NOTHING