机器学习

机器学习发展要素: 数据 算法 算力

分类 回归 聚类

大语言模型弊端:

1、领域知识匮乏

2、过时

3、幻觉

机器学习分类

有监督学习

有特征 有标签

标签连续:分类

标签不连续:回归

无监督学习

有特征 无标签

聚类算法

根据样本间的相似性 对样本进行聚类,发现事物内部结构及相互关系-1组=1簇-每个簇都有一个质心

半监督学习

部分有标签 部分无标签

大幅度降低标记成本

模型-->规律--->预测

强化学习

Agent 状态 行动 奖励权重

根据agent 的 不同状态(场景)做行动 以便获得更多奖励

建模流程

数据的加载 --- 数据的预处理---特征工程---模型的训练--模型的评估---模型的测试

获取数据

拿数据

数据的基本处理

缺失值:dropna() fillna() notnull()

异常值:dropna() fillna()

新增字段:如RFM dt.days()

特征工程

对数据做处理 让模型训练的更好

特征抽取---特征预处理---特征降维--特征选取---特征组合

特征抽取:拿主要数据

特征预处理:防止量纲不同归一化(量纲) 公式(当前值-该列最小值)/(该列最大值-该列最小值)

特征降维:3维 变 2维 会改变原数据

特征选择: 不会改变原数据,4列 拿 2列

特征组合:常用特征组合到一起

模型训练

选算法如:线性回归,逻辑回归,决策树,GBDT....

模型评估

不同任务的指标


拿数据
处理数据
抽取数据
用合适的模块进行训练
看指标
上线

拟合-fitting

欠拟合under_fitting:

训练集表现 很差测试集表现也

原因:模型过于简单


过拟合over_fitting:

训练集表现 测试集表现

原因:模型过于复杂 数据不纯 训练数据少


泛化:

模型在新数据集(非训练数据)上的表现好坏的能力【在新数据上的拟合情况】

奥卡姆剃刀原则:泛化能力相同,较简单的模型比较复杂的模型更可取