机器学习发展要素: 数据 算法 算力
分类 回归 聚类
大语言模型弊端:
1、领域知识匮乏
2、过时
3、幻觉
机器学习分类
有监督学习
有特征 有标签
标签连续:分类
标签不连续:回归
无监督学习
有特征 无标签
聚类算法
根据样本间的相似性 对样本进行聚类,发现事物内部结构及相互关系-1组=1簇-每个簇都有一个质心
半监督学习
部分有标签 部分无标签
大幅度降低标记成本
模型-->规律--->预测
强化学习
Agent 状态 行动 奖励权重
根据agent 的 不同状态(场景)的做行动 以便获得更多奖励
建模流程
数据的加载 --- 数据的预处理---特征工程---模型的训练--模型的评估---模型的测试
获取数据
拿数据
数据的基本处理
缺失值:dropna() fillna() notnull()
异常值:dropna() fillna()
新增字段:如RFM dt.days()
特征工程
对数据做处理 让模型训练的更好
特征抽取---特征预处理---特征降维--特征选取---特征组合
特征抽取:拿主要数据
特征预处理:防止量纲不同归一化(量纲) 公式(当前值-该列最小值)/(该列最大值-该列最小值)
特征降维:3维 变 2维 会改变原数据
特征选择: 不会改变原数据,4列 拿 2列
特征组合:常用特征组合到一起
模型训练
选算法如:线性回归,逻辑回归,决策树,GBDT....
模型评估
不同任务的指标
拿数据
处理数据
抽取数据
用合适的模块进行训练
看指标
上线
拟合-fitting
欠拟合under_fitting:
训练集表现 很差 ,测试集表现也 差
原因:模型过于简单
过拟合over_fitting:
训练集表现 好 ,测试集表现 差
原因:模型过于复杂 数据不纯 训练数据少
泛化:
模型在新数据集(非训练数据)上的表现好坏的能力。【在新数据上的拟合情况】
奥卡姆剃刀原则:泛化能力相同,较简单的模型比较复杂的模型更可取