机器学习分类

有监督学习

有特征有标签

标签连续：分类

标签不连续：回归

有特征无标签

聚类算法

根据样本间的相似性 对样本进行聚类，发现事物内部结构及相互关系-1组=1簇-每个簇都有一个质心

部分有标签部分无标签

大幅度降低标记成本

模型-->规律--->预测

Agent 状态行动奖励权重

根据agent 的不同状态(场景)的做行动以便获得更多奖励

数据的加载 --- 数据的预处理---特征工程---模型的训练--模型的评估---模型的测试

拿数据

缺失值:dropna() fillna() notnull()

异常值:dropna() fillna()

新增字段:如RFM dt.days()

对数据做处理让模型训练的更好

特征抽取---特征预处理---特征降维--特征选取---特征组合

特征抽取：拿主要数据

特征预处理：防止量纲不同归一化(量纲) 公式(当前值-该列最小值)/(该列最大值-该列最小值)

特征降维：3维变 2维 会改变原数据

特征选择: 不会改变原数据,4列拿 2列

特征组合:常用特征组合到一起

选算法如:线性回归，逻辑回归，决策树,GBDT....

不同任务的指标

拿数据
处理数据
抽取数据
用合适的模块进行训练
看指标
上线

训练集表现很差，测试集表现也差

原因:模型过于简单

训练集表现好，测试集表现差

原因:模型过于复杂数据不纯训练数据少

模型在新数据集(非训练数据)上的表现好坏的能力。【在新数据上的拟合情况】

奥卡姆剃刀原则:泛化能力相同，较简单的模型比较复杂的模型更可取