机器学习工作流程
机器学习工作流程
机器学习通常是一个“迭代闭环”,很少一次到位:数据与特征往往决定了上限,训练与评估决定了你是否接近上限。
- 获取数据
- 明确任务与标签定义(监督/无监督等,见 机器学习算法分类)
- 划分训练/验证/测试,避免数据泄漏
- 数据基本处理
- 缺失值、异常值、重复值、格式/类型统一
- 特征工程
- 把原始数据变成更适合算法的表示:提取/预处理/降维
- 机器学习(模型训练)
- 选择基线模型与指标,训练并调整超参数
- 模型评估
常见回路:
- 指标不达标:回到数据、特征或算法选择
- 训练集很好但测试集差:优先排查过拟合、数据泄漏与分布漂移
