特征置信度验证:进入训练的特征需要验证其置信程度是否足够。
样本“填充度”验证:训练之前,还需要验证 样本上的特征数量 ,虽然稀疏性是大数据下的基本特点,但是如果大量样本上只有很少的特征覆盖,那么就需要考虑是否需要增加特征。
特征处理验证:各种 特征处理的流程 都需要不同的验证,例如连续值分段的处理,在分段之后,需要看一下每分段内样本数量之类的,确认不会出现太稀疏或者太稠密的分段
删除缓存文件
删除git 记录
删除代码中一些不必要的注释
使用相同的数据测试
确认输入数据是否和待移植代码移植
同时使用规范数据和不规范数据(用于查bug)