开发相关

../_images/process.jpg

基于验证的开发

  • 特征置信度验证:进入训练的特征需要验证其置信程度是否足够。

  • 样本“填充度”验证:训练之前,还需要验证 样本上的特征数量 ,虽然稀疏性是大数据下的基本特点,但是如果大量样本上只有很少的特征覆盖,那么就需要考虑是否需要增加特征。

  • 特征处理验证:各种 特征处理的流程 都需要不同的验证,例如连续值分段的处理,在分段之后,需要看一下每分段内样本数量之类的,确认不会出现太稀疏或者太稠密的分段

经验总结

../_images/experience1.jpg

项目交接打包注意事项

  • 删除缓存文件

  • 删除git 记录

  • 删除代码中一些不必要的注释

代码移植

  • 使用相同的数据测试

  • 确认输入数据是否和待移植代码移植

算法测试

  • 同时使用规范数据和不规范数据(用于查bug)