数据科学自动化 曾今是一个热门话题, 大多数人都在讨论所谓的“自动化”工具, 人们声称他们的工具可以自动化数据科学过程。给人一种错觉, 只要将这些工具与大数据架构相结合就可以解决任何业务问题。

但是其实在实际的数据分析工作中, 自动化建模部分仅仅占到总工作量的10%, 大多数的时间和精力花在了 feature engineering 和 feature selection。 比起构建一个复杂的模型, 我们更应该关注的问题这些问题 例如: 定义要解决的问题,获取数据,探索数据,部署项目,调试和监视, 而这些问题往往都无法完全自动化。

这里 Berry 和 Linoff 从摄影的角度给了一个有趣的比喻:

“The camera can relieve the photographer from having to set the shutter speed, aperture and other settings every time a picture is taken. This makes the process easier for expert photographers and makes better photography accessible to people who are not experts. But this is still automating only a small part of the process of producing a photograph. Choosing the subject, perspective and lighting, getting to the right place at the right time, printing and mounting, and many other aspects are all important in producing a good photograph.”

“相机可以减轻摄影师每次拍照时必须设置快门速度,光圈和其他设置的麻烦。这使得专业摄影师的过程变得更加容易,并且非专业人士可以获得更好的摄影。但这仍然只能使照片制作过程的一小部分自动化。选择主题,透视和照明,在正确的时间到达正确的地方,打印和安装,以及许多其他方面对于制作出色的照片都很重要。“