我是机器学习(还包括一些统计数据)的新手,一段时间以来一直在学习知识(有监督/无监督学习算法,相关的优化方法,正则化,一些哲学(例如偏差方差折衷?))。我知道,没有任何实际练习,我将不会对这些机器学习知识有深入的了解。
因此,我首先从真实数据的分类问题开始,例如手写数字分类(MNIST)。令我惊讶的是,在没有任何特征学习/工程设计的情况下,使用原始像素值作为输入的随机森林分类器,精度达到0.97。我还尝试了其他学习算法,例如支持参数调整的SVM,LR。
然后我迷路了,这太容易了还是我在这里错过了任何东西?只是从工具箱中选择学习算法并调整一些参数?
如果在实践中将全部与机器学习有关,那么我将对该领域失去兴趣。我思考并阅读了一些博客几天,然后得出一些结论:
机器学习在实践中最重要的部分是特征工程,即在给定数据的情况下,找出特征的更好表示。
使用哪种学习算法也很重要,参数调整也很重要,但最终选择更多是关于实验。
我不确定我是否理解正确,希望任何人都可以纠正我,并给我一些有关实践中机器学习的建议。