作者:禅与计算机程序设计艺术
1.简介
机器学习是一个被广泛应用于各个领域的重要研究方向。在这方面,随着计算能力的提升,越来越多的人加入到这个行列中,试图利用数据编程机器学习模型。但是,当大量的模型涌现出来时,如何选择、调参并使得这些模型之间的比较更加客观呢?如何通过有效地探索模型参数空间找到一个最佳的模型呢?这一系列技术论文将着重讨论如何通过自动化模型搜索的方法找到最优的模型,并提出了一个统一的框架与方法,用于构建具有统一体系的机器学习算法库,具有广泛的适用性。
首先,我们回顾一下机器学习任务通常分为两步:
- 数据预处理(data preprocessing):对原始数据进行清洗、过滤、转换等操作,以便进行后续的数据分析工作。
- 模型训练(model training):根据经验数据,利用机器学习算法模型(如线性回归、逻辑回归、神经网络等)拟合出一个函数关系或规律,用于对新的输入数据进行预测或分类。
采用哪种模型作为最终的模型,也是影响最终结果的一个关键因素。过去,模型选择是由数据科学家们自己决定,而很多时候,即使采用了不同模型,最终的结果也可能差距很大。因此,如何找到一个“合适”的模型至关重要。
模型选择通常可以从两个方面入手:
- 从模型的预测性能上进行选择。这类模型往往有较高的准确率,但同时也会受到噪声影响和局部极值问题的困扰。
- 从模型的训练效率和泛化能力上进行选择。这类模型往往速度快,可以快速的收敛到最优解,但是它们往往依赖于较少量的样本数据,难以有效处理大量的真实数据。
文章出处登录后可见!
已经登录?立即刷新