人工智能大模型技术基础系列之：大规模数据处理与特征工程

社会演员多 • 2023年11月13日下午9:25 • Python • 阅读 50

作者：禅与计算机程序设计艺术

1.背景介绍

自从大数据的到来，越来越多的人研究和开发基于大数据的人工智能(AI)产品与服务，例如推荐系统、搜索引擎、图像识别、语音助手等。但是，如何有效地处理海量的数据并提取其特征成为一个重要的难点，也是众多人工智能模型研究者面临的关键挑战。如何高效地训练高维度、高纬度的机器学习模型，如何对数据进行降维、特征选择、特征提取，都成为解决这个问题的关键。为了解决这个问题，Google在近几年推出了TensorFlow和谷歌的Berkeley团队的deepMind团队也在不断探索新的AI技术，通过深度学习的方法取得了突破性的进步。随着模型的复杂程度增加，在训练上所耗费的时间也越来越长。因此，如何快速、高效地处理和训练这些模型成为AI领域的重中之重。 2.核心概念与联系首先要明确两个概念：数据处理（Data Processing）和特征工程（Feature Engineering）。它们分别对应于机器学习模型的训练和建模过程中的不同阶段。

数据处理：数据处理阶段包括数据采集、清洗、存储、转换等环节。主要目的是将原始数据转化成可用于建模的结构化数据，从而让模型能够更好地分析、理解和预测数据内在的意义。
特征工程：特征工程是数据处理阶段的一个分支，主要目的是通过提取、转换或删除一些原始数据中的不可或缺的信息，从而使得模型更加具有泛化能力、适应变化、提升性能。特征工程可以帮助我们发现、理解和选择最优的特征，并有效地降低计算复杂度、提升模型的效果。

2.1 大规模数据处理与特征工程概述目前，大规模数据处理与特征工程主要涉及三个方面：数据采集、特征抽取、特征选择。

数据采集：数据采集环节通常由数据获取平台完成，包括爬虫、API接

文章出处登录后可见！

已经登录？立即刷新

人工智能大模型技术基础系列之：大规模数据处理与特征工程

1.背景介绍

相关推荐