计算机视觉领域的发展

青葱年少

2 年前

Table of Contents

计算机视觉领域的发展

计算机视觉领域的概述以及技术基础设施的进步如何支持其增长和可扩展性

从事计算机视觉 (CV) 工作的人工智能 (AI) 从业者和开发人员实施和集成解决方案，以解决涉及计算机和计算机系统中的视觉问题。图像分类、人脸检测、姿态估计和光流是 CV 任务的典型示例。

深度学习算法非常适合解决计算机视觉问题。卷积神经网络的架构特性能够检测和提取图像数据中存在的空间模式和特征。换句话说，机器可以识别和分类对象，甚至对它们做出反应。

因此，计算机视觉工程师将自己称为深度学习工程师或只是普通的机器学习工程师。

计算机视觉是一个快速发展的领域，包括研究、商业和商业应用。计算机视觉的高级研究现在更直接、更直接地适用于商业世界。[0]

计算机视觉领域正在快速发展，这需要 CV 专家随时了解最新的发现和进展。

Key Takeaways

有助于扩展深度学习解决方案的云计算服务
自动化机器学习 (AutoML) 解决方案减少了标准机器学习管道中所需的重复工作量
研究人员努力使用 Transformer 架构来优化计算机视觉任务

Cloud Computing

云计算通过互联网向个人或企业提供数据存储、应用服务器、网络和计算基础设施等计算资源。与使用本地资源执行计算相比，云计算解决方案为计算资源的可用性和扩展性提供了一种快速且经济高效的解决方案。

机器学习解决方案实施需要存储和处理能力。在机器学习项目的早期阶段（数据聚合、清理和整理）对数据的关注涉及用于数据存储和应用程序/数据解决方案接口访问（BigQuery、Hadoop、BigTable）的云计算资源。

最近，具有计算机视觉功能的设备和系统显着增加，例如用于步态分析的姿势估计、用于手机的人脸识别、自动驾驶汽车的车道检测等。

对云存储的需求正在增加，预计该行业的价值将达到 3903.3 亿美元，是 2021 年市场当前价值的五倍。[0]

市场规模和应用的计算机视觉预计将大幅增长，从而导致更多地使用入站数据来训练机器学习模型。开发和训练 ML 模型所需的数据样本的增加与更大的数据存储容量需求和广泛强大的计算资源直接相关。[0]

GPU 可用性的提高加速了计算机视觉解决方案。然而，在为成千上万甚至数百万消费者提供服务时，仅靠 GPU 并不总是足以提供这些应用程序所需的可扩展性和正常运行时间。这个问题的明显答案是云计算。

云计算平台，包括亚马逊网络服务 (AWS)、谷歌云平台 (GCP) 和微软 Azure，为机器学习和数据科学项目管道的核心组件提供解决方案，包括数据聚合、模型实施、部署和监控。[0][1][2]

提高对与计算机视觉和通用机器学习相关的云计算服务的认识，可以让任何 CV 工程师在企业中占据优势。通过进行深入的成本效益分析，可以确定云计算服务的好处。

一个好的经验法则是确保作为 CV 工程师，您至少了解或以某种形式接触过一个主要的云服务提供商及其解决方案，包括它们的优缺点。

大规模计算机视觉需要云服务集成

以下是支持典型计算机视觉操作的 NVIDIA 服务示例，以突出显示哪种类型的云计算服务适合 CV 工程师。

利用 NVIDIA 广泛的 NVIDIA 图形处理单元云 (NGC) 预训练深度学习模型目录，可以抽象出深度学习模型实施和训练的复杂性。深度学习脚本为 CV 工程师提供了现成的管道，可定制以满足独特的需求。强大的模型部署解决方案可自动将模型交付给最终用户。[0][1]

此外，NVIDIA Triton 推理服务器支持在任何基于 GPU 或 CPU 的基础设施上部署来自 TensorFlow 和 PyTorch 等框架的模型。 NVIDIA Triton 推理服务器提供跨各种平台的模型可扩展性，包括云、边缘和嵌入式设备。[0]

此外，NVIDIA 与 AWS 等云服务提供商的合作使我们能够部署基于 CV 的资产。 NGC 或 AWS 通过利用 NVIDIA 专家整合的打包解决方案，对基础设施和计算资源的考虑最少。这意味着 CV 工程师可以更多地关注模型性能和优化。[0]

激励企业在可行的情况下降低成本并优化策略。云计算和云服务提供商通过提供基于使用的计费解决方案并根据服务需求进行扩展来满足这一要求。

AutoML

机器学习算法和模型开发是涉及许多任务的过程，这些任务可以通过创建自动化操作管道从自动化和减少手动过程中受益。

以特征工程和模型选择为例。特征工程是一个涉及从数据中检测和选择相关信息和属性的过程，这些信息和属性非常适合描述数据集或提高基于机器学习的解决方案的性能。

模型选择涉及评估一组机器学习分类器、算法或给定问题的解决方案的性能。这些活动需要 ML 工程师和数据科学家花费大量时间来完成，并且经常需要从业者重新审视过程操作以提高模型性能或准确性。

人工智能 (AI) 领域致力于使机器学习过程中的许多手动和重复操作自动化，称为自动化机器学习或 AutoML。

有几个正在进行的大型项目可以简化机器学习项目管道的复杂性。 AutoML 是一项超越抽象的工作，它专注于 ML 工作流程和程序的自动化和增强，以使非 ML 专家可以轻松访问机器学习。

用一秒钟来检查 AutoML 行业的市场价值，预计到 2030 年 AutoML 市场将达到 140 亿美元。这意味着其规模将比当前价值高出近 42 倍。[0]

计算机视觉项目有一系列重复的任务来实现预期的目标。参与模型实施的 CV 工程师非常了解。寻找适当超参数的重复工作量使模型的训练能够收敛到最佳损失并达到所需的准确性，这一过程称为超参数优化/调整。

模型选择和特征工程是耗时且重复的过程。 AutoML 是在机器学习管道中自动化重复过程的努力。

机器学习和自动化的这种特殊应用越来越受到关注。 CV 工程师需要了解 AutoML 的优势和局限性。

AutoML in practice

AutoML 仍然是一项专注于自动化标准机器学习程序的新技术。然而，从长远来看，所获得的优势是显着的。

AutoML 对 CV 和 ML 工程师的一个明显好处是节省时间。数据聚合、数据准备和超参数优化是耗时的过程，可以说不使用 ML 工程师的核心技能和能力。

超参数调优涉及一个有根据的猜测的试错过程。虽然数据准备和汇总是必要的过程，但它们涉及重复性任务并依赖于找到适当的数据源。 AutoML 功能在自动化这些流程方面被证明是成功的，这使 CV 工程师能够将更多的时间和精力投入到要求更高、更充实的任务上。

AutoML 及其应用程序，尤其是数据源，仍然有助于数据质量，主要是模型性能。获得特定于问题领域的质量数据对于自动化来说还不成熟，需要专家的人工观察和监督。

对于那些有兴趣探索 GPU 驱动的 AutoML 的人来说，广泛使用的基于树的管道优化工具 (TPOT) 是一个自动化机器学习库，旨在通过基因编程优化机器学习过程和管道。 RAPIDS cuML 提供使用 GPU 计算资源加速的 TPOT 功能。本文提供了有关 TPOT 和 RAPIDS cuML 的更多信息。[0][1][2]

机器学习库和框架

机器学习库和框架在任何 CV 工程师的工具包中都是必不可少的。机器学习库和框架的发展和进步是渐进和持续的。 TensorFlow、PyTorch、Keras 和 MXNet 等主要深度学习库在 2021 年不断更新和修复，没有理由认为这种情况不会持续到 2022 年。[0][1][2][3]

最近，针对移动设备的深度学习库和优化常用 DL 库的软件包取得了令人兴奋的进展。

MediaPipe 在 2021 年扩展了其姿态估计功能，通过 BlazePose 模型提供 3D 姿态估计，该解决方案可在浏览器和移动环境中使用。到 2022 年，预计将在涉及动态运动的用例中看到更多姿势估计应用，并需要强大的解决方案，例如舞蹈中的运动分析和虚拟角色运动模拟。[0]

PyTorch Lighting 由于其简单性、对复杂神经网络实现细节的抽象以及对硬件考虑的增强，在研究人员和专业机器学习从业者中越来越受欢迎。[0]

最先进的深度学习

长期以来，深度学习方法一直用于解决计算机视觉挑战。用于进行人脸检测、车道检测和姿态估计的神经网络架构都使用深度连续的卷积神经网络层。

CV 工程师非常了解 CNN，需要更加关注该领域的研究发展，尤其是使用 Transformer 解决计算机视觉任务。 Transformer，一种深度学习架构，在 2017 年的论文《Attention Is All You Need》中介绍。[0]

本文提出了一种新的方法，通过利用注意力机制推导出输入数据的一部分相对于其他输入数据段的重要性来创建数据的计算表示。 Transformer 神经网络架构没有利用卷积神经网络的惯例，但研究表明 Transformer 在视觉相关任务中的应用。[0][1]

通过 NGC 目录探索 Transformer 模型，其中包括 PyTorch 中实际 Transformer 模型的架构和利用的详细信息。[0]

Transformers 在 NLP 领域产生了相当大的影响，仅参考 GPT（Generative Pretrained Transformer）和 BERT（Bidirectional Encoder Representation From Transformer）的成就。[0]

本文发表于 2021 年最后一个季度，对 Transformer 网络架构在计算机视觉中的应用进行了高级概述。[0][1]

对应用 ML 感兴趣但不熟悉阅读研究论文的 CV 工程师，那么这篇文章介绍了一种系统的方法来阅读和理解研究论文。[0]

Mobile devices

边缘设备正变得越来越强大，而设备上的推理功能是希望快速服务交付和 AI 功能的客户使用的移动应用程序的必备功能。

在移动设备中加入计算机视觉支持功能可减少获得模型推理结果的延迟；将计算机视觉功能整合到移动设备中可以带来以下好处：

获得模式推断结果时减少延迟。在设备上进行和提供的推理结果不依赖于云服务器，而是减少了推理结果的等待时间。
根据设计，设备上的推理功能限制了数据从设备到云服务器的传输。此功能增强了数据的隐私性和安全性，因为几乎没有数据传输要求。
消除对云 GPU/CPU 服务器进行推理的依赖的成本降低提供了额外的经济利益。

许多企业正在探索其产品和服务的移动产品，其中还包括探索如何在移动设备上复制现有 AI 功能的方法。 CV 工程师应该了解用于实施移动优先 AI 解决方案的多个平台、工具和框架。

TensorFlow Lite[0]
CoreML[0]
Apple Vision Framework[0]
TensorFlow-React[0]
CreateML[0]
MediaPipe[0]
MLKit[0]

Summary

随着人工智能越来越融入我们的日常生活，计算机视觉技术的使用将增加。随着它在我们的社会中变得越来越普遍，对具有计算机视觉系统知识的专家的需求将会增加。

CV 工程师必须紧跟该行业的最新发展和趋势，以保持领先地位并利用最近的进步。在 2022 年，您应该意识到 PyTorch Lighting、以移动为中心的深度学习库以及在计算机视觉应用程序中使用 Transformer 的日益普及。

此外，边缘设备变得越来越强大，企业正在探索其产品和服务的移动产品。以移动为中心的深度学习库和软件包值得关注，因为它们在未来一年的使用量可能会增加。

2022 年，预计 AutoML 功能将得到更广泛的应用以及 ML 库和框架的持续增长。增强和 VR 应用程序的不断发展将使 CV 工程师能够将他们的技能扩展到新的领域，例如开发将真实对象复制到 3D 空间中的直观有效的方法。计算机视觉应用将继续改变和影响未来，在支持计算机视觉系统的技术基础设施方面将会有更多的发展。

本文的一个版本首次出现在 Nvidia 开发者博客上[0]

Summary

完成步骤 1-4 以了解我在 Medium 和其他平台上制作的内容的最新信息。

通过成为被推荐的 Medium 会员来支持我的写作[0]
订阅我的 YouTube 频道[0]
订阅我的播客 Apple 播客 | Spotify |听得见[0][1][2]
订阅我的电子邮件列表以获取我的时事通讯[0]

文章出处登录后可见！

已经登录？立即刷新