原文标题 :5 Computer Vision Trends for 2021
Deep Learning
2021 年 5 种计算机视觉趋势
ML 工程师 Sayak Paul 介绍了计算机视觉的主要趋势
计算机视觉是人工智能的一个迷人领域,在现实世界中具有巨大的价值。一大波价值数十亿美元的计算机视觉初创公司即将到来,福布斯预计到 2022 年计算机视觉市场规模将达到 490 亿美元。[0]
The goal
计算机视觉的主要目标是赋予计算机通过视觉了解世界并根据其理解做出决策的能力。
在应用中,该技术允许人类视觉的自动化和增强,创造了许多用例。
如果说人工智能使计算机能够思考,那么计算机视觉使它们能够看到、观察和理解。 — IBM[0]
Use cases
计算机视觉的用例范围从运输到零售。[0]
交通运输的一个典型例子是特斯拉公司,该公司生产的电动自动驾驶汽车完全依赖由计算机视觉模型驱动的摄像头。
您还看到计算机视觉彻底改变了零售空间,例如 Amazon Go 程序,它使用智能传感器和计算机视觉系统引入了免结账购物,将便利性提升到了一个新的水平。
计算机视觉在为实际应用做出贡献方面可以提供很多帮助。作为从业者,甚至是喜欢深度学习的人,了解该领域的最新进展并紧跟最新趋势至关重要。
计算机视觉趋势
在本文中,我将分享 Carted 的 ML 工程师 Sayak Paul 的想法,他最近为 Bitgrit 做了一次演讲。你可以在 LinkedIn 和 Twitter 上找到他。[0][1][2][3]
请注意,本文不会涵盖演讲中的所有内容,仅作为总结/要点。您可以在此处找到演讲的幻灯片,其中包含类似的内容,但带有与主题相关的有用链接。该演讲还发布在 YouTube 上,其中有更多详细说明。[0][1]
本文的目标将与他的演讲类似,旨在帮助您:
- 发现未来几天可能更令人兴奋的工作。
- 激发您的下一个项目创意。
- 了解该领域发生的一些前沿事物。
如果您还不知道,我们最近推出了一个新的不和谐服务器!快来加入 bitgrit 社区,在这里我们讨论所有数据科学和人工智能,包括我们新发布的 BGR 加密货币代币!在这里加入服务器![0]
现在让我们深入了解趋势。
趋势一:资源高效模型
Why
- 最先进的模型通常很难在移动电话、Raspberry Pi 和其他微处理器等微型设备上离线运行。
- 较重的模型往往具有显着的延迟(在这种情况下,它代表单个模型运行前向传递所需的时间)并且会显着影响基础设施成本。
- 如果基于云的模型托管不是一种选择(成本、网络连接、隐私问题等)怎么办?
Build Process
1. Sparse Training
- 稀疏训练是将零引入用于训练神经网络的矩阵。这是可以做到的,因为并非所有维度都与其他维度相互作用,或者换句话说,重要的。[0]
- 尽管性能可能会受到影响,但它会导致乘法次数的大幅减少,从而减少训练网络所需的时间。
- 一种非常相关的技术是剪枝,即丢弃低于某个阈值的网络参数(也存在其他标准)。[0]
2. Post-Training Inference
- 在深度学习中使用量化,降低模型的精度(FP16,INT8)以减小它们的大小。[0]
- 通过量化感知训练 (QAT),您可以补偿因精度降低而导致的信息丢失。
- 对于许多用例来说,修剪+量化可以是两全其美的。
3. Knowledge Distillation
- 训练一个高性能的教师模型,然后通过训练另一个较小的学生模型来提取其“知识”以匹配教师产生的标签。
Action plan
- 培养更大、更高绩效的教师模型。
- 进行知识蒸馏,最好使用 QAT。
- 修剪和量化蒸馏模型。
- Deploy
趋势二:创造性应用的生成式深度学习
Why
- 生成式深度学习已经走过了漫长的道路。
- thisxdoesnotexist.com 上的成就示例[0]
Applications
1. Image Super-Resolution
- 用于监控等用例的高档图像。
2. Domain Transfer
- 将图像转移到另一个域
- 例如:将人类图片卡通化或动画化
3. Extrapolation
- 为图像中的蒙版区域生成新的上下文。
- 用于图像编辑等领域,模拟 Photoshop 应用程序中的功能。
4. 隐式神经表示和 CLIP[0]
- 从字幕生成图像的能力(例如:在纽约街头骑自行车的人)
- Github Repo[0]
Action Plan
- 研究这些工作并实施它们。跳过几个部分是可以的。
- 开发一个端到端的项目。
- 尝试改进他们的元素,谁知道呢——你可能会发现一些新奇的东西!
趋势三:自监督学习
自监督学习不使用任何真实标签,而是使用借口任务。然后,使用大量未标记的数据集,我们要求模型学习数据集。
它与监督学习相比如何?
监督学习的风险
- 需要大量标记数据来提高性能。
- 标记数据的准备成本很高,并且也可能存在偏差。
- 对于如此大的数据体系,训练时间的长度非常长。
使用未标记数据进行学习
- 要求模型对同一图像的不同视图保持不变。
- 直观地说,该模型学习了使两张图像在视觉上不同的内容,即一只猫和一座山。
- 准备一个未标记的数据集要便宜得多!
- SEER(一种自我监督模型)在计算机视觉中的对象检测和语义分割方面比监督学习模型表现更好。[0]
Challenges
- 自监督学习需要非常大的数据体系才能在图像分类等现实世界任务中表现出色。
- 对比自我监督学习在计算上仍然很昂贵。
Good reads
趋势四:变形金刚和自我注意的使用
Why
- 注意力通过量化成对实体交互来帮助网络学习对齐数据内部的重要上下文。
- “注意力”的概念以多种形式存在于计算机视觉中:GC 块、SE 网络等。但它们的收益微乎其微。[0][1]
- 自注意力块构成了变形金刚的基础。[0]
Pros and Cons
Pros
- 较小的归纳先验,因此可以被认为是不同学习任务的通用计算原语。
- 参数效率与性能增益与 CNN 相当。
Cons
- 大数据机制在预训练期间很重要,因为 Transformer 没有像 CNN 那样定义明确的归纳先验。
另一个趋势是当 self-attention 与 CNN 相结合时,它们会建立强大的基线(BoTNet)。
Explore Vision Transformers
- facebookresearch/deit[0]
- google-research/vision_transformer[0]
- jeonsworld/ViT-pytorch[0]
- 使用 Vision Transformer (Keras) 进行图像分类[0]
趋势五:强大的视觉模型
视觉模型容易受到影响其性能的许多漏洞的影响。
视觉模型面临的问题
1. Perturbations
- 深度模型对于输入数据中难以察觉的变化是脆弱的。
- 想象一下,如果行人被预测为空路!
2. Corruptions
- 深度模型可以很容易地锁定到高频区域,这使得它们容易受到模糊、对比度、缩放等常见损坏的影响。
3. 分布外 (OOD) 数据
Two kinds:
- 领域转移但标签完好——我们希望我们的模型在训练方面表现一致。
- 异常数据点——我们希望我们的模型在面对异常时以低置信度进行预测。
如何使它们健壮
许多技术处理这些特定问题以构建强大的视觉模型。
1. Perturbations
- 对抗性训练——类似于拜占庭式的容错,它让你的系统在面对绝对最坏的情况时做好自我处理的准备。
- Paper[0]
2. Corruptions
3. OOD data
- 立即检测异常数据点。
- Paper[0]
一个有趣的引用,为 George Box 的名言添加了稳健模型的元素。
“所有模型都是错误的,但一些知道何时错误的模型是有用的。” — Balaji Lakshminarayanan(NeurIPS 2020)
这就是本文的全部内容,感谢您的阅读,希望您能学到新的东西!如果您喜欢这些文章,请务必关注 Bitgrit 数据科学出版物以获取更多信息![0]
如果您喜欢我的文章,那么支持我的最佳方式就是今天成为 Medium 会员!您将可以完全访问 Medium 上关于各种主题的大量优秀文章。[0]
关注 Bitgrit 的社交 📱 以保持更新!
文章出处登录后可见!