计算机视觉
-
【千律】OpenCV基础:通过图像颜色进行文字提取
环境:Python3.8 和 OpenCV 内容:通过图像颜色进行文字提取 文字提取步骤 1. 模糊图片,削弱噪声 2. 获取二值图 3. 形态学操作,完善二值图 4. 轮…
-
[论文阅读] TGANet: Text-guided attention for improved polyp segmentation
[论文地址] [代码] [MICCAI 22] Abstract 结肠镜检查是一个黄金标准,但高度依赖操作者。自动息肉分割可以最大限度地减少漏诊率,并在早期阶段及时治疗结肠癌。即使…
-
SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation
纵目发表的这篇单目3D目标检测论文不同于以往用2D预选框建立3D信息,而是采取直接回归3D信息,这种思路简单又高效,并不需要复杂的前后处理,而且是一种one stage方法,对于实…
-
Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition
1. 摘要 首先,为了激发对真实世界遮挡和变异姿势下的FER的研究,我们为该领域注释了几个带有姿势和遮挡属性的野外FER数据集。其次,我们提出了一个新的区域注意网络(RAN),以适…
-
AI视频增强,提高视频画面的清晰度
有时下载的视频有点模糊。要如何提高视频的清晰度?利用AI视频增强技术,帮你快速解决。 我们可以利用牛学长视频修复工具进行视频画面的修复增强。采用先进的AI智能人工技术,AI视频增强…
-
2018 ShuffleNetV2 ECCV
2018 ShuffleNetV2 ECCV 论文地址:https://arxiv.org/abs/1807.11164 感谢我的研究生导师!!! 霹雳吧啦Wz的个人空间_哔哩哔哩…
-
利用Python实现图像拼接
利用python语言实现多张图像拼接_小饼干cookie的博客-CSDN博客_python拼接图像 主要参考上述博文,只是对于复现过程遇到的小问题的解决做一些补充。 拼接程序: f…
-
Momentum Contrast for Unsupervised Visual Representation Learning 译
点击下载论文 无监督视觉表征学习中的动量对比 摘要 我们提出了用于无监督视觉表征学习的动量对比度(MoCo)。从对比学习(29)作为字典查找的角度来看,我们构建了一个带有…
-
【多模态】《Dual Attention Networks for Multimodal Reasoning and Matching》论文阅读笔记
一、概述 这篇文章做了两个任务:一个适用于需要多模态推理的任务,例如 VQA;另一个适用于需要多模态匹配的任务,例如Image-Text Matching。 这篇文章在【多模态】《…
-
Swin Transformer详解
引言 目前Transformer应用到图像领域主要有两大挑战: 视觉实体变化大,在不同场景下视觉Transformer性能未必很好 图像分辨率高,像素点多,Transformer基…