——————————————————
写在前面：本人研一小白，处于懵懂，潜心向老师师兄师姐学习的阶段，第一次发博客，也是一时兴起（向师兄学习，很羡慕师兄师姐们的能力和水平），因为是个人的笔记，当时记得时候也查阅了许多预备知识，有一些杂乱，主要还是按照论文章节记的。推一下一作大神在b站的会议直播录像，在有一定知识储备后听完会有一种通透的感觉

https://www.bilibili.com/video/BV15S4y1q7mE/?spm_id_from=333.337.search-card.all.click

原文：https://readpaper.com/paper/4563630863456149505

同时也十分感谢笔记中提到的博主们的文章，特别是朽一大佬，个人觉得他的讲解是mvsnet及后续工作最好的
这是他的博客页

https://blog.csdn.net/qq_43027065?type=blog

再次说明，本人能力有限，您可以带着批判的角度来阅读这篇小笔记，引用可能也不规范，如有问题请不吝赐教

——————————————————

TransMVSNet阅读笔记

笔记分为三个模块，一、分析题目摘要结论的写作手法。二、对其他部分出现的名词及概念进行整理。三、对方法部分进行概述，重点在于串联公式，形成总体的流程图。

Title

TransMVSNet: Global Context-aware Multi-view Stereo Network with Transformers

对自己方法的命名（起个好听的名字好让后来人记住）：TransMVSNet
任务，主要工作：Multi-view Stereo Network
方法特点：Global Context-aware、with Transformers
难点：回溯成特征匹配任务之后，弱纹理和重复纹理，非郎伯体表面的问题都会干扰，所以打算通过transfomer对全局特征编码交互，解决这些问题。

Abstract

首句：一句话总结了论文的工作最大的特点，即基于对**multi-view stereo (MVS)**. 特征匹配（这也是方法的核心）的探索提出的
第二句：通过类比MVS回到**特征匹配**任务的本质，为了更好的进行特征匹配，引出了Feature Matching Transformer，FMT是这个网络的核心模块，利用类间类内注意力去增强图片间和图片内的长距离上下文信息。
第三句：对论文方法进行补充。FMT的附加模块**Adaptive Receptive Field 自适应感受野模块ARF**：。作用：确保有一个平滑的特征范围；并通过特征通道连接不同节点，以跨越不同尺度的转换特征和梯度（通过调整参数实现的）
第四句：更多的细节，成对特征相关性去衡量特征的相似性，采用降低模糊性的focal loss加强监督
第五句：强调自己的创新型，提出结论（实验结果）

1. Introduction

逻辑线：MVS本质是一对多的特征匹配任务，最近的一些研究[22,25]已经证明了长距离全局背景在特征匹配任务中的重要性。然而，鉴于上述的MVS过程，有两个主要问题。

(a)卷积提取的是局部特征。卷积特征的局部性妨碍了对全局信息的感知，全局信息对于MVS在一些具有挑战性的区域（例如贫乏的纹理、重复的图案和非朗伯特表面）进行鲁棒的深度估计是至关重要的

(b) 此外，当计算匹配成本时，要比较的特征只是分别从每个图像本身提取，也就是说，潜在的图像间的对应关系没有被考虑到。（？？？没懂）

提出transformer和他进行结合

一、MVS network

三、世界坐标系、相机坐标系、图像坐标系、像素坐标系&相机内参外参

世界坐标系（World Coordinates）

由于摄像机可安放在环境中的任意位置，在环境中选择一个基准坐标系来描述摄像机的位置，并用它描述环境中任何物体的位置，该坐标系称为世界坐标系。

相机坐标系（Camera Coordinates）

相机坐标系也叫视点坐标系（Eye Coordinates）视点坐标是以视点（光心）为原点，以视线的方向为Z+轴正方向的坐标系。世界坐标系到相机坐标系只涉及旋转和平移，所以是刚体变换，不涉及形变。

从世界坐标系到相机坐标系的转换关系如下所示：

用齐次坐标表示（齐次坐标好表示）

这种由视点变化导致的视觉效果变化，是跟我们的眼睛结构是有关的，在几何学上有个术语叫：投影空间（我们看到的世界万物都是投影在我们的视网膜上的）。

所以就有了这个问题：怎么解决欧氏几何平行线，在投影几何上不成立的这个问题，所以就有了齐次坐标的概念。齐次坐标一言难尽，它相当于是在欧氏几何的坐标系上硬加了一个变数，用这个变数 w 加上原来的坐标，用于解决在投影空间上原本平行的两条线变得不平行的问题假设我们把线上的每个点的x 坐标都加上变数 w , 每个点都发生了位移，我们再把纸拿起来从侧面去观察，假设正好这个 w 的值的规律是能够让两条线投影到我们的视网膜上变成平行的：
原文链接：https://blog.csdn.net/weixin_38989369/article/details/125318191

TransMVSNet阅读笔记