详解PyTorch Tensor 数据类型——张量

Table of Contents

张量

在PyTorch中，张量（Tensor）是一种常见的数据类型，它是一个多维数组。与Python中的列表或NumPy中的数组不同，张量可以在GPU上运行，这使得它们在深度学习中非常有用。本文将介绍张量的结构和用法，以及如何在PyTorch中使用它们。

张量的结构

张量是由一个数据类型和一个形状（shape）来描述的。形状是一个元组，其中包含每个维度的大小。例如，一个形状为(2, 3, 4)的张量表示一个三维数组，其中第一维大小为2，第二维大小为3，第三维大小为4。下面是一个简单的例子，创建一个形状为(2, 3, 4)的张量：

import torch

# 创建一个形状为(2, 3, 4)的张量
x = torch.randn(2, 3, 4)
print(x)
print(x.shape)

上述代码输出如下：

上述代码中，torch.randn是一个创建随机张量的函数，它使用给定的形状创建了一个形状为(2, 3, 4)的随机张量。我们使用print(x)输出张量，使用print(x.shape)输出张量的形状。

除了形状之外，每个张量还有一个数据类型。PyTorch支持多种数据类型，包括浮点数、整数和布尔值。下面是一些常见的数据类型：

torch.float32或torch.float：32位浮点数
torch.float64或torch.double：64位浮点数
torch.int8：8位整数
torch.int16或torch.short：16位整数
torch.int32或torch.int：32位整数
torch.int64或torch.long：64位整数
torch.bool：布尔值

张量的创建

张量的基本结构是一个多维数组，其中每个元素都具有相同的数据类型和形状。在PyTorch中，我们可以使用torch.tensor函数创建张量，并指定它的形状和数据类型。例如，我们可以使用以下代码创建一个形状为(3, 2)、数据类型为float32的张量：

import torch

# 创建一个形状为(3, 2)、数据类型为float32的张量
x = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]], dtype=torch.float32)

print(x)

上述代码输出如下：

上述代码中，我们使用torch.tensor函数创建了一个形状为(3, 2)、数据类型为float32的张量x。其中，dtype参数用于指定张量的数据类型，可以是torch.float32、torch.float64、torch.int32、torch.int64等。

除了torch.tensor函数之外，PyTorch还提供了许多其他的张量创建函数，如torch.zeros、torch.ones、torch.randn等。这些函数的使用方式与torch.tensor类似，可以在PyTorch的文档中找到详细说明。

张量的操作

在PyTorch中，我们可以对张量进行各种操作，包括数学运算、逻辑运算和形状操作。下面是一些常见的张量操作。

数学运算

张量可以进行各种数学运算，如加法、减法、乘法、除法、指数运算等。例如，我们可以使用torch.add函数进行张量相加：

import torch

# 创建两个形状为(2, 3)的张量
x = torch.randn(2, 3)
y = torch.randn(2, 3)

# 张量相加
z = torch.add(x, y)
print(z)

上述代码中，我们创建了两个形状为(2, 3)的张量x和y，然后使用torch.add函数将它们相加，得到了形状相同的张量z。

除了torch.add函数之外，PyTorch还提供了许多其他的数学运算函数，如torch.sub、torch.mul、torch.div、torch.exp等。这些函数的使用方式与torch.add类似，可以在PyTorch的文档中找到详细说明。

逻辑运算

张量还可以进行逻辑运算，如比较、逻辑与、逻辑或等。例如，我们可以使用torch.eq函数进行张量比较：

import torch

# 创建两个形状为(2, 3)的张量
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
y = torch.tensor([[4, 5, 6], [1, 2, 3]])

# 张量比较
z = torch.eq(x, y)
print(z)

上述代码中，我们创建了两个形状为(2, 3)的张量x和y，然后使用torch.eq函数比较它们，得到了形状相同的布尔型张量z。

除了torch.eq函数之外，PyTorch还提供了许多其他的逻辑运算函数，如torch.gt、torch.lt、torch.ge、torch.le、torch.ne等。这些函数的使用方式与torch.eq类似，可以在PyTorch的文档中找到详细说明。

形状操作

张量还可以进行形状操作，包括改变形状、拼接、切片等。例如，我们可以使用torch.reshape函数改变张量的形状：

import torch

# 创建一个形状为(2, 3)的张量
x = torch.randn(2, 3)

# 改变张量的形状
y = torch.reshape(x, (3, 2))
print(y)

上述代码中，我们创建了一个形状为(2, 3)的张量x，然后使用torch.reshape函数将它改变为形状为(3, 2)的张量y。

除了torch.reshape函数之外，PyTorch还提供了许多其他的形状操作函数，如torch.cat、torch.stack、torch.split、torch.chunk等。这些函数的使用方式与torch.reshape类似，可以在PyTorch的文档中找到详细说明。

索引和切片

在PyTorch中，我们可以使用索引和切片操作来访问张量中的元素。例如，我们可以使用索引操作访问张量中的单个元素：

import torch

# 创建一个形状为(2, 3)的张量
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 使用索引操作访问张量中的单个元素
print(x[0, 1])

上述代码中，我们创建了一个形状为(2, 3)的张量x，然后使用索引操作访问了它的第一行第二列元素。

除了索引操作之外，PyTorch还支持各种切片操作，如使用冒号(:)来进行切片。例如，我们可以使用切片操作访问张量的一部分：

import torch

# 创建一个形状为(2, 3)的张量
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 使用切片操作访问张量的一部分
print(x[:, 1:])

上述代码中，我们创建了一个形状为(2, 3)的张量x，然后使用切片操作访问了它的所有行的第二列及以后的元素。

张量的维度变换

在PyTorch中，我们可以使用各种张量操作来改变张量的维度，以便适应不同的任务和模型。下面介绍几种常用的张量维度变换操作：

1. reshape：该操作可以改变张量的形状，但不改变张量中的元素个数。例如，可以将一个形状为(1, 3, 224, 224)的张量转换为形状为(3, 224, 224)的张量，代码如下：

import torch

x = torch.randn(1, 3, 224, 224)
y = x.reshape(3, 224, 224)
print(y.shape)  # 输出：torch.Size([3, 224, 224])

2. transpose：该操作可以交换张量的维度顺序，例如将一个形状为(1, 3, 224, 224)的张量转换为形状为(224, 224, 3)的张量，代码如下：

import torch

x = torch.randn(1, 3, 224, 224)
y = x.transpose(1, 3).transpose(1, 2)
print(y.shape)  # 输出：torch.Size([224, 224, 3])

3. unsqueeze/unsqueeze：该操作可以在指定的维度上添加一个新的维度，例如将一个形状为(3, 224, 224)的张量转换为形状为(1, 3, 224, 224)的张量，代码如下：

import torch

x = torch.randn(3, 224, 224)
y = x.unsqueeze(0)
print(y.shape)  # 输出：torch.Size([1, 3, 224, 224])

4. squeeze/unsqueeze：该操作可以在指定的维度上移除一个维度，例如将一个形状为(1, 3, 224, 224)的张量转换为形状为(3, 224, 224)的张量，代码如下：

import torch

x = torch.randn(1, 3, 224, 224)
y = x.squeeze(0)
print(y.shape)  # 输出：torch.Size([3, 224, 224])

总之，在PyTorch中，张量的维度变换操作可以帮助我们方便地进行数据处理和模型构建，提高代码的可读性和灵活性。需要根据具体的需求选择合适的操作，以达到最优的效果。

常见的数据类型存储

在计算机中，不同类型的数据都有自己特定的存储方式和编码方式。下面简单介绍一下常见数据类型在计算机中的存储方式和张量中的表示方式：

字符串文字：字符串文字在计算机中是由一系列字符组成的，每个字符占用一个字节或多个字节。在PyTorch中，字符串文字可以被表示为一个1维的张量，其中每个元素都代表一个字符的编码。
图片：图片在计算机中通常以像素矩阵的形式存储，每个像素的颜色值可以使用不同的编码方式进行表示，如RGB、灰度、CMYK等。在PyTorch中，图片可以被表示为一个4维的张量，其中第0维表示批次数，第1维表示通道数，第2维表示高度，第3维表示宽度。例如，一个形状为(1, 3, 224, 224)的张量可以表示一张RGB格式的224×224的图片。
视频：视频是由一系列帧组成的，每一帧都可以看作是一张图片。在计算机中，视频通常以帧序列的形式存储。在PyTorch中，视频可以被表示为一个5维的张量，其中第0维表示批次数，第1维表示帧数，第2维表示通道数，第3维表示高度，第4维表示宽度。例如，一个形状为(1, 16, 3, 224, 224)的张量可以表示一段16帧的RGB格式的224×224的视频。
声音：声音是一种连续的信号，可以使用不同的采样率和编码方式进行表示。在PyTorch中，声音可以被表示为一个1维的张量，其中每个元素都代表一个采样点的值。需要注意的是，声音信号的采样率和位深度决定了张量的大小和数据类型。

总之，不同类型的数据在计算机中都有自己的存储方式和编码方式，而在PyTorch中，这些数据都可以被表示为张量，并且可以方便地进行各种张量操作。在实际应用中，我们通常需要将不同类型的数据转换为张量，并将它们输入到神经网络中进行训练和预测。

附录PyTorch官方API中文文档

PyTorch官方API文档的中文版可以在以下网址查看：

https://pytorch.apachecn.org/docs/1.9/

文章出处登录后可见！

已经登录？立即刷新