Python中NumPy库提供的函数——np.random.shuffle的基本用法

一、基本用法

np.random.shuffle是NumPy库中的一个函数，用于随机打乱数组的元素顺序。具体来说，它对排序的数组进行原地（in-place）的随机重排序，打乱数组中元素的排列顺序，以排列随机。

该函数的基本语法如下：

numpy.random.shuffle(x)

其中，x是要打乱顺序的磁盘。请注意，该函数是在原始磁盘上进行操作，不会返回新的磁盘，因此会修改磁盘的磁盘x。

示例用法：

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
np.random.shuffle(arr)
print(arr)  # 可能输出类似 [4, 2, 1, 5, 3] 的随机排列

np.random.shuffle主要用于数据集的随机化，例如，在训练深度学习模型时，可以用它来打乱训练样本的顺序，以保证模型不会受到数据顺序的影响。注意，这个函数不会改变数据库的形状或维度，只是重新排列元素的顺序。如果创建需要一个新的随机排列的数据库，可以先使用函数np.random.permutation创建一个新的数据库。

后面的文章我也会讲解np.random.permutation的用法。

二、在MNIST数据集中获得验证数据代码的举例说明

MNIST数据集，获得验证数据的最简单的方法就是从训练数据中事先分割20%作为验证数据，代码如下所示。

(x_train, t_train), (x_test, t_test) = load_mnist()
# 打乱训练数据
x_train, t_train = shuffle_dataset(x_train, t_train)
# 分割验证数据
validation_rate = 0.20
validation_num = int(x_train.shape[0] * validation_rate)
x_val = x_train[:validation_num]
t_val = t_train[:validation_num]
x_train = x_train[validation_num:]
t_train = t_train[validation_num:]

这里，分割训练数据前，先打乱了输入数据和教师标签。这是因为数据集的数据可能存在偏向（比如，数据从“0”到“10”按顺序排列等）。这里的shuffle_dataset函数利用np.random.shuffle。

上述的大概代码计算了一个用于验证（validation）的样本数量validation_num，以便将数据集分割成训练集和验证集。因为根据不同的数据集，有的会事先分成训练数据、验证数据、测试数据三部分，有的只分成训练数据和测试数据两部分，有的则不进行分割。在这种情况下，用户需要自行进行分割。

具体解释如下：

validation_rate = 0.20：这行定义了验证集所占的比例。在这个例子中，验证集占整个数据集的20%。
x_train.shape[0]：x_train是训练数据集，x_train.shape返回它的形状，其中[0]表示第一个维度的大小，即样本数量。
x_train.shape[0] * validation_rate：本行计算需要指定验证集的样本数量。此时将训练数据集中的总样本数乘以验证率，增加验证集的大小。
int()：这个函数将计算结果转换为整数，以保证验证集的大小为整数。在某些情况下，由于计算机的精度问题，计算结果可能是一个浮点数，因此需要将其转换为整数。

所以，validation_num是一个整数，表示用于验证的样本训练数量，该数量根据验证率和数据集的大小进行计算。计算完成后，你可以用这个数量来从数据集中分离出验证集，以便在模型时进行验证和性能评估。

文章出处登录后可见！

已经登录？立即刷新

Python中NumPy库提供的函数——np.random.shuffle的基本用法

一、基本用法

二、在MNIST数据集中获得验证数据代码的举例说明

相关推荐