使用 Keras/TensorFlow 进行图像分类的 RandAugment

由柏拉图重新发布

关注： 0

长期以来，数据增强一直作为一种用转换后的变体替换“静态”数据集的手段，增强了数据的不变性 卷积神经网络 (CNN)，并且通常会导致输入的鲁棒性。

请注意： 不变性归结为在做出决策时使模型对某些扰动视而不见。如果您镜像或旋转猫的图像，它仍然是猫的图像。

虽然我们一直在使用的数据增强形式确实编码了一个缺乏关于平移方差的知识，这对于对象检测、语义和实例分割等很重要—— 不变性 它通常对分类模型有利，因此，增强更普遍和更积极地应用于分类模型。

增强类型

增强开始非常简单——小幅旋转、水平和垂直翻转、对比度或亮度波动等。近年来，人们设计了更精细的方法，包括剪下（在输入图像中随机引入黑色方块的空间丢失）和混合（混合部分图像并更新标签比例），以及它们的组合—— 切割混合. 较新的增强方法实际上考虑了标签，并且像 CutMix 这样的方法将标签比例更改为等于每个类别的部分被混合的图像所占的比例。

随着可能的增强列表越来越多，一些人已经开始随机应用它们（或至少是其中的一部分），他们认为随机的增强集将增强模型的鲁棒性，并用更大的集合替换原始集输入图像的空间。这是哪里 RandAugment 踢！

KerasCV 和 RandAugment

凯拉斯CV 是一个单独的包，但仍然是 Keras 团队开发的官方补充。这意味着它获得了与主包相同的润色和直观性，但它也与常规 Keras 模型及其层无缝集成。您会注意到的唯一区别是调用 keras_cv.layers... 而不是 keras.layers....

截至撰写本文时，KerasCV 仍在开发中，已经包含 27 个新的预处理层， RandAugment, CutMix及 MixUp 成为其中的一些人。一起来看看申请的样子 RandAugment 到图像，以及我们如何训练一个有和没有随机增强的分类器。

一，安装 keras_cv:

$ pip install keras_cv

请注意： KerasCV 需要 TensorFlow 2.9 才能工作。如果您还没有，请运行 $ pip install -U tensorflow 第一。

现在，让我们导入 TensorFlow、Keras 和 KerasCV，以及 TensorFlow 数据集，以便轻松访问 Imagenette：

import tensorflow as tf
from tensorflow import keras
import keras_cv
import tensorflow_datasets as tfds

让我们加载一个图像并以其原始形式显示它：

import matplotlib.pyplot as plt
import cv2

cat_img = cv2.cvtColor(cv2.imread('cat.jpg'), cv2.COLOR_BGR2RGB)
cat_img = cv2.resize(cat_img, (224, 224))
plt.imshow(cat_img)

现在，让我们申请 RandAugment 给它，几次，看看结果：

fig = plt.figure(figsize=(10,10))
for i in range(16):
    ax = fig.add_subplot(4,4,i+1)
    aug_img = keras_cv.layers.RandAugment(value_range=(0, 255))(cat_img)
    
    ax.imshow(aug_img.numpy().astype('int'))

使用 Keras/TensorFlow PlatoBlockchain 数据智能进行图像分类的 RandAugment。垂直搜索。哎。

该层有一个 magnitude 参数，默认为 0.5 并且可以更改以增加或减少增强的效果：

fig = plt.figure(figsize=(10,10))
for i in range(16):
    ax = fig.add_subplot(4,4,i+1)
    aug_img = keras_cv.layers.RandAugment(value_range=(0, 255), magnitude=0.1)(cat_img)
    ax.imshow(aug_img.numpy().astype('int'))

当设置为低值时，例如 0.1 – 你会看到不那么激进的增强：

使用 Keras/TensorFlow PlatoBlockchain 数据智能进行图像分类的 RandAugment。垂直搜索。哎。

作为一个层——它可以在模型中或在 tf.data 创建数据集时的管道。这使得 RandAugment 相当灵活！额外的论点是 augmentations_per_image 和 rate 论据，它们一起工作。

针对 0...augmentations_per_image，该层将随机预处理层添加到要应用于图像的管道中。在默认的情况下 3 – 三种不同的操作被添加到管道中。然后，为管道中的每个增强采样一个随机数——如果它低于 rate （默认为大约 0.9) – 应用了增强。

本质上，管道中的每个（随机）增强都有 90% 的概率应用于图像。

查看我们的 Git 学习实践指南，其中包含最佳实践、行业认可的标准以及随附的备忘单。停止谷歌搜索 Git 命令，实际上学习它！

这自然意味着不必应用所有增强，尤其是如果您降低 rate. 您还可以通过 RandomAugmentationPipeline 层，其中 RandAugment 是的特例。单独的指南 RandomAugmentationPipeline 即将出版。

使用和不使用 RandAugment 训练分类器

简化数据准备/加载方面并专注于 RandAugment，让我们使用 tfds 加载 Imagenette 的一部分：

(train, valid_set, test_set), info = tfds.load("imagenette", 
                                           split=["train[:70%]", "validation", "train[70%:]"],
                                           as_supervised=True, with_info=True)

class_names = info.features["label"].names
n_classes = info.features["label"].num_classes
print(f'Class names: {class_names}') 
print('Num of classes:', n_classes) 

print("Train set size:", len(train)) 
print("Test set size:", len(test_set)) 
print("Valid set size:", len(valid_set))

我们只加载了一部分训练数据，以便更容易在更少的时期内过度拟合数据集（实际上使我们的实验运行得更快）。由于 Imagenette 中的图像大小不同，让我们创建一个 preprocess() 调整它们的大小以映射数据集的函数，以及 augment() 增强图像中的功能 tf.data.Dataset:

def preprocess(images, labels):
  return tf.image.resize(images, (224, 224)), tf.one_hot(labels, 10)
  
def augment(images, labels):
  inputs = {"images": images, "labels": labels}
  outputs = keras_cv.layers.RandAugment(value_range=(0, 255))(inputs)
  return outputs['images'], outputs['labels']

现在——我们对标签进行一次性编码。我们不一定必须这样做，但是对于像这样的增强 CutMix 篡改标签及其比例，您将不得不这样做。因为您可能想要应用这些以及 RandAugment 与它们配合得非常好，可以创建健壮的分类器——让我们把 one-hot 编码留在里面。此外， RandAugment 正是因为这个原因，才需要一个带有图像和标签的字典——你可以添加的一些增强实际上会改变标签，所以它们是强制性的。您可以从 outputs 字典很容易，所以这是一个额外的，但简单的，在扩充过程中采取的步骤。

让我们映射从返回的现有数据集 tfds 与 preprocess() 函数，对它们进行批处理并仅增加训练集：

valid_set = valid_set.map(preprocess).batch(32).prefetch(tf.data.AUTOTUNE)
train_set = train.map(preprocess).batch(32).prefetch(tf.data.AUTOTUNE)
train_set_aug = train.map(preprocess).map(augment_data, 
                                          num_parallel_calls=tf.data.AUTOTUNE).batch(32).prefetch(tf.data.AUTOTUNE)

让我们训练一个网络！ keras_cv.models 有一些内置的网络，类似于 keras.applications. 虽然名单仍然很短——它会随着时间的推移而扩大并接管 keras.applications. API 非常相似，因此对于大多数从业者来说，移植代码将相当容易：


effnet = keras_cv.models.EfficientNetV2B0(include_rescaling=True, include_top=True, classes=10)
          
effnet.compile(
    loss='categorical_crossentropy',
    optimizer='adam',
    metrics=['accuracy']
)

history = effnet.fit(train_set, epochs=25, validation_data = valid_set)

或者，您可以使用当前的 keras.applications:

effnet = keras.applications.EfficientNetV2B0(weights=None, classes=10)

effnet.compile(
  loss='categorical_crossentropy',
  optimizer='adam',
  metrics=['accuracy']
)

history1 = effnet.fit(train_set, epochs=50, validation_data=valid_set)

这会导致模型表现不佳：

Epoch 1/50
208/208 [==============================] - 60s 238ms/step - loss: 2.7742 - accuracy: 0.2313 - val_loss: 3.2200 - val_accuracy: 0.3085
...
Epoch 50/50
208/208 [==============================] - 48s 229ms/step - loss: 0.0272 - accuracy: 0.9925 - val_loss: 2.0638 - val_accuracy: 0.6887

现在，让我们在增强数据集上训练相同的网络设置。每个批次都是单独增强的，因此每当出现相同批次的图像（在下一个时期）时，它们都会有不同的增强：

effnet = keras.applications.EfficientNetV2B0(weights=None, classes=10)
effnet.compile(
  loss='categorical_crossentropy',
  optimizer='adam',
  metrics=['accuracy']
)

history2 = effnet.fit(train_set_aug, epochs=50, validation_data = valid_set)

Epoch 1/50
208/208 [==============================] - 141s 630ms/step - loss: 2.9966 - accuracy: 0.1314 - val_loss: 2.7398 - val_accuracy: 0.2395
...
Epoch 50/50
208/208 [==============================] - 125s 603ms/step - loss: 0.7313 - accuracy: 0.7583 - val_loss: 0.6101 - val_accuracy: 0.8143

好多了！虽然您仍想应用其他增强功能，例如 CutMix 和 MixUp，与其他训练技术一起最大限度地提高网络的准确性 - 只是 RandAugment 显着帮助并且可以与更长的增强管道相媲美。

如果比较训练曲线，包括训练和验证曲线——只有清楚多少 RandAugment 帮助：

使用 Keras/TensorFlow PlatoBlockchain 数据智能进行图像分类的 RandAugment。垂直搜索。哎。