Keras/TensorFlow 损失函数中的“from

由柏拉图重新发布

关注： 0

像 Keras 这样的深度学习框架降低了大众的进入门槛，并将 DL 模型的开发民主化给没有经验的人，他们可以依靠合理的默认值和简化的 API 来首当其冲地承担繁重的工作，并产生不错的结果。

在使用 Keras 损失函数进行分类时，新的深度学习从业者之间会出现一个常见的混淆，例如 CategoricalCrossentropy 和 SparseCategoricalCrossentropy:

loss = keras.losses.SparseCategoricalCrossentropy(from_logits=True)

loss = keras.losses.SparseCategoricalCrossentropy(from_logits=False)

什么是 from_logits 标志指的是什么？

答案相当简单，但需要查看我们尝试使用损失函数分级的网络输出。

Logits 和 SoftMax 概率

长话短说：

概率被归一化——即有一个范围在 [0..1]. Logits 没有标准化，并且可以有一个范围 [-inf...+inf].

根据网络的输出层：

output = keras.layers.Dense(n, activation='softmax')(x)

output = keras.layers.Dense(n)(x)

输出 Dense 层将或返回：

概率: 输出通过 SoftMax 函数将输出归一化为一组概率 n, 所有加起来 1.
Logits: n 激活。

这种误解可能源于允许您向层添加激活的简写语法，似乎作为单层，即使它只是以下内容的简写：

output = keras.layers.Dense(n, activation='softmax')(x)

dense = keras.layers.Dense(n)(x)
output = keras.layers.Activation('softmax')(dense)

您的损失函数必须被告知它是否应该期望归一化分布（输出通过 SoftMax 函数）或 logits。因此， from_logits 旗帜！

什么时候应该 from_logits=真?

如果您的网络标准化输出概率，您的损失函数应该设置 from_logits 至 False，因为它不接受 logits。这也是所有接受标志的损失类的默认值，因为大多数人添加一个 activation='softmax' 到他们的输出层：

model = keras.Sequential([
    keras.layers.Input(shape=(10, 1)),
    
    keras.layers.Dense(10, activation='softmax') 
])

input_data = tf.random.uniform(shape=[1, 1])
output = model(input_data)
print(output)

结果是：

tf.Tensor(
[[[0.12467965 0.10423233 0.10054766 0.09162105 0.09144577 0.07093797
   0.12523937 0.11292477 0.06583504 0.11253635]]], shape=(1, 1, 10), dtype=float32)

由于该网络导致归一化分布——当将输出与目标输出进行比较时，并通过分类损失函数对它们进行分级（针对适当的任务）—— 你应该设置 from_logits 至 False，或者保留默认值。

另一方面，如果您的网络没有在输出上应用 SoftMax：

model = keras.Sequential([
    keras.layers.Input(shape=(10, 1)),
    
    keras.layers.Dense(10)
])

input_data = tf.random.uniform(shape=[1, 1])
output = model(input_data)
print(output)

结果是：

tf.Tensor(
[[[-0.06081138  0.04154852  0.00153442  0.0705068  -0.01139916
    0.08506121  0.1211026  -0.10112958 -0.03410497  0.08653068]]], shape=(1, 1, 10), dtype=float32)

你需要设置 from_logits 至 True 让损失函数正确处理输出。