使用 Cv2.adaptiveThreshold() 在 Python 中的 OpenCV 自适应阈值

由柏拉图重新发布

关注： 0

介绍

阈值化是一种简单而有效的技术，可以在图像中执行基本分割，并将其二值化（将其转换为二值图像），其中像素是 0 or 1 （或 255 如果您使用整数来表示它们）。

通常，您可以使用阈值在图像中执行简单的背景 - 前景分割，它归结为每个像素的简单技术的变体：

if pixel_value > threshold:
    pixel_value = MAX
else:
    pixel_value = 0

简单的阈值处理具有明显的问题，并且需要相当原始的输入，这使得它对于许多用例来说不太实用。主要问题是应用于整个图像的全局阈值，而图像很少均匀到足以使总阈值起作用，除非它们是人为的。

全局阈值可以很好地在扫描页面上分离黑白书中的字符。在同一页面的手机图片上，全局阈值很可能会失败，因为页面各部分之间的光照条件可能会发生变化，从而使全局截止点对真实数据过于敏感。

为了解决这个问题——我们可以雇用本地阈值，使用一种称为 自适应阈值. 我们可以改变每个部分的阈值，而不是用相同的规则处理图像的所有部分当地这似乎很合适。这使得阈值对光照、噪声和其他因素的变化部分保持不变。虽然比全局阈值化更有用，但阈值化本身是一种有限的、严格的技术，最适合用于帮助图像预处理（尤其是在识别要丢弃的图像时），而不是分割。

对于需要上下文的更精细的应用程序，您最好采用更先进的技术，包括深度学习，这一直在推动计算机视觉的最新进展。

使用 OpenCV 进行自适应阈值处理

让我们加载具有可变光照条件的图像，其中图像的一部分比另一部分更聚焦，并且图片是从一个角度拍摄的。我给哈罗德·麦吉拍的一张照片 “关于食物和烹饪” 会很棒！

img = cv2.imread('book.jpg')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(img)

现在，使用常规阈值，我们可以尝试从背景中分离出字母，因为它们之间存在明显的颜色差异。所有纸张颜色将被视为背景。由于我们真的不知道阈值应该是什么——让我们应用 Otsu 的方法来找到一个好的值，预计图像有点双模态（主要由两种颜色控制）：

img = cv2.imread('book.jpg')


gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
blurred = cv2.GaussianBlur(gray, (7, 7), 0)

ret, mask = cv2.threshold(blurred, 0, 255, cv2.THRESH_OTSU)
print(f'Threshold: {ret}')

fig, ax = plt.subplots(1, 2, figsize=(12, 5))
ax[0].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
ax[1].imshow(cv2.cvtColor(mask, cv2.COLOR_BGR2RGB))

让我们看一下结果：

使用 cv2.adaptiveThreshold() 在 Python 中实现 OpenCV 自适应阈值 PlatoBlockchain 数据智能。垂直搜索。人工智能。

哎哟。左边的文字主要是褪色，gutter周围的阴影完全吃掉了一部分图像，文字太饱和了！这是一张“在野外”的图像，全局阈值等一揽子规则效果不佳。门槛应该是多少？这取决于图像的部分！

cv2.adaptiveThreshold() 方法允许我们这样做：

cv2.adaptiveThreshold(img, 
                      max_value, 
                      adaptive_method, 
                      threshold_method, 
                      block_size, 
                      C)

adaptive_method 可以是一个 cv2.ADAPTIVE_THRESH_MEAN_C or cv2.ADAPTIVE_THRESH_GAUSSIAN_C，其中 C 是您设置的最后一个参数。这两种方法都根据相关像素的邻居计算阈值，其中 block_size 规定要考虑的邻居的数量（邻居的面积）。

ADAPTIVE_THRESH_MEAN_C 取邻居的平均值并减去 C，而 ADAPTIVE_THRESH_GAUSSIAN_C 取邻居的高斯加权和并扣除 C.

查看我们的 Git 学习实践指南，其中包含最佳实践、行业认可的标准以及随附的备忘单。停止谷歌搜索 Git 命令，实际上学习它！

它还允许您设置二值化策略，但仅限于 THRESH_BINARY 和 THRESH_BINARY_INV，并且在它们之间进行切换将有效地切换什么是“背景”和什么是“前景”。

该方法只返回图像的掩码——而不是返回码和掩码。让我们尝试使用自适应阈值分割同一图像中的字符：


img = cv2.imread('book.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
blurred = cv2.GaussianBlur(gray, (7, 7), 0)


mask = cv2.adaptiveThreshold(blurred, 
                              255, 
                              cv2.ADAPTIVE_THRESH_MEAN_C, 
                              cv2.THRESH_BINARY, 
                              31, 
                              10)


fig, ax = plt.subplots(1, 2, figsize=(12, 5))
ax[0].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
ax[1].imshow(cv2.cvtColor(mask, cv2.COLOR_BGR2RGB))
plt.tight_layout()

这会产生更清晰的图像：

使用 cv2.adaptiveThreshold() 在 Python 中实现 OpenCV 自适应阈值 PlatoBlockchain 数据智能。垂直搜索。人工智能。

请注意： block_size 参数必须是奇数。

以同样的方式，我们可以应用高斯阈值：

mask = cv2.adaptiveThreshold(blurred, 
                              255, 
                              cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
                              cv2.THRESH_BINARY, 
                              31, 
                              10)

这最终也产生了一个非常令人满意的图像：

使用 cv2.adaptiveThreshold() 在 Python 中实现 OpenCV 自适应阈值 PlatoBlockchain 数据智能。垂直搜索。人工智能。