图像语义分割概述

2023-09-15 16:11:08

图像语义分割概述

一、图像语义分割概念

图像语义分割(Image Semantic Segmentation)是一项计算机视觉任务,其目标是将输入的图像分割成多个区域,并为每个像素分配一个语义类别标签,以表示该像素属于图像中的哪个物体或区域。与其他图像分割任务不同,图像语义分割不仅关注于分割图像,还要理解图像中不同部分的语义含义。

二、传统图像分割算法

2.1 基于阈值的分割方法

阈值法对于背景和目标拥有不同灰度的图像比较适用,它的基本思想是根据图像的灰度特征计算一个或多个灰度阈值,获取图片中所有像素的灰度值,与计算得到的阈值进行逐一比较,最后根据比较结果将像素划分为适当的类别。

阈值法中常用的方法有:固定阈值分割,直方图双峰法,迭代阈值图像分割,自适应阈值图像分割,最大类间方差法,均值法,最佳阈值。

2.2 基于边缘的分割方法

在图像中的两个不同区域中,一个区域到另一个区域会发生灰度和颜色的变化,即在两个区域的边缘发生突变。基于灰度值的边缘检测比较常用,它是一种基于观察的方法,不同区域的边缘的灰度值将显示阶跃或屋顶变化。如果通过傅里叶变换将图像从空间域变换到频域,则边缘对应于高频部分。
微分算子法是最常见的边缘检测算法,它利用一阶导数的极值和二阶导数的零点来确定边缘。要获得更好的分割效果,可以让边缘检测算法和与其互补的分割方法一起使用。

2.3 基于区域的分割方法

基于区域的分割方法通过一定准则来确定一个基础区域,以此进行分割,区域分割方法有两种基本形式,分别为区域生长和全局思想。对于区域生长,以某个像素为中心扩散,合并相似性质的其他像素;对于全局思想,把整张图片作为一个整体,分割成不同的子区域。
常用的区域分割算法有:种子区域生长法,区域分裂合并法,分水岭法

三、基于卷积神经网络的语义分割算法

3.1 FCN

论文网址:https://arxiv.org/abs/1411.4038

全卷积神经网络(fully convolutional networks,FCN)是语义分割的开端,语义分割从此发展速度迅速。网络模型的端到端训练也是由全卷积神经网络实现的。

它的主要贡献在如下三个方面:全卷积,上采样和跳跃连接。

全卷积。在一般 CNN 分类网络中,输入图片的尺寸大小都是依据网络的设计结构决定的,是唯一的,但是 FCN 的图片的输入尺寸是不同大小的。FCN 舍弃了 CNN 分类网络后面的 3 个全连接层,并使用卷积层进行代替,不仅保留了图片的位置信息,而且还整合了 CNN 的输出特征。

上采样。在图片经过一系列的卷积、池化操作之后,得到的特征图尺寸远小于原始图片尺寸,为了将特征图中的像素与原始图像的像素对应,进行像素预测,同时减小分割精度的损失,作者使用了反卷积操作。对特征图进行解码时,使用反卷积进行操作,使得特征图的大小等于原图大小。

跳跃连接。FCN 通过卷积、池化以及反卷积的操作后,丢失了很多细节信息,通过跳跃连接,使得浅层信息和高层语义信息结合起来,使得模型的鲁棒性更强。

3.2 U-Net

论文网址:https://arxiv.org/abs/1505.04597v1

U-Net最初是为了医学图像分割而设计的分割网络,其本身使用的是编码器-解码器结构,并且使用了跳跃连接,对浅层特征和高级语义进行融合操作。

在编码器部分,图片一共经历了 4 次下采样,通过卷积层和最大池化层组合,每一次下采样,特征图的通道数变成原来的 2 倍。在解码器部分,每次上采样之后,都和与之对应下采样的特征图进行融合,之后通道数减半,在解码器的最后一层,使用 1Χ1 卷积将类别数变成期望的分类数。

3.3 PSPnet

论文网址:https://arxiv.org/abs/1612.01105

PSPnet的主要的创新点是提出了金字塔池化模块(pyra-mid pooling module),它能够聚合目标的不同位置的上下文信息,提高捕获全局信息的性能。同时加入了辅助损失函数,使得训练网络时的收敛速度提升。

四、应用场景

  1. 自动驾驶:自动驾驶汽车需要理解道路上的各种物体和障碍物,以做出安全驾驶决策。

  2. 医学图像处理:在医学影像中,语义分割可用于分割出特定组织或病变区域,以帮助医生诊断和治疗。

  3. 遥感图像分析:卫星图像和航拍图像的语义分割可用于土地利用分类、环境监测等应用。

  4. 图像编辑和合成:语义分割可用于图像编辑,例如将一个物体从图像中删除或将不同的物体合成到图像中。

更多推荐

【Python】Python 时域到频域的变换方法

Python时域到频域的变换方法时域到频域的变换方法是信号处理中一个非常重要的概念,它将时域上的信号转换为频域上的信号,方便我们对信号频率特性的分析和处理。一、傅里叶变换傅里叶变换是时域到频域转换的一种常用方法,它将时域上的信号转换成一个连续的复数函数,表示信号在各个频率上的成分。在具体的实现中,可以使用Python中

再想一想GPT

一前言花了大概两天时间看完《这就是ChatGPT》,触动还是挺大的,让我静下来,认真地想一想,是否真正理解了ChatGPT,又能给我们以什么样的启发。二思考在工作和生活中,使用ChatGPT或文心一言,逐渐形成了习惯,总想听听它们的意见。无论是小学作文还是小的编程测试例子,大部分情况下还是能够给我一个比较靠谱的意见,而

JAXB(Java Architecture for XML Binding)下载、使用

简介JAXB(JavaArchitectureforXMLBinding)就是XML数据绑定的java架构。JAXB可以根据XMLSchema生成java类,也能根据java类生成XMLSchema,XML数据绑定指定了XML请求和XML响应如何映射成java对象。JAXB提供了API和工具,可以自动在XML文档和ja

激活函数总结(四十一):激活函数补充(ShiLU、ReLUN)

激活函数总结(四十一):激活函数补充1引言2激活函数2.1ShiLU激活函数2.2ReLUN激活函数3.总结1引言在前面的文章中已经介绍了介绍了一系列激活函数(Sigmoid、Tanh、ReLU、LeakyReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxo

[C++ 网络协议] 套接字和标准I/O

1.标准I/O函数的优缺点优点一:标准I/O函数具有良好的移植性。为了支持所有系统,标准I/O函数都是按照标准来定义的。适用于所有编程领域。优点二:标准I/O函数可以利用缓冲提高性能。使用标准I/O函数会得到额外的缓冲支持,当创建套接字时,操作系统将会生成一个用于I/O的缓冲,同时,当你使用标准I/O函数,将会得到另一

8.gec6818开发板通过并发多线程实现电子相册 智能家居 小游戏三合一完整项目

并发前面编写的程序都是从mian函数开始,从上往下执行,称为顺序执行假设一个程序需要I输入C计算P输出,以顺序执行三个上述程序,则其执行过程如下:程序内部的语句是一条一条的执行,如果要运行多个程序,这些程序也是一个一个的依次执行,若上述的三种操作,每种操作需要的时间都是t,则执行上述三个程序共需要9t而在上述程序的执行

探索AI图像安全,助力可信AI发展

探索AI图像安全,助力可信AI发展0.前言1.人工智能发展与安全挑战1.1人工智能及其发展1.2人工智能安全挑战2.WAIC2023多模态基础大模型的可信AI2.1WAIC2023专题论坛2.2走进合合信息3.AI图像安全3.1图像篡改检测3.2生成式图像鉴别3.3OCR对抗攻击技术4.可信AI技术标准小结相关链接0.

具体项目下解决Echarts多端同步开发和维护的问题

具体问题场景PC端和移动端需要同时上线图表功能(没有多余工时)之后的版本迭代(功能、样式、配置等)默认双端同步,开发人员只希望维护一套代码Echarts在移动端有部分功能不兼容不支持Echarts在移动端的坑①移动端页面使用echarts4中的地图组件,并添加省份的点击事件,响应click无效,eharts也不支持ta

在Ubuntu 系统下开发GUI,用哪种开发工具比较好?

在Ubuntu系统下开发GUI,你可以考虑使用以下几种开发工具:QtCreator:QtCreator是一个跨平台的集成开发环境,专门用于开发基于Qt框架的应用程序。它提供了丰富的图形界面设计工具和代码编辑器,支持C++和QML编程。QtCreator具有良好的跨平台支持和强大的功能,适用于开发各种类型的GUI应用程序

每天一个注解之@WebService

@WebService@WebService是JavaAPIforXMLWebServices(JAX-WS)中的注解,用于标识一个类或接口作为一个可通过网络访问的Web服务。通过使用@WebService注解,你可以将普通的Java类转换成可发布为Web服务的类。以下是@WebService注解的一些常见用法和示例:

webpack:详解代码分离以及插件SplitChunksPlugin的使用

文章目录背景入口起点分离基本使用防重复SplitChunksPlugin插件分离背景基本使用splitChunks.chunkssplitChunks.minChunkssplitChunks.minSizesplitChunks.maxSizesplitChunks.namesplitChunks.cacheGrou

热文推荐