图像处理流程总览

从传统方法到 AI 驱动的完整流程

flowchart LR A[图像获取] --> B[预处理] B --> C[特征提取] C --> D[图像分析] D --> E[后处理] E --> F[应用输出] subgraph B[预处理阶段] direction TB B1[几何变换] B2[滤波去噪] B3[图像增强] B4[AI 超分] end subgraph C[特征提取] direction TB C1[边缘检测] C2[角点检测] C3[纹理分析] C4[深度特征] end subgraph D[图像分析] direction TB D1[阈值分割] D2[形态学处理] D3[传统分类] D4[AI 分割检测] end B --> B1 B --> B2 B --> B3 B --> B4 C --> C1 C --> C2 C --> C3 C --> C4 D --> D1 D --> D2 D --> D3 D --> D4

图像处理基础

从传统方法到 AI 驱动的图像处理技术

auto_awesome 新技术趋势

psychology 深度学习模型
  • check_circle Vision Transformer (ViT) - 替代 CNN 的主流架构
  • check_circle SAM (Segment Anything) - 通用图像分割模型
  • check_circle 扩散模型 - 图像生成和修复
  • check_circle NeRF/Gaussian Splatting - 3D 场景重建
cloud 边缘计算与云处理
  • check_circle 端侧 AI - 手机/嵌入式设备实时处理
  • check_circle 云边协同 - 分布式图像处理
  • check_circle 联邦学习 - 隐私保护的模型训练
  • check_circle 实时处理 - 4K/8K 视频流处理

history_edu 传统图像处理方法

crop_rotate 几何变换
  • check_circle 平移/旋转/缩放 - 基本空间变换
  • check_circle 仿射变换 - 保持平行线性质的变换
  • check_circle 透视变换 - 模拟视角变化
  • check_circle 插值方法 - 最近邻、双线性、双三次
blur_on 滤波与去噪
  • check_circle 均值/高斯滤波 - 线性平滑滤波
  • check_circle 中值滤波 - 非线性去椒盐噪声
  • check_circle 双边滤波 - 保边去噪
  • check_circle 维纳滤波 - 最优复原滤波
edges 边缘检测
  • check_circle Sobel/Prewitt - 一阶微分算子
  • check_circle Laplacian/LoG - 二阶微分算子
  • check_circle Canny - 最优边缘检测算法
  • check_circle Hough 变换 - 直线和形状检测
category 形态学操作
  • check_circle 腐蚀/膨胀 - 基本形态学操作
  • check_circle 开/闭运算 - 去噪和填充
  • check_circle 形态学梯度 - 边缘提取
  • check_circle 骨架化 - 提取对象中心线
pie_chart 图像分割
  • check_circle 阈值分割 - Otsu、自适应阈值
  • check_circle 区域生长 - 基于相似性合并
  • check_circle 分水岭算法 - 基于拓扑理论
  • check_circle K-means 聚类 - 无监督分割
tune 频域处理
  • check_circle 傅里叶变换 - 时域到频域转换
  • check_circle 离散余弦变换 - JPEG 压缩基础
  • check_circle 小波变换 - 多尺度分析
  • check_circle 频域滤波 - 低通/高通/带通

table_chart 图像类型对比

image 图像类型 pixel 像素表示 storage 数据量 apps 典型应用 thumb_up 优点
二值图像 0 或 1 1 bit/像素 文档扫描、OCR 数据量极小,处理简单
灰度图像 0-255 8 bit/像素 医学影像、工业检测 保留亮度信息,计算效率高
RGB 彩色图像 (R,G,B) 24 bit/像素 摄影、显示 符合人眼感知,色彩丰富
多光谱图像 多波段数据 可变 遥感、农业监测 包含不可见光信息
深度图像 距离值 16-32 bit/像素 3D 重建、机器人导航 包含空间深度信息
神经辐射场 (NeRF) 隐式表示 紧凑 VR/AR、3D 内容 高质量新视角合成
高斯泼溅 (3DGS) 3D 高斯分布 中等 实时 3D 渲染 实时渲染、易编辑

palette 色彩模型转换关系

flowchart TD RGB[RGB 模型
红绿蓝三原色] <--> HSV[HSV 模型
色调/饱和度/明度] RGB <--> CMYK[CMYK 模型
印刷四色] RGB <--> Lab[Lab 模型
感知均匀空间] RGB <--> YUV[YUV 模型
视频信号] RGB <--> YCbCr[YCbCr 模型
数字视频] HSV -.->|颜色调整 | App1[图像编辑] CMYK -.->|印刷输出 | App2[印刷行业] Lab -.->|颜色匹配 | App3[色彩管理] YUV -.->|视频压缩 | App4[视频编码] YCbCr -.->|数字传输 | App5[数字电视]

analytics 图像质量指标关系

flowchart LR subgraph 空间域 A1[分辨率] A2[动态范围] A3[色彩深度] end subgraph 统计域 B1[MSE 均方误差] B2[PSNR 峰值信噪比] B3[SSIM 结构相似性] end subgraph 感知域 C1[熵] C2[直方图] C3[矩特征] end A1 --> B1 A2 --> B2 A3 --> B3 B1 --> C1 B2 --> C2 B3 --> C3

settings 数字化过程:采样与量化

sequenceDiagram participant A as 连续图像 participant B as 空间采样 participant C as 离散像素网格 participant D as 灰度量化 participant E as 数字图像 A->>B: 按采样频率采集 Note over B: 奈奎斯特采样定理
采样频率>2×最高频率 B->>C: 生成像素位置 C->>D: 分配灰度值 Note over D: 0-255 灰度级 D->>E: 形成数字图像 Note right of A: 模拟信号 Note right of C: 空间离散 Note right of E: 完全数字化
info 说明

图像数字化包含两个步骤:空间采样确定像素位置,灰度量化确定像素值。采样不足会导致混叠现象,量化级数过少会产生伪轮廓。

blur_on 常见噪声模型对比

noise_aware 噪声类型 insights 概率分布 build 产生原因 visibility 视觉特征 cleaning_services 去噪方法
高斯噪声 正态分布 电子电路热噪声 均匀分布的细颗粒 高斯滤波、维纳滤波
椒盐噪声 脉冲分布 信号传输错误 随机黑白点 中值滤波
泊松噪声 泊松分布 光子计数统计 与信号强度相关 方差稳定变换
乘性噪声 与信号相乘 相干成像系统 斑点状图案 同态滤波

grid_on 像素邻域关系

flowchart TD subgraph 邻域类型 direction TB C4[(4 邻域
中心)] C8[(8 邻域
中心)] end subgraph 4 邻域 direction TB N4_1[上] --- C4 N4_2[下] --- C4 N4_3[左] --- C4 N4_4[右] --- C4 end subgraph 8 邻域 direction TB N8_1[上] --- C8 N8_2[下] --- C8 N8_3[左] --- C8 N8_4[右] --- C8 N8_5[左上] --- C8 N8_6[右上] --- C8 N8_7[左下] --- C8 N8_8[右下] --- C8 end subgraph 距离度量 D1[欧氏距离] D2[城市街区距离] D3[棋盘距离] end C4 --> D1 C8 --> D2

donut_large 图像统计特征

pie title 统计特征应用分布 "直方图" : 30 "均值" : 25 "方差" : 20 "熵" : 15 "矩特征" : 10
统计特征说明
直方图 (30%)

像素强度分布图,用于分析图像亮度分布

均值 (25%)

图像的平均亮度水平

方差 (20%)

图像对比度的度量

熵 (15%)

图像信息量的度量

矩特征 (10%)

描述图像形状的统计量

图像文件格式

传统格式与新一代编码标准

description 格式 compress 压缩类型 transparency 透明度 pie_chart 典型大小 target 最佳用途
JPEG 有损压缩 close 照片、网页图片
PNG 无损压缩 check 中等 图形、图标、截图
WEBP 高压缩 check 很小 现代网页
AVIF AI 增强 check 极小 下一代网页格式
JPEG XL 可逆 check 专业摄影、存档
HEIC/HEIF 高效 check 很小 移动设备
RAW 无损 close 很大 专业摄影后期
OpenEXR HDR check 电影、VFX

深度学习框架

主流图像处理 AI 框架和模型

psychology 核心框架
  • PyTorch 2.x

    动态图、易调试,研究首选

  • TensorFlow 3.x

    生产部署、TPU 支持

  • JAX

    高性能计算、函数式编程

  • ONNX Runtime

    跨平台推理引擎

model_training 预训练模型
  • SAM (Segment Anything)

    Meta 通用分割模型

  • YOLOv10/v11

    实时目标检测

  • Stable Diffusion XL

    图像生成和编辑

  • DINOv2

    自监督视觉 Transformer

行业应用

图像处理技术在各行各业的应用

local_hospital
医疗健康

AI 辅助诊断、病理分析、手术导航、药物研发

directions_car
自动驾驶

环境感知、路径规划、行为预测、高精地图

shopping_cart
零售电商

商品识别、虚拟试穿、智能货架、无人商店

factory
工业检测

缺陷检测、质量控制、预测性维护、机器人引导

security
安防监控

人脸识别、行为分析、异常检测、智能追踪

satellite
遥感测绘

土地利用、灾害监测、城市规划、农业估产