基于Vision Transformer的伪造人脸检测模型架构图
文本内容
假
MLP Head
Transformer Encoder
Patch + Position Embedding
* Extra learnable [class] embedding
Linear Projection of Flattened Patches
整体描述
这张图详细展示了一个基于Vision Transformer(ViT)的伪造人脸检测模型的完整工作流程:
1. 输入阶段:将原始人脸图像分割为多个规则的图像块(Patch);
2. 预处理阶段:对每个分块图像进行展平后的线性投影(Linear Projection of Flattened Patches),再添加额外的可学习[class]嵌入(标记为0*的特殊嵌入)和位置嵌入(Patch + Position Embedding),生成序列化的嵌入向量;
3. 特征编码阶段:将嵌入向量序列输入到Transformer Encoder中进行全局特征提取;
4. 输出阶段:通过MLP Head(多层感知机头部)输出检测结果“假”,完成对伪造人脸的识别。
图中用具体的人脸分块示例直观呈现了从原始图像到模型输入的转换过程,清晰解释了ViT架构在伪造人脸检测任务中的应用逻辑。
来源说明
该图是基于谷歌2020年提出的Vision Transformer(ViT)基础模型,针对伪造人脸检测任务进行适配的技术架构图。这类架构图通常出现在计算机视觉领域的学术论文、技术博客、机器学习教程中,用于讲解ViT模型在人脸伪造检测任务中的具体实现流程,一般由相关领域的研究者、技术人员使用专业绘图工具(如Figma、Visio、Draw.io等)制作,常见于arXiv、知乎技术专栏、CSDN等技术分享平台。