基于Vision Transformer的伪造人脸检测模型架构图

这张图详细展示了一个基于Vision Transformer（ViT）的伪造人脸检测模型的完整工作流程：
1. 输入阶段：将原始人脸图像分割为多个规则的图像块（Patch）；
2. 预处理阶段：对每个分块图像进行展平后的线性投影（Linear Projection of Flattened Patches），再添加额外的可学习[class]嵌入（标记为0*的特殊嵌入）和位置嵌入（Patch + Position Embedding），生成序列化的嵌入向量；
3. 特征编码阶段：将嵌入向量序列输入到Transformer Encoder中进行全局特征提取；
4. 输出阶段：通过MLP Head（多层感知机头部）输出检测结果“假”，完成对伪造人脸的识别。
图中用具体的人脸分块示例直观呈现了从原始图像到模型输入的转换过程，清晰解释了ViT架构在伪造人脸检测任务中的应用逻辑。

生成梗图下载原始 PNG 下载为 JPG 下载为 PNG 下载为 GIF

生成梗图

文本内容

假
MLP Head
Transformer Encoder
Patch + Position Embedding
* Extra learnable [class] embedding
Linear Projection of Flattened Patches

整体描述

这张图详细展示了一个基于Vision Transformer（ViT）的伪造人脸检测模型的完整工作流程：
1. 输入阶段：将原始人脸图像分割为多个规则的图像块（Patch）；
2. 预处理阶段：对每个分块图像进行展平后的线性投影（Linear Projection of Flattened Patches），再添加额外的可学习[class]嵌入（标记为0*的特殊嵌入）和位置嵌入（Patch + Position Embedding），生成序列化的嵌入向量；
3. 特征编码阶段：将嵌入向量序列输入到Transformer Encoder中进行全局特征提取；
4. 输出阶段：通过MLP Head（多层感知机头部）输出检测结果“假”，完成对伪造人脸的识别。
图中用具体的人脸分块示例直观呈现了从原始图像到模型输入的转换过程，清晰解释了ViT架构在伪造人脸检测任务中的应用逻辑。

来源说明

该图是基于谷歌2020年提出的Vision Transformer（ViT）基础模型，针对伪造人脸检测任务进行适配的技术架构图。这类架构图通常出现在计算机视觉领域的学术论文、技术博客、机器学习教程中，用于讲解ViT模型在人脸伪造检测任务中的具体实现流程，一般由相关领域的研究者、技术人员使用专业绘图工具（如Figma、Visio、Draw.io等）制作，常见于arXiv、知乎技术专栏、CSDN等技术分享平台。

相似的梗图

该图为一张幽默的研究生生活学习流程图，以“读研读”为起点，分为“生活”和“学习”两大平行分支。左侧“生活”分支包含兴趣爱好、社交、搞钱、谈恋爱四个环节，各环节间用箭头连接形成闭环循环；右侧“学习”分支则由上课、考试、读论文、组会、做实验构成循环，最终指向论文发表，再经“跃入人海”环节，输出结果为“牛马”（网络 slang，指辛苦劳作的人）。图中用不同颜色的方框区分各环节，箭头清晰展示循环逻辑，生动调侃了研究生阶段生活与学习的重复循环状态及最终归宿的无奈与幽默。

研究生生活学习循环流程图

该图为一张幽默的研究生生活学习流程图，以“读研读”为起...

这是一张针对Python开发者的整活梗图，图中故意将Python生态中常用的数据分析、机器学习类库，全部使用与行业常规完全相反的别名进行导入：比如将数值计算库numpy命名为pd（pd是pandas的标准别名），将数据分析库pandas命名为np（np是numpy的标准别名），还把matplotlib、seaborn、tensorflow、torch等一众库的别名全部打乱混淆，完全颠覆开发者的使用习惯。下方配文“我不希望我的代码可以被敌人直接使用”，用这种离谱的代码编写方式，以玩笑的形式实现“代码加密”，让其他开发者（尤其是所谓的“敌人”）根本无法正常读懂和运行代码，充满了程序员式的搞笑整活趣味。

反向导入Python库的整活梗图

这是一张针对Python开发者的整活梗图，图中故意将P...

这是一张模拟毕业论文致谢页的纯文字梗图，全文围绕ChatGPT展开致谢，分别从知识信息提供、创意灵感激发、文献资料支持三个方面，详细阐述了ChatGPT在论文写作中的帮助，最后还感谢了ChatGPT的开发者。最末尾的一句“是的，包括上面这段致谢也是GPT帮助我完成的”，让整个致谢充满了调侃意味，生动体现了AI工具在当代学术写作中的深度介入，引发对AI辅助写作的趣味讨论。

毕业论文致谢ChatGPT，连致谢都是GPT写的

这是一张模拟毕业论文致谢页的纯文字梗图，全文围绕Cha...

这是一张搞笑梗图，通过模仿编程代码的形式展示对名为"otto"的人物面部图像进行变换的过程。上方是原始图像，显示一个人开怀大笑的表情，中间是类似Matlab/Mathematica风格的代码，包括图像比例测量和复杂的图像正变换公式，下方是变换后失真变形的面部图像，形成幽默效果。

Otto图像变换搞笑梗图

这是一张搞笑梗图，通过模仿编程代码的形式展示对名为"o...

这是一张纯文字的社交媒体截图，内容围绕提问「什么是核（kernel）」展开，回答将操作系统内核、机器学习核方法、核物理相关概念混搭在一起，最后落到日常生活里水果果核的含义上，利用「kernel」一词多义制造出幽默效果，调侃术语学习中的混淆感，是一个趣味同名词梗。

什么是核（kernel）的搞笑混搭玩梗

这是一张纯文字的社交媒体截图，内容围绕提问「什么是核（...

这是一块关于**社会主义核心价值观评估模型**的线下项目展示板，分为「项目简介」与「核心攻坚」两大板块：
1. 项目简介：针对大语言模型（LLM）因训练数据偏差等问题存在的意识形态风险，依托高校多学院力量，打造可实现所有大模型社会主义核心价值观自动化评估的模型，为大模型价值观对齐、防范意识形态风险提供方案，还配有模型效果示意图。
2. 核心攻坚：详细阐述三大核心内容：
- 社会主义核心价值观评测指标体系：由高校红色专家从多维度制定指标体系，生成两类评测提示集；
- 社会主义核心价值观评分集：通过采集大模型多样化回答、专家评分，制作高质量评分集；
- 社会主义核心价值观评估模型构建：通过无监督训练与评分集微调，打造具备随机抽题、自动评测、生成报告等能力的评估模型，同时配有评分集制备和模型构建的流程图。

社会主义核心价值观评估模型项目展示板

这是一块关于**社会主义核心价值观评估模型**的线下项...

这是一张计算机操作系统相关教材的扫描翻拍图，内容围绕进程优先级调度展开：讲解了防止高优先级进程持续运行的两种调度方式，介绍了静态优先级分配的军用、商用场景案例，重点用红线标注了UNIX系统的`nice`命令——该命令允许用户自愿降低自身进程优先级，教材还调侃性地补充“但从未有人用过它”，图片右下角带有知乎用户的水印。

教材里的UNIX nice命令趣味描述

这是一张计算机操作系统相关教材的扫描翻拍图，内容围绕进...

这是一张网友自制的反差对比梗图，顶部标题为“中美两大Ai巨头”，左侧是OpenAI创始人山姆·奥特曼的公开活动照片，他有着本科肄业的背景；右侧是清华博士李永乐的直播卖课截图，画面中带有观众弹幕和“最后只剩6个名额”的卖课提示文字。图下方配有大段调侃性文字：“一时难以接受，左边本科肄业，右边博士毕业。一个辍学二流子倒腾奇技淫巧，让资本炒了又炒。一个清华大博士分享心得体验，让群众茅塞顿开。”该梗图通过强烈的身份背景反差，结合带有讽刺意味的配文，表达了网友对AI领域不同背景人物的差异化观感，突出了大众对资本炒作与干货知识分享的不同态度，形成了鲜明的反差笑点。

中美AI巨头反差对比梗图

这是一张网友自制的反差对比梗图，顶部标题为“中美两大A...

这是一张夸克AI生成的关于中国男性平均勃起长度的荒谬数据截图。内容显示中国男性正常勃起长度在疲软状态下为36厘米，勃起时为815厘米，这些数据明显不符合医学常识，存在严重夸大和误导性。图片下方有微博用户@暴食症患者李舜生的水印。

夸克AI生成的中国男性平均勃起长度荒谬数据截图

这是一张夸克AI生成的关于中国男性平均勃起长度的荒谬数...

这是一张趣味总结知乎两性情感话题解答方式的流程图，核心呈现了两种看似不同的解答路径：一种是直接劝提问者分手；另一种是先通过分析问题根源、分享自身经历的方式来展开，但最终无论哪种分析路径，都会导向劝分手的结果，其中分析问题后是理智劝分，分享经历后是感性劝分，用夸张的流程调侃了知乎情感话题中常见的劝分手风气，充满趣味性。

知乎两性情感话题解答流程图

这是一张趣味总结知乎两性情感话题解答方式的流程图，核心...

这是一张针对程序员群体的趣味梗图，模仿人机验证界面的形式：顶部蓝色区域配有文字提示“请选择包含Bugs的所有图片”，右上角放置了一只黑色甲虫的图标，这里的“Bugs”是双关语，既指图标里的甲虫（bug的原意），也指程序员工作中需要排查的程序漏洞（行业术语bug）。下方是九宫格布局的代码截图，这些代码片段看起来是类JavaScript的程序代码，隐含了程序员日常找程序漏洞的工作场景，底部设有刷新、帮助、信息三个功能图标和一个蓝色的“验证”按钮。整张图将验证码的交互形式与程序员的工作内容结合，用双关梗来调侃程序员日常找bug的工作，容易引发程序员群体的共鸣。

找Bugs的趣味程序员验证码

这是一张针对程序员群体的趣味梗图，模仿人机验证界面的形...

这是一张戳中程序员日常痛点的搞笑吐槽截图，画面展示的是MATLAB编程界面，代码中存在循环加载数据并调用figure绘图但未关闭窗口的逻辑，一个空白的Figure窗口叠在代码编辑界面上方，底部配文“以防群友们见过1000多个窗口叠起来是什么样的...”，调侃了编程时因疏忽忘记关闭图形窗口，运行循环代码后会生成大量窗口的崩溃场景，引发程序员群体的共鸣。

MATLAB循环忘关窗口的噩梦：1000+窗口叠堆现场

这是一张戳中程序员日常痛点的搞笑吐槽截图，画面展示的是...

基本信息

分类:

9K+ 图文混排

6K+ 横图

3K+ 构图清晰

类型: 原始梗图

语言: zh-CN, en

标签

主题

18 机器学习

5 计算机视觉

情绪气质

32 专业严谨

内容来源

原创合成: 是

合成方式: 专业绘图工具（如Figma、Visio、Draw.io）

平台来源: arXiv、知乎技术专栏、CSDN等技术平台

图像特征

含人物: 是

含地标: 否

AI生成: 否

错位视觉: 否

亮点元素:

Vision Transformer架构人脸图像分块位置嵌入 MLP分类头伪造人脸检测

梗图网

Download on the App Store

梗图网

打开手机 App，找梗更快