Genshin: General Shield for Natural Language Processing with Large Language Models
文本内容
Large language models (LLMs) like ChatGPT, Gemini, or LLaMA have shown remarkable performance across various domains but face challenges with black box interpretability and vulnerability to adversarial attacks. This paper introduces 'Genshin', a general shield for natural language processing with LLMs, aiming to enhance security by detecting malicious inputs and providing interpretability. Experiments on sentiment analysis and spam detection demonstrate Genshin's effectiveness, with results comparable to BERT using optimal mask rates, and discusses its architecture for systemic improvements.
整体描述
这是一篇学术论文页面,标题为《Genshin: General Shield for Natural Language Processing with Large Language Models》,由长安汽车前瞻技术研究院的小鹏、刘涛、王颖撰写。论文聚焦大型语言模型(如ChatGPT、Gemini、LLaMA)在自然语言处理中的应用与局限,提出名为“Genshin”的通用防护机制,旨在提升LLM的安全性和可解释性。页面包含摘要、引言部分,提及LLM面临的“黑箱”问题与对抗性攻击风险,介绍Genshin通过检测恶意输入、提供文本分类和解释的功能,并提到实验结果在情感分析和垃圾信息检测任务上表现良好,计划在2024年第38届神经信息处理系统会议(NeurIPS 2024)上发表。文中还配有图1(Figure 1),展示Genshin恢复被篡改输入文本并输出分类结果的示例流程。
来源说明
该图像内容为长安汽车前瞻技术研究院研究者撰写的学术论文页面,作者包括小鹏、刘涛、王颖,联系邮箱为[Email: [email protected]]。论文主题围绕大语言模型(LLM)在自然语言处理中的防护机制,提出“Genshin”框架以解决LLM的可解释性不足和对抗性攻击问题。根据页面信息,此研究将在2024年举办的第38届神经信息处理系统会议(NeurIPS 2024)上发表,属于学术会议论文,通常会收录于会议论文集或相关学术数据库(如arXiv、IEEE Xplore等)供科研人员查阅引用。