Skip to content

对AI大模型的逆向工程有哪些分类?对应的方向如何?

对 AI 大模型的“逆向工程”可以按研究对象技术目标分类。这个词容易混淆:有些方向是合法的模型理解、安全评估;有些方向可能涉及窃取模型、绕过安全机制或提取训练数据,需要严格限制在授权环境内。

1. 黑盒逆向:只通过输入输出推断模型行为

研究对象是不可见权重、不可见结构、只能调用 API 的模型

主要方向:

分类目标典型方法合法用途
行为画像推断模型能力边界、偏好、缺陷大规模提示测试、基准评测、对抗样本模型选型、安全测评
系统提示推断分析模型隐藏规则、角色设定、拒答边界prompt probing、上下文扰动红队评估、防护改进
输出分布分析推断解码策略、温度、风格偏置多次采样、概率统计API 行为理解
模型指纹识别判断某 API 背后可能是哪类模型特征题集、风格签名、错误模式供应链审计
模型抽取/蒸馏用 API 输出训练替代模型query-response 采样、知识蒸馏仅限授权场景;否则可能侵权

其中模型抽取是风险最高的黑盒逆向方向,容易触及商业秘密、服务条款和知识产权问题。


2. 白盒逆向:分析可获得权重的开源模型

研究对象是本地可加载的模型权重、结构、激活、中间层

主要方向:

分类目标典型方法对应方向
架构分析理解模型结构、参数规模、模块设计查看 config、层结构、attention/MLP 分布模型工程、部署优化
权重分析分析参数分布、剪枝空间、异常权重权重统计、谱分析、稀疏性分析压缩、量化、加速
激活分析找出输入如何触发内部状态变化activation patching、logit lens可解释性
神经元/特征解释识别特定神经元或方向表示什么概念feature attribution、SAE机制可解释性
电路分析找出完成某任务的内部计算路径attention head 分析、path patchingmechanistic interpretability
表示空间分析分析语义、风格、安全概念在向量空间的位置PCA、CCA、线性探针对齐、安全控制

这个方向更偏机制解释、模型压缩、对齐研究,技术含量高,也更适合做严肃研究。


3. 数据逆向:推断训练数据或数据分布

研究对象是模型学到的数据痕迹。

主要方向:

分类目标风险
训练数据成员推断判断某条数据是否在训练集中隐私风险高
训练数据重构尝试恢复模型记忆的文本、代码、个人信息高风险
数据分布推断分析训练语料偏向、语言比例、领域覆盖可用于审计
版权/泄露检测判断模型是否过度记忆某些受保护内容合规、安全

这个方向在安全研究中有价值,但必须避免变成数据窃取。更稳妥的方向是做隐私风险评估、去重、去记忆化、合规审计。


4. 安全机制逆向:分析模型拒答、对齐和防护逻辑

研究对象是模型的安全策略、拒答机制、对齐边界。

主要方向:

分类目标典型问题
拒答边界分析判断哪些请求会被拒绝、哪些会被回答安全策略一致性
jailbreak 评估测试模型是否能被诱导绕过规则红队测试
安全分类器分析推断输入过滤器或输出过滤器行为防护可靠性
对齐脆弱性分析分析角色扮演、多轮上下文、编码变换下的失效鲁棒性
防御机制设计构建更稳健的安全层安全工程

合法方向应聚焦于评估与加固,而不是传播绕过方法。


5. 工程逆向:面向部署、格式、推理框架

研究对象是模型文件、推理引擎、部署链路。

主要方向:

分类目标
模型格式分析解析 safetensors、GGUF、ONNX、TensorRT engine 等格式
量化逆向分析 int8/int4/GPTQ/AWQ 等量化方案
推理性能分析找瓶颈:KV cache、attention、batching、显存占用
服务链路分析分析 API 网关、调度、缓存、限流机制
兼容性迁移在不同框架间转换模型

这个方向最工程化,适合 IT、系统、部署、推理优化背景。


6. 多模态模型逆向

对象从纯文本 LLM 扩展到 VLM、文生图、语音模型、Agent。

主要方向:

模型类型逆向重点
VLM图像编码器、视觉 token、OCR 能力、空间理解缺陷
文生图模型prompt 到图像的潜空间控制、风格迁移、概念绑定
语音模型声学特征、说话人表示、语音指令鲁棒性
Agent 系统工具调用策略、规划路径、记忆机制、权限边界

Agent 逆向会越来越重要,因为现代系统不仅是模型,还包括工具、数据库、权限系统和工作流。


7. 供应链与模型来源逆向

关注模型是否可信、是否被篡改、是否存在后门。

主要方向:

分类目标
模型溯源判断模型是否来自某个基座模型或微调分支
权重水印检测检查是否带有所有权水印
后门检测寻找触发词、异常行为、隐藏能力
微调痕迹分析推断模型经过哪些任务或数据集训练
安全审计检查模型文件是否夹带恶意代码或危险配置

这是企业落地中很实用的方向,尤其适合模型采购、私有化部署、开源模型接入前审查。


按技术路线归纳

可以压缩成 5 条主线:

A. 行为逆向

通过输入输出研究模型表现。

适合方向:
模型评测、红队、安全测试、API 模型对比、提示工程分析。

B. 机制逆向

通过权重、激活、注意力、特征空间研究内部机制。

适合方向:
可解释性、对齐研究、模型编辑、机制解释。

C. 数据逆向

研究模型是否记住了训练数据,或训练数据分布是什么。

适合方向:
隐私审计、版权审计、数据治理。

D. 工程逆向

研究模型文件、推理框架、部署性能。

适合方向:
推理优化、量化部署、模型迁移、私有化落地。

E. 安全逆向

研究模型安全边界、绕过风险、防御机制。

适合方向:
AI 安全、红队评估、供应链安全、后门检测。


如果要选研究/职业方向

偏算法研究

优先看:

  1. mechanistic interpretability

  2. representation analysis

  3. activation patching

  4. sparse autoencoder

  5. model editing

  6. alignment robustness

难度高,但学术价值大。

偏安全

优先看:

  1. jailbreak evaluation

  2. prompt injection

  3. data extraction risk

  4. model backdoor detection

  5. agent/tool-use security

  6. supply-chain model audit

实用性强,企业需求正在增加。

偏工程部署

优先看:

  1. model format analysis

  2. quantization

  3. inference optimization

  4. KV cache optimization

  5. vLLM/TensorRT-LLM/llama.cpp

  6. model serving security

适合系统、后端、运维、IT 背景。

偏合规与治理

优先看:

  1. training data audit

  2. privacy leakage assessment

  3. copyright memorization testing

  4. model provenance

  5. watermarking

  6. red-team reporting

适合企业 AI 治理、安全合规。


推荐学习路径

比较稳的路线是:

  1. 先学 LLM 基础结构
    Transformer、attention、tokenizer、embedding、MLP、KV cache。

  2. 再学模型推理工程
    Hugging Face Transformers、safetensors、GGUF、vLLM、llama.cpp。

  3. 然后学可解释性
    logit lens、activation patching、attention head analysis、SAE。

  4. 再进入安全逆向
    prompt injection、jailbreak evaluation、数据泄露测试、后门检测。

  5. 最后做完整审计框架
    黑盒测试 + 白盒分析 + 数据泄露检测 + 部署安全 + 报告体系。


最有前景的几个方向

我会优先看这几个:

  1. Agent 安全逆向
    未来模型会连接工具、代码执行器、浏览器、数据库、邮件、工单系统。逆向重点不再只是模型输出,而是权限、工具调用链和状态污染。

  2. 机制可解释性
    这是理解大模型内部机制的核心方向,但门槛高,需要数学、深度学习和实验能力。

  3. 模型供应链安全
    企业部署开源模型时,需要判断模型是否被污染、后门化、篡改或违规训练。

  4. 隐私与训练数据泄露评估
    对金融、医疗、政企场景很重要。

  5. 推理引擎与模型格式逆向
    工程落地价值高,和性能优化、私有化部署直接相关。

一句话概括:
黑盒逆向看行为,白盒逆向看机制,数据逆向看记忆,安全逆向看边界,工程逆向看部署链路。

给出高价值学习资源,包括课程网站、论文、工具、其它重要网站等,给出链接。并且,给出可实践项目,以加深理解,同样给出链接。

下面按“学习价值/实践价值”筛选。重点是合法授权环境下的模型理解、安全评估、部署审计与可解释性研究;不建议把“逆向工程”理解成窃取闭源模型、绕过安全策略或提取训练数据。

0. 建议主线

如果你是 IT/工程背景,推荐顺序:

  1. LLM 基础与工程:Transformer、tokenizer、推理、量化、RAG、评测。

  2. 黑盒评测与红队:模型行为画像、prompt injection、RAG/Agent 风险。

  3. 白盒可解释性:TransformerLens、activation patching、SAE、特征/电路分析。

  4. 部署与供应链安全:GGUF、safetensors、vLLM、llama.cpp、模型来源、后门/投毒风险。

  5. 隐私与合规审计:成员推断、记忆化、PII 泄露、版权/训练数据风险。


1. 课程与系统学习资源

资源类型适合方向价值
Hugging Face LLM Course免费课程LLM 基础、Transformers、Datasets、Tokenizers、fine-tuning官方维护,适合从工程角度理解模型生命周期。课程覆盖 Transformers、Datasets、Tokenizers、Accelerate、Hub 等 Hugging Face 生态。(Hugging Face)
Stanford CS324: Large Language Models大学课程LLM 原理、系统、伦理、评估经典 LLM 课程,覆盖建模、理论、系统、伦理和 hands-on。(Stanford CS324)
Stanford CS25: Transformers United研讨课Transformer 前沿、LLM、多模态、机器人等适合跟踪前沿方向,Stanford 页面说明课程包含顶级研究者讲座,并开放旁听/录播。(Stanford University)
DeepLearning.AI: LangChain for LLM Application Development短课RAG、Agent、链式调用、应用开发适合快速理解 LLM 应用架构,包括 prompts/parsers、memory、chains、QA over docs、agents、evaluation。(DeepLearning.ai)
TransformerLens Mechanistic Interpretability Getting Started教程机制可解释性TransformerLens 文档给出 mech interp 入门路径、induction heads、activation patching 等实践内容。(Transformer Lens)
Neel Nanda Mechanistic Interpretability Quickstart指南机制可解释性入门偏实践,适合周末项目式入门,强调先跑 demo、再找具体 open problem。(Neel Nanda)

2. 必读论文:基础、可解释性、安全、工程

2.1 基础与模型结构

论文/资源方向为什么重要
Attention Is All You NeedTransformer 基础所有现代 LLM 的架构起点。
HuggingFace Transformers paper工具/工程说明 Transformers 库如何统一预训练模型接口,对工程实践很有用。(arXiv)
CS324 reading listLLM 综合比单篇论文更适合系统阅读。(Stanford CS324)

2.2 机制可解释性 / 白盒逆向

论文/资源方向价值
In-context Learning and Induction Headsattention head、电路分析研究 induction heads 与 in-context learning 的关系,是 mech interp 经典工作。(arXiv)
Toy Models of Superpositionsuperposition、多义神经元Anthropic 用 toy model 解释为什么模型会把多个特征压进同一表示空间。(Anthropic)
Sparse Autoencoders Find Highly Interpretable Features in Language ModelsSAE、特征分解用稀疏自编码器从语言模型激活中提取更可解释的 feature,是当前 SAE 路线的基础论文。(arXiv)
How to use and interpret activation patchingactivation patching讲 patching 的证据边界、指标选择和误用风险,适合做严谨实验前阅读。(arXiv)
Tracr: Compiled Transformers as a Laboratory for Interpretability可控实验模型把人类可读程序编译成 transformer,用已知 ground truth 检验解释方法。(Google DeepMind)
Open Problems in Mechanistic Interpretability研究路线2025 年较系统的开放问题综述,适合找课题。(arXiv)
SAEBenchSAE 评测指出 SAE 代理指标不一定转化为实用性能,适合避免“只看漂亮 feature dashboard”的误区。(arXiv)

2.3 安全、红队、Agent 风险

论文/资源方向价值
OWASP Top 10 for LLM Applications 2025LLM 应用安全官方列出 prompt injection、敏感信息泄露、供应链、投毒、excessive agency、unbounded consumption 等风险。(OWASP Gen AI Security Project)
OWASP LLM01 Prompt Injectionprompt injection官方定义 prompt injection 与 jailbreaking 的关系,适合作为安全分类基线。(OWASP Gen AI Security Project)
OWASP LLM06 Excessive AgencyAgent 工具权限风险解释 excessive functionality、permissions、autonomy 如何导致代理系统造成破坏。(OWASP Gen AI Security Project)
OWASP LLM10 Unbounded ConsumptionDoS、Denial-of-Wallet、模型抽取风险适合做资源滥用和成本风险评估。(OWASP Gen AI Security Project)
garak paper自动化 LLM 红队garak 是结构化探测 LLM 漏洞的框架,论文说明其用于发现安全弱点。(arXiv)
PyRIT paper生成式 AI 红队框架Microsoft 开源框架,面向多模态 GenAI 风险识别和红队自动化。(arXiv)
NIST AI RMF Generative AI Profile治理/风险管理NIST 2024 年发布的生成式 AI 风险管理 Profile,适合企业审计/治理。(NIST)

2.4 推理工程、部署、量化

论文/资源方向价值
vLLM / PagedAttention paper高吞吐推理、KV cachePagedAttention 用虚拟内存式方法管理 KV cache,论文报告 vLLM 相比一些系统可显著提升吞吐。(arXiv)
vLLM docsLLM serving官方文档说明 vLLM 是快速、易用的 LLM inference/serving 库。(vLLM)
llama.cpp + GGUF 文档本地推理、模型格式Hugging Face 文档说明如何用 llama.cpp 运行 GGUF 模型。(Hugging Face)
TensorRT-LLM docsNVIDIA GPU 推理优化官方文档说明 TensorRT-LLM 用于构建 TensorRT engines 并高效执行 LLM 推理。(NVIDIA Docs)
Hugging Face PEFT LoRA docs微调、低秩适配官方文档说明 LoRA 通过低秩分解减少可训练参数、降低微调显存和时间成本。(Hugging Face)

3. 工具清单:按用途分类

3.1 白盒机制分析工具

工具用途链接/说明
TransformerLensGPT-style 模型的 activation cache、hook、patching、logit lens、电路分析官方 GitHub 描述其目标是 reverse engineer 模型从权重中学到的算法,并支持缓存/编辑内部激活。(GitHub)
SAELens训练和分析 Sparse Autoencoders支持下载/分析预训练 SAE、训练自己的 SAE、生成 feature dashboard。(GitHub)
NNsight访问/修改 PyTorch 模型内部激活支持在任意层访问激活、修改激活、计算中间值梯度、批量干预。(NNSight)
Tracr生成带 ground truth 的可解释性测试 transformerDeepMind 论文和实现用于构建可控 interpretability 实验。(Google DeepMind)
Neuronpedia浏览、可视化、steer 模型内部 feature/latent开源 interpretability 平台,支持 activations、explanations、metadata、features 等。(Neuronpedia)

3.2 黑盒评测与红队工具

工具用途链接/说明
garakLLM 漏洞扫描、红队探测官方说明它探测 hallucination、data leakage、prompt injection、misinformation、toxicity、jailbreak 等弱点。(GitHub)
PromptfooLLM eval、prompt 测试、RAG/Agent 红队、CI/CD支持测试 prompts、agents、RAG,做 vulnerability scanning,并可集成 CI/CD。(GitHub)
PyRITMicrosoft 生成式 AI 红队工具论文称其是模型/平台无关的开源风险识别框架。(arXiv)
OpenAI Evals自定义 eval、系统评测OpenAI Evals 是评估 LLM 或 LLM 系统的框架,并支持自定义 eval。(GitHub)
EleutherAI lm-evaluation-harness标准 benchmark 评测支持大量标准任务、本地模型、API 模型、vLLM、PEFT adapter 等。(GitHub)

3.3 推理、部署、模型格式工具

工具用途链接/说明
llama.cppCPU/GPU 本地推理、GGUF、量化适合研究模型格式、量化、低资源部署。Hugging Face 给出 GGUF + llama.cpp 使用文档。(Hugging Face)
vLLM高吞吐推理服务官方定位是 fast and easy-to-use LLM inference and serving。(vLLM)
TensorRT-LLMNVIDIA GPU 高性能推理官方说明其是面向 NVIDIA GPU 的开源 LLM 推理优化库。(NVIDIA Developer)
PEFT / LoRA参数高效微调适合做 LoRA 微调、模型行为对比、微调痕迹分析。(Hugging Face)
Ollama本地模型运行与管理适合快速搭建本地 LLM 实验环境;生产暴露时要注意访问控制。关于暴露 Ollama 服务的风险,安全报道指出公开暴露服务可能遭遇未授权访问、资源滥用等问题。(TechRadar)

4. 其它重要网站

网站用途
Hugging Face Hub找开源模型、数据集、GGUF、LoRA、Spaces demo。
Papers with Code找论文对应代码和 benchmark。
arXiv / Semantic Scholar跟踪新论文。
Anthropic Transformer Circuits / Interpretability research机制可解释性高价值博客与论文。Anthropic 的 superposition 论文是该方向基础资源之一。(Anthropic)
OWASP GenAI Security ProjectLLM/Agent 应用安全分类、风险、缓解措施。(OWASP Gen AI Security Project)
NIST AI RMF / AIRC企业 AI 风险管理和治理框架。(NIST)
Neuronpedia浏览可解释性 feature、latent、steering 实验。(Neuronpedia)

5. 可实践项目

下面项目按难度递增,尽量避免危险操作,侧重授权测试、可解释性、审计与工程复现

项目 1:黑盒模型行为指纹库

目标:构建一套 prompts,对多个模型做行为画像:拒答边界、数学能力、代码能力、幻觉倾向、格式遵循、长上下文稳定性。

工具:Promptfoo、OpenAI Evals、lm-evaluation-harness。

实践步骤

  1. 选 3–5 个模型:一个 API 模型、一个本地开源模型、一个小模型。

  2. 设计 100–300 条测试样本。

  3. 分类:事实性、推理、代码、格式、拒答、安全、RAG。

  4. 用 Promptfoo 跑批量评测。

  5. 输出 radar chart 或表格:准确率、拒答率、格式失败率、幻觉率。

参考:Promptfoo 支持 prompt/model 测试、AI red teaming、RAG/Agent 测试和 CI/CD 集成。(GitHub)


项目 2:RAG Prompt Injection 安全评估实验室

目标:搭建一个小型 RAG 应用,研究“外部文档中的恶意指令”如何污染回答,并设计防御。

工具:LangChain / LlamaIndex、Promptfoo、OWASP LLM01、OWASP LLM08。

实践内容

  1. 准备一组正常文档和一组带“隐藏指令”的污染文档。

  2. 构建本地 RAG 问答系统。

  3. 测试模型是否会服从检索文档里的非用户指令。

  4. 加防御:文档指令隔离、引用约束、system prompt 强化、输出验证、retrieval filtering。

  5. 写报告:攻击面、触发条件、误报/漏报、防御效果。

安全边界:只在本地/授权系统做,不对第三方服务做攻击测试。OWASP 把 prompt injection 定义为用户输入改变 LLM 行为的漏洞,并说明 jailbreaking 是其中一种形式。(OWASP Gen AI Security Project)


项目 3:Agent 权限最小化审计

目标:研究 Agent 工具调用链的权限边界,模拟“过度权限/过度自主性”带来的风险。

工具:LangGraph / LangChain Agents、Promptfoo、OWASP LLM06。

实践内容

  1. 构建一个 Agent,只允许读取本地 mock 文件。

  2. 加入工具:读文件、写文件、发 HTTP 请求、执行 shell,但默认全部 mock。

  3. 设置不同权限等级:只读、受限写、人工审批写、禁止网络。

  4. 设计测试:Agent 是否会在错误上下文下调用危险工具。

  5. 加防御:tool allowlist、参数 schema、human-in-the-loop、审计日志、dry-run 模式。

参考:OWASP LLM06 指出 Excessive Agency 常由 excessive functionality、excessive permissions、excessive autonomy 导致。(OWASP Gen AI Security Project)


项目 4:用 TransformerLens 复现 Induction Heads

目标:理解 attention head 如何实现简单复制/续写算法,例如 [A][B] ... [A] -> [B]

工具:TransformerLens、GPT-2 small。

实践内容

  1. 加载 GPT-2 small。

  2. 构造重复 token 序列。

  3. 缓存 attention pattern。

  4. 找 induction heads。

  5. 对 attention head 做 ablation,看 loss/logit 变化。

  6. 写实验记录:哪些 head 对 next-token prediction 有因果影响。

参考:Induction Heads 论文研究此类 attention head 与 in-context learning 的关系。(arXiv) TransformerLens 官方说明支持缓存和修改内部激活。(GitHub)


项目 5:Activation Patching 因果分析

目标:不是只看 attention heatmap,而是做因果干预:替换某层激活后,输出是否改变。

工具:TransformerLens、activation patching 教程。

实践内容

  1. 选择一个二分类 prompt 对,例如事实问答、代词指代、大小比较。

  2. 运行 clean prompt 和 corrupted prompt。

  3. 在不同层、不同位置替换 residual stream / attention output / MLP output。

  4. 记录 logit difference 恢复程度。

  5. 画 heatmap。

  6. 验证:同一结论是否对不同 prompt 稳定。

参考:activation patching 论文强调要谨慎解释 patching 证据,尤其是 metric 和因果边界。(arXiv)


项目 6:训练一个小型 Sparse Autoencoder 分析模型特征

目标:理解 SAE 如何把模型激活分解成稀疏 feature。

工具:SAELens、TransformerLens、Neuronpedia。

实践内容

  1. 选 GPT-2 small 或 Pythia 小模型。

  2. 采集某层 residual stream 或 MLP 激活。

  3. 用 SAELens 训练 SAE。

  4. 找高激活样本,人工解释 feature。

  5. 做 feature steering:增强/抑制某 feature,观察输出变化。

  6. 对比随机 feature、人工解释 feature、自动解释 feature 的可靠性。

参考:SAELens 支持训练、分析 SAE 和生成 feature dashboard。(GitHub) SAE 基础论文说明稀疏自编码器可从激活中提取更单义、更可解释的特征。(arXiv)


项目 7:模型量化与推理性能逆向

目标:分析同一模型在 FP16、Q8、Q5、Q4 等不同量化格式下的质量、速度、内存占用差异。

工具:llama.cpp、GGUF、lm-evaluation-harness、vLLM。

实践内容

  1. 选择一个 7B/8B 开源模型。

  2. 下载不同 GGUF 量化版本。

  3. 记录模型大小、加载显存/RAM、tokens/s、首 token 延迟。

  4. 用固定 benchmark 测质量。

  5. 做结论:哪个量化档位适合 CPU、消费级 GPU、低显存服务器。

  6. 扩展:比较 llama.cpp 与 vLLM 的吞吐差异。

参考:Hugging Face 文档说明 GGUF 可通过 llama.cpp 运行。(Hugging Face) vLLM 文档说明它是面向推理和 serving 的高性能库。(vLLM)


项目 8:模型供应链审计清单

目标:模拟企业接入开源模型前的安全检查。

工具:Hugging Face Hub、safetensors、model card、license scanner、hash 校验、静态文件检查。

实践内容

  1. 选择 5 个开源模型。

  2. 检查 license、model card、训练数据说明、eval 报告、维护者可信度。

  3. 检查文件格式:优先 safetensors,谨慎 pickle/bin。

  4. 检查是否包含自定义 Python 代码。

  5. 记录 SHA256、来源、版本、依赖。

  6. 写一份“模型准入报告”。

参考:OWASP 2025 把 supply chain 列为 LLM03,说明 LLM 供应链存在依赖、模型、数据等风险。(OWASP Gen AI Security Project)


项目 9:本地 LLM 服务暴露风险演练

目标:理解本地模型服务如果暴露到公网会产生什么风险,并设计安全配置。

工具:Ollama / llama.cpp server / vLLM OpenAI-compatible server、Nginx、basic auth、firewall。

实践内容

  1. 本地启动模型服务,仅绑定 127.0.0.1

  2. 写一个最小客户端调用。

  3. 尝试错误配置绑定 0.0.0.0,但只在本地虚拟网络中测试。

  4. 加认证、反向代理、速率限制、IP allowlist。

  5. 记录安全基线:默认不公网暴露、最小权限、日志、限流、成本监控。

参考:公开报道曾指出大量 Ollama 服务器暴露在公网,可能面临未授权访问、模型滥用、资源耗尽等风险。(TechRadar)


项目 10:自定义 LLM 安全评测基准

目标:把安全评测工程化,形成可重复运行的 benchmark。

工具:garak、Promptfoo、PyRIT、OWASP Top 10。

实践内容

  1. 选 3 类风险:prompt injection、sensitive info disclosure、excessive agency。

  2. 每类写 30–50 个测试用例。

  3. 用 Promptfoo 或 garak 自动跑。

  4. 输出 JSON/HTML 报告。

  5. 加入 GitHub Actions,模型或 prompt 更新后自动跑回归测试。

  6. 加风险分级:阻断、警告、可接受。

参考:garak 官方说明其会探测数据泄露、prompt injection、jailbreak、misinformation 等弱点。(GitHub) PyRIT 则适合把红队测试模块化、自动化。(arXiv)


6. 推荐组合路线

工程/IT 路线

  1. Hugging Face LLM Course

  2. llama.cpp + GGUF

  3. vLLM serving

  4. Promptfoo eval

  5. OWASP LLM Top 10

  6. 模型供应链审计项目

  7. Agent 权限审计项目

目标产出:本地模型部署 + 自动评测 + 安全基线 + 审计报告

安全路线

  1. OWASP GenAI Security Project

  2. garak

  3. Promptfoo red teaming

  4. PyRIT

  5. NIST AI RMF Generative AI Profile

  6. RAG prompt injection 实验室

  7. Agent excessive agency 审计

目标产出:LLM/Agent 红队评估框架

可解释性研究路线

  1. TransformerLens 入门

  2. Induction Heads

  3. Activation Patching

  4. Toy Models of Superposition

  5. SAELens

  6. Neuronpedia

  7. Open Problems in Mechanistic Interpretability

目标产出:一个可复现实验 notebook + 一份 feature/circuit 分析报告

部署优化路线

  1. llama.cpp

  2. GGUF 量化

  3. vLLM

  4. TensorRT-LLM

  5. lm-evaluation-harness

  6. tokens/s、latency、quality 三维 benchmark

目标产出:模型部署选型报告:质量/速度/成本/显存权衡


7. 最值得优先做的 3 个项目

  1. RAG Prompt Injection 实验室
    最接近真实企业场景,能理解“模型 + 检索 + 外部数据”的攻击面。

  2. TransformerLens 复现 Induction Heads + Activation Patching
    最适合理解白盒逆向,不停留在 prompt 层面。

  3. 量化与推理性能 benchmark
    对工程落地最有价值,能直接形成部署决策能力。

这三项覆盖:黑盒安全、白盒机制、工程部署