Appearance
对AI大模型的逆向工程有哪些分类?对应的方向如何?
对 AI 大模型的“逆向工程”可以按研究对象和技术目标分类。这个词容易混淆:有些方向是合法的模型理解、安全评估;有些方向可能涉及窃取模型、绕过安全机制或提取训练数据,需要严格限制在授权环境内。
1. 黑盒逆向:只通过输入输出推断模型行为
研究对象是不可见权重、不可见结构、只能调用 API 的模型。
主要方向:
| 分类 | 目标 | 典型方法 | 合法用途 |
|---|---|---|---|
| 行为画像 | 推断模型能力边界、偏好、缺陷 | 大规模提示测试、基准评测、对抗样本 | 模型选型、安全测评 |
| 系统提示推断 | 分析模型隐藏规则、角色设定、拒答边界 | prompt probing、上下文扰动 | 红队评估、防护改进 |
| 输出分布分析 | 推断解码策略、温度、风格偏置 | 多次采样、概率统计 | API 行为理解 |
| 模型指纹识别 | 判断某 API 背后可能是哪类模型 | 特征题集、风格签名、错误模式 | 供应链审计 |
| 模型抽取/蒸馏 | 用 API 输出训练替代模型 | query-response 采样、知识蒸馏 | 仅限授权场景;否则可能侵权 |
其中模型抽取是风险最高的黑盒逆向方向,容易触及商业秘密、服务条款和知识产权问题。
2. 白盒逆向:分析可获得权重的开源模型
研究对象是本地可加载的模型权重、结构、激活、中间层。
主要方向:
| 分类 | 目标 | 典型方法 | 对应方向 |
|---|---|---|---|
| 架构分析 | 理解模型结构、参数规模、模块设计 | 查看 config、层结构、attention/MLP 分布 | 模型工程、部署优化 |
| 权重分析 | 分析参数分布、剪枝空间、异常权重 | 权重统计、谱分析、稀疏性分析 | 压缩、量化、加速 |
| 激活分析 | 找出输入如何触发内部状态变化 | activation patching、logit lens | 可解释性 |
| 神经元/特征解释 | 识别特定神经元或方向表示什么概念 | feature attribution、SAE | 机制可解释性 |
| 电路分析 | 找出完成某任务的内部计算路径 | attention head 分析、path patching | mechanistic interpretability |
| 表示空间分析 | 分析语义、风格、安全概念在向量空间的位置 | PCA、CCA、线性探针 | 对齐、安全控制 |
这个方向更偏机制解释、模型压缩、对齐研究,技术含量高,也更适合做严肃研究。
3. 数据逆向:推断训练数据或数据分布
研究对象是模型学到的数据痕迹。
主要方向:
| 分类 | 目标 | 风险 |
|---|---|---|
| 训练数据成员推断 | 判断某条数据是否在训练集中 | 隐私风险高 |
| 训练数据重构 | 尝试恢复模型记忆的文本、代码、个人信息 | 高风险 |
| 数据分布推断 | 分析训练语料偏向、语言比例、领域覆盖 | 可用于审计 |
| 版权/泄露检测 | 判断模型是否过度记忆某些受保护内容 | 合规、安全 |
这个方向在安全研究中有价值,但必须避免变成数据窃取。更稳妥的方向是做隐私风险评估、去重、去记忆化、合规审计。
4. 安全机制逆向:分析模型拒答、对齐和防护逻辑
研究对象是模型的安全策略、拒答机制、对齐边界。
主要方向:
| 分类 | 目标 | 典型问题 |
|---|---|---|
| 拒答边界分析 | 判断哪些请求会被拒绝、哪些会被回答 | 安全策略一致性 |
| jailbreak 评估 | 测试模型是否能被诱导绕过规则 | 红队测试 |
| 安全分类器分析 | 推断输入过滤器或输出过滤器行为 | 防护可靠性 |
| 对齐脆弱性分析 | 分析角色扮演、多轮上下文、编码变换下的失效 | 鲁棒性 |
| 防御机制设计 | 构建更稳健的安全层 | 安全工程 |
合法方向应聚焦于评估与加固,而不是传播绕过方法。
5. 工程逆向:面向部署、格式、推理框架
研究对象是模型文件、推理引擎、部署链路。
主要方向:
| 分类 | 目标 |
|---|---|
| 模型格式分析 | 解析 safetensors、GGUF、ONNX、TensorRT engine 等格式 |
| 量化逆向 | 分析 int8/int4/GPTQ/AWQ 等量化方案 |
| 推理性能分析 | 找瓶颈:KV cache、attention、batching、显存占用 |
| 服务链路分析 | 分析 API 网关、调度、缓存、限流机制 |
| 兼容性迁移 | 在不同框架间转换模型 |
这个方向最工程化,适合 IT、系统、部署、推理优化背景。
6. 多模态模型逆向
对象从纯文本 LLM 扩展到 VLM、文生图、语音模型、Agent。
主要方向:
| 模型类型 | 逆向重点 |
|---|---|
| VLM | 图像编码器、视觉 token、OCR 能力、空间理解缺陷 |
| 文生图模型 | prompt 到图像的潜空间控制、风格迁移、概念绑定 |
| 语音模型 | 声学特征、说话人表示、语音指令鲁棒性 |
| Agent 系统 | 工具调用策略、规划路径、记忆机制、权限边界 |
Agent 逆向会越来越重要,因为现代系统不仅是模型,还包括工具、数据库、权限系统和工作流。
7. 供应链与模型来源逆向
关注模型是否可信、是否被篡改、是否存在后门。
主要方向:
| 分类 | 目标 |
|---|---|
| 模型溯源 | 判断模型是否来自某个基座模型或微调分支 |
| 权重水印检测 | 检查是否带有所有权水印 |
| 后门检测 | 寻找触发词、异常行为、隐藏能力 |
| 微调痕迹分析 | 推断模型经过哪些任务或数据集训练 |
| 安全审计 | 检查模型文件是否夹带恶意代码或危险配置 |
这是企业落地中很实用的方向,尤其适合模型采购、私有化部署、开源模型接入前审查。
按技术路线归纳
可以压缩成 5 条主线:
A. 行为逆向
通过输入输出研究模型表现。
适合方向:
模型评测、红队、安全测试、API 模型对比、提示工程分析。
B. 机制逆向
通过权重、激活、注意力、特征空间研究内部机制。
适合方向:
可解释性、对齐研究、模型编辑、机制解释。
C. 数据逆向
研究模型是否记住了训练数据,或训练数据分布是什么。
适合方向:
隐私审计、版权审计、数据治理。
D. 工程逆向
研究模型文件、推理框架、部署性能。
适合方向:
推理优化、量化部署、模型迁移、私有化落地。
E. 安全逆向
研究模型安全边界、绕过风险、防御机制。
适合方向:
AI 安全、红队评估、供应链安全、后门检测。
如果要选研究/职业方向
偏算法研究
优先看:
mechanistic interpretability
representation analysis
activation patching
sparse autoencoder
model editing
alignment robustness
难度高,但学术价值大。
偏安全
优先看:
jailbreak evaluation
prompt injection
data extraction risk
model backdoor detection
agent/tool-use security
supply-chain model audit
实用性强,企业需求正在增加。
偏工程部署
优先看:
model format analysis
quantization
inference optimization
KV cache optimization
vLLM/TensorRT-LLM/llama.cpp
model serving security
适合系统、后端、运维、IT 背景。
偏合规与治理
优先看:
training data audit
privacy leakage assessment
copyright memorization testing
model provenance
watermarking
red-team reporting
适合企业 AI 治理、安全合规。
推荐学习路径
比较稳的路线是:
先学 LLM 基础结构
Transformer、attention、tokenizer、embedding、MLP、KV cache。再学模型推理工程
Hugging Face Transformers、safetensors、GGUF、vLLM、llama.cpp。然后学可解释性
logit lens、activation patching、attention head analysis、SAE。再进入安全逆向
prompt injection、jailbreak evaluation、数据泄露测试、后门检测。最后做完整审计框架
黑盒测试 + 白盒分析 + 数据泄露检测 + 部署安全 + 报告体系。
最有前景的几个方向
我会优先看这几个:
Agent 安全逆向
未来模型会连接工具、代码执行器、浏览器、数据库、邮件、工单系统。逆向重点不再只是模型输出,而是权限、工具调用链和状态污染。机制可解释性
这是理解大模型内部机制的核心方向,但门槛高,需要数学、深度学习和实验能力。模型供应链安全
企业部署开源模型时,需要判断模型是否被污染、后门化、篡改或违规训练。隐私与训练数据泄露评估
对金融、医疗、政企场景很重要。推理引擎与模型格式逆向
工程落地价值高,和性能优化、私有化部署直接相关。
一句话概括:
黑盒逆向看行为,白盒逆向看机制,数据逆向看记忆,安全逆向看边界,工程逆向看部署链路。
给出高价值学习资源,包括课程网站、论文、工具、其它重要网站等,给出链接。并且,给出可实践项目,以加深理解,同样给出链接。
下面按“学习价值/实践价值”筛选。重点是合法授权环境下的模型理解、安全评估、部署审计与可解释性研究;不建议把“逆向工程”理解成窃取闭源模型、绕过安全策略或提取训练数据。
0. 建议主线
如果你是 IT/工程背景,推荐顺序:
LLM 基础与工程:Transformer、tokenizer、推理、量化、RAG、评测。
黑盒评测与红队:模型行为画像、prompt injection、RAG/Agent 风险。
白盒可解释性:TransformerLens、activation patching、SAE、特征/电路分析。
部署与供应链安全:GGUF、safetensors、vLLM、llama.cpp、模型来源、后门/投毒风险。
隐私与合规审计:成员推断、记忆化、PII 泄露、版权/训练数据风险。
1. 课程与系统学习资源
| 资源 | 类型 | 适合方向 | 价值 |
|---|---|---|---|
| Hugging Face LLM Course | 免费课程 | LLM 基础、Transformers、Datasets、Tokenizers、fine-tuning | 官方维护,适合从工程角度理解模型生命周期。课程覆盖 Transformers、Datasets、Tokenizers、Accelerate、Hub 等 Hugging Face 生态。(Hugging Face) |
| Stanford CS324: Large Language Models | 大学课程 | LLM 原理、系统、伦理、评估 | 经典 LLM 课程,覆盖建模、理论、系统、伦理和 hands-on。(Stanford CS324) |
| Stanford CS25: Transformers United | 研讨课 | Transformer 前沿、LLM、多模态、机器人等 | 适合跟踪前沿方向,Stanford 页面说明课程包含顶级研究者讲座,并开放旁听/录播。(Stanford University) |
| DeepLearning.AI: LangChain for LLM Application Development | 短课 | RAG、Agent、链式调用、应用开发 | 适合快速理解 LLM 应用架构,包括 prompts/parsers、memory、chains、QA over docs、agents、evaluation。(DeepLearning.ai) |
| TransformerLens Mechanistic Interpretability Getting Started | 教程 | 机制可解释性 | TransformerLens 文档给出 mech interp 入门路径、induction heads、activation patching 等实践内容。(Transformer Lens) |
| Neel Nanda Mechanistic Interpretability Quickstart | 指南 | 机制可解释性入门 | 偏实践,适合周末项目式入门,强调先跑 demo、再找具体 open problem。(Neel Nanda) |
2. 必读论文:基础、可解释性、安全、工程
2.1 基础与模型结构
| 论文/资源 | 方向 | 为什么重要 |
|---|---|---|
| Attention Is All You Need | Transformer 基础 | 所有现代 LLM 的架构起点。 |
| HuggingFace Transformers paper | 工具/工程 | 说明 Transformers 库如何统一预训练模型接口,对工程实践很有用。(arXiv) |
| CS324 reading list | LLM 综合 | 比单篇论文更适合系统阅读。(Stanford CS324) |
2.2 机制可解释性 / 白盒逆向
| 论文/资源 | 方向 | 价值 |
|---|---|---|
| In-context Learning and Induction Heads | attention head、电路分析 | 研究 induction heads 与 in-context learning 的关系,是 mech interp 经典工作。(arXiv) |
| Toy Models of Superposition | superposition、多义神经元 | Anthropic 用 toy model 解释为什么模型会把多个特征压进同一表示空间。(Anthropic) |
| Sparse Autoencoders Find Highly Interpretable Features in Language Models | SAE、特征分解 | 用稀疏自编码器从语言模型激活中提取更可解释的 feature,是当前 SAE 路线的基础论文。(arXiv) |
| How to use and interpret activation patching | activation patching | 讲 patching 的证据边界、指标选择和误用风险,适合做严谨实验前阅读。(arXiv) |
| Tracr: Compiled Transformers as a Laboratory for Interpretability | 可控实验模型 | 把人类可读程序编译成 transformer,用已知 ground truth 检验解释方法。(Google DeepMind) |
| Open Problems in Mechanistic Interpretability | 研究路线 | 2025 年较系统的开放问题综述,适合找课题。(arXiv) |
| SAEBench | SAE 评测 | 指出 SAE 代理指标不一定转化为实用性能,适合避免“只看漂亮 feature dashboard”的误区。(arXiv) |
2.3 安全、红队、Agent 风险
| 论文/资源 | 方向 | 价值 |
|---|---|---|
| OWASP Top 10 for LLM Applications 2025 | LLM 应用安全 | 官方列出 prompt injection、敏感信息泄露、供应链、投毒、excessive agency、unbounded consumption 等风险。(OWASP Gen AI Security Project) |
| OWASP LLM01 Prompt Injection | prompt injection | 官方定义 prompt injection 与 jailbreaking 的关系,适合作为安全分类基线。(OWASP Gen AI Security Project) |
| OWASP LLM06 Excessive Agency | Agent 工具权限风险 | 解释 excessive functionality、permissions、autonomy 如何导致代理系统造成破坏。(OWASP Gen AI Security Project) |
| OWASP LLM10 Unbounded Consumption | DoS、Denial-of-Wallet、模型抽取风险 | 适合做资源滥用和成本风险评估。(OWASP Gen AI Security Project) |
| garak paper | 自动化 LLM 红队 | garak 是结构化探测 LLM 漏洞的框架,论文说明其用于发现安全弱点。(arXiv) |
| PyRIT paper | 生成式 AI 红队框架 | Microsoft 开源框架,面向多模态 GenAI 风险识别和红队自动化。(arXiv) |
| NIST AI RMF Generative AI Profile | 治理/风险管理 | NIST 2024 年发布的生成式 AI 风险管理 Profile,适合企业审计/治理。(NIST) |
2.4 推理工程、部署、量化
| 论文/资源 | 方向 | 价值 |
|---|---|---|
| vLLM / PagedAttention paper | 高吞吐推理、KV cache | PagedAttention 用虚拟内存式方法管理 KV cache,论文报告 vLLM 相比一些系统可显著提升吞吐。(arXiv) |
| vLLM docs | LLM serving | 官方文档说明 vLLM 是快速、易用的 LLM inference/serving 库。(vLLM) |
| llama.cpp + GGUF 文档 | 本地推理、模型格式 | Hugging Face 文档说明如何用 llama.cpp 运行 GGUF 模型。(Hugging Face) |
| TensorRT-LLM docs | NVIDIA GPU 推理优化 | 官方文档说明 TensorRT-LLM 用于构建 TensorRT engines 并高效执行 LLM 推理。(NVIDIA Docs) |
| Hugging Face PEFT LoRA docs | 微调、低秩适配 | 官方文档说明 LoRA 通过低秩分解减少可训练参数、降低微调显存和时间成本。(Hugging Face) |
3. 工具清单:按用途分类
3.1 白盒机制分析工具
| 工具 | 用途 | 链接/说明 |
|---|---|---|
| TransformerLens | GPT-style 模型的 activation cache、hook、patching、logit lens、电路分析 | 官方 GitHub 描述其目标是 reverse engineer 模型从权重中学到的算法,并支持缓存/编辑内部激活。(GitHub) |
| SAELens | 训练和分析 Sparse Autoencoders | 支持下载/分析预训练 SAE、训练自己的 SAE、生成 feature dashboard。(GitHub) |
| NNsight | 访问/修改 PyTorch 模型内部激活 | 支持在任意层访问激活、修改激活、计算中间值梯度、批量干预。(NNSight) |
| Tracr | 生成带 ground truth 的可解释性测试 transformer | DeepMind 论文和实现用于构建可控 interpretability 实验。(Google DeepMind) |
| Neuronpedia | 浏览、可视化、steer 模型内部 feature/latent | 开源 interpretability 平台,支持 activations、explanations、metadata、features 等。(Neuronpedia) |
3.2 黑盒评测与红队工具
| 工具 | 用途 | 链接/说明 |
|---|---|---|
| garak | LLM 漏洞扫描、红队探测 | 官方说明它探测 hallucination、data leakage、prompt injection、misinformation、toxicity、jailbreak 等弱点。(GitHub) |
| Promptfoo | LLM eval、prompt 测试、RAG/Agent 红队、CI/CD | 支持测试 prompts、agents、RAG,做 vulnerability scanning,并可集成 CI/CD。(GitHub) |
| PyRIT | Microsoft 生成式 AI 红队工具 | 论文称其是模型/平台无关的开源风险识别框架。(arXiv) |
| OpenAI Evals | 自定义 eval、系统评测 | OpenAI Evals 是评估 LLM 或 LLM 系统的框架,并支持自定义 eval。(GitHub) |
| EleutherAI lm-evaluation-harness | 标准 benchmark 评测 | 支持大量标准任务、本地模型、API 模型、vLLM、PEFT adapter 等。(GitHub) |
3.3 推理、部署、模型格式工具
| 工具 | 用途 | 链接/说明 |
|---|---|---|
| llama.cpp | CPU/GPU 本地推理、GGUF、量化 | 适合研究模型格式、量化、低资源部署。Hugging Face 给出 GGUF + llama.cpp 使用文档。(Hugging Face) |
| vLLM | 高吞吐推理服务 | 官方定位是 fast and easy-to-use LLM inference and serving。(vLLM) |
| TensorRT-LLM | NVIDIA GPU 高性能推理 | 官方说明其是面向 NVIDIA GPU 的开源 LLM 推理优化库。(NVIDIA Developer) |
| PEFT / LoRA | 参数高效微调 | 适合做 LoRA 微调、模型行为对比、微调痕迹分析。(Hugging Face) |
| Ollama | 本地模型运行与管理 | 适合快速搭建本地 LLM 实验环境;生产暴露时要注意访问控制。关于暴露 Ollama 服务的风险,安全报道指出公开暴露服务可能遭遇未授权访问、资源滥用等问题。(TechRadar) |
4. 其它重要网站
| 网站 | 用途 |
|---|---|
| Hugging Face Hub | 找开源模型、数据集、GGUF、LoRA、Spaces demo。 |
| Papers with Code | 找论文对应代码和 benchmark。 |
| arXiv / Semantic Scholar | 跟踪新论文。 |
| Anthropic Transformer Circuits / Interpretability research | 机制可解释性高价值博客与论文。Anthropic 的 superposition 论文是该方向基础资源之一。(Anthropic) |
| OWASP GenAI Security Project | LLM/Agent 应用安全分类、风险、缓解措施。(OWASP Gen AI Security Project) |
| NIST AI RMF / AIRC | 企业 AI 风险管理和治理框架。(NIST) |
| Neuronpedia | 浏览可解释性 feature、latent、steering 实验。(Neuronpedia) |
5. 可实践项目
下面项目按难度递增,尽量避免危险操作,侧重授权测试、可解释性、审计与工程复现。
项目 1:黑盒模型行为指纹库
目标:构建一套 prompts,对多个模型做行为画像:拒答边界、数学能力、代码能力、幻觉倾向、格式遵循、长上下文稳定性。
工具:Promptfoo、OpenAI Evals、lm-evaluation-harness。
实践步骤:
选 3–5 个模型:一个 API 模型、一个本地开源模型、一个小模型。
设计 100–300 条测试样本。
分类:事实性、推理、代码、格式、拒答、安全、RAG。
用 Promptfoo 跑批量评测。
输出 radar chart 或表格:准确率、拒答率、格式失败率、幻觉率。
参考:Promptfoo 支持 prompt/model 测试、AI red teaming、RAG/Agent 测试和 CI/CD 集成。(GitHub)
项目 2:RAG Prompt Injection 安全评估实验室
目标:搭建一个小型 RAG 应用,研究“外部文档中的恶意指令”如何污染回答,并设计防御。
工具:LangChain / LlamaIndex、Promptfoo、OWASP LLM01、OWASP LLM08。
实践内容:
准备一组正常文档和一组带“隐藏指令”的污染文档。
构建本地 RAG 问答系统。
测试模型是否会服从检索文档里的非用户指令。
加防御:文档指令隔离、引用约束、system prompt 强化、输出验证、retrieval filtering。
写报告:攻击面、触发条件、误报/漏报、防御效果。
安全边界:只在本地/授权系统做,不对第三方服务做攻击测试。OWASP 把 prompt injection 定义为用户输入改变 LLM 行为的漏洞,并说明 jailbreaking 是其中一种形式。(OWASP Gen AI Security Project)
项目 3:Agent 权限最小化审计
目标:研究 Agent 工具调用链的权限边界,模拟“过度权限/过度自主性”带来的风险。
工具:LangGraph / LangChain Agents、Promptfoo、OWASP LLM06。
实践内容:
构建一个 Agent,只允许读取本地 mock 文件。
加入工具:读文件、写文件、发 HTTP 请求、执行 shell,但默认全部 mock。
设置不同权限等级:只读、受限写、人工审批写、禁止网络。
设计测试:Agent 是否会在错误上下文下调用危险工具。
加防御:tool allowlist、参数 schema、human-in-the-loop、审计日志、dry-run 模式。
参考:OWASP LLM06 指出 Excessive Agency 常由 excessive functionality、excessive permissions、excessive autonomy 导致。(OWASP Gen AI Security Project)
项目 4:用 TransformerLens 复现 Induction Heads
目标:理解 attention head 如何实现简单复制/续写算法,例如 [A][B] ... [A] -> [B]。
工具:TransformerLens、GPT-2 small。
实践内容:
加载 GPT-2 small。
构造重复 token 序列。
缓存 attention pattern。
找 induction heads。
对 attention head 做 ablation,看 loss/logit 变化。
写实验记录:哪些 head 对 next-token prediction 有因果影响。
参考:Induction Heads 论文研究此类 attention head 与 in-context learning 的关系。(arXiv) TransformerLens 官方说明支持缓存和修改内部激活。(GitHub)
项目 5:Activation Patching 因果分析
目标:不是只看 attention heatmap,而是做因果干预:替换某层激活后,输出是否改变。
工具:TransformerLens、activation patching 教程。
实践内容:
选择一个二分类 prompt 对,例如事实问答、代词指代、大小比较。
运行 clean prompt 和 corrupted prompt。
在不同层、不同位置替换 residual stream / attention output / MLP output。
记录 logit difference 恢复程度。
画 heatmap。
验证:同一结论是否对不同 prompt 稳定。
参考:activation patching 论文强调要谨慎解释 patching 证据,尤其是 metric 和因果边界。(arXiv)
项目 6:训练一个小型 Sparse Autoencoder 分析模型特征
目标:理解 SAE 如何把模型激活分解成稀疏 feature。
工具:SAELens、TransformerLens、Neuronpedia。
实践内容:
选 GPT-2 small 或 Pythia 小模型。
采集某层 residual stream 或 MLP 激活。
用 SAELens 训练 SAE。
找高激活样本,人工解释 feature。
做 feature steering:增强/抑制某 feature,观察输出变化。
对比随机 feature、人工解释 feature、自动解释 feature 的可靠性。
参考:SAELens 支持训练、分析 SAE 和生成 feature dashboard。(GitHub) SAE 基础论文说明稀疏自编码器可从激活中提取更单义、更可解释的特征。(arXiv)
项目 7:模型量化与推理性能逆向
目标:分析同一模型在 FP16、Q8、Q5、Q4 等不同量化格式下的质量、速度、内存占用差异。
工具:llama.cpp、GGUF、lm-evaluation-harness、vLLM。
实践内容:
选择一个 7B/8B 开源模型。
下载不同 GGUF 量化版本。
记录模型大小、加载显存/RAM、tokens/s、首 token 延迟。
用固定 benchmark 测质量。
做结论:哪个量化档位适合 CPU、消费级 GPU、低显存服务器。
扩展:比较 llama.cpp 与 vLLM 的吞吐差异。
参考:Hugging Face 文档说明 GGUF 可通过 llama.cpp 运行。(Hugging Face) vLLM 文档说明它是面向推理和 serving 的高性能库。(vLLM)
项目 8:模型供应链审计清单
目标:模拟企业接入开源模型前的安全检查。
工具:Hugging Face Hub、safetensors、model card、license scanner、hash 校验、静态文件检查。
实践内容:
选择 5 个开源模型。
检查 license、model card、训练数据说明、eval 报告、维护者可信度。
检查文件格式:优先 safetensors,谨慎 pickle/bin。
检查是否包含自定义 Python 代码。
记录 SHA256、来源、版本、依赖。
写一份“模型准入报告”。
参考:OWASP 2025 把 supply chain 列为 LLM03,说明 LLM 供应链存在依赖、模型、数据等风险。(OWASP Gen AI Security Project)
项目 9:本地 LLM 服务暴露风险演练
目标:理解本地模型服务如果暴露到公网会产生什么风险,并设计安全配置。
工具:Ollama / llama.cpp server / vLLM OpenAI-compatible server、Nginx、basic auth、firewall。
实践内容:
本地启动模型服务,仅绑定
127.0.0.1。写一个最小客户端调用。
尝试错误配置绑定
0.0.0.0,但只在本地虚拟网络中测试。加认证、反向代理、速率限制、IP allowlist。
记录安全基线:默认不公网暴露、最小权限、日志、限流、成本监控。
参考:公开报道曾指出大量 Ollama 服务器暴露在公网,可能面临未授权访问、模型滥用、资源耗尽等风险。(TechRadar)
项目 10:自定义 LLM 安全评测基准
目标:把安全评测工程化,形成可重复运行的 benchmark。
工具:garak、Promptfoo、PyRIT、OWASP Top 10。
实践内容:
选 3 类风险:prompt injection、sensitive info disclosure、excessive agency。
每类写 30–50 个测试用例。
用 Promptfoo 或 garak 自动跑。
输出 JSON/HTML 报告。
加入 GitHub Actions,模型或 prompt 更新后自动跑回归测试。
加风险分级:阻断、警告、可接受。
参考:garak 官方说明其会探测数据泄露、prompt injection、jailbreak、misinformation 等弱点。(GitHub) PyRIT 则适合把红队测试模块化、自动化。(arXiv)
6. 推荐组合路线
工程/IT 路线
Hugging Face LLM Course
llama.cpp + GGUF
vLLM serving
Promptfoo eval
OWASP LLM Top 10
模型供应链审计项目
Agent 权限审计项目
目标产出:本地模型部署 + 自动评测 + 安全基线 + 审计报告。
安全路线
OWASP GenAI Security Project
garak
Promptfoo red teaming
PyRIT
NIST AI RMF Generative AI Profile
RAG prompt injection 实验室
Agent excessive agency 审计
目标产出:LLM/Agent 红队评估框架。
可解释性研究路线
TransformerLens 入门
Induction Heads
Activation Patching
Toy Models of Superposition
SAELens
Neuronpedia
Open Problems in Mechanistic Interpretability
目标产出:一个可复现实验 notebook + 一份 feature/circuit 分析报告。
部署优化路线
llama.cpp
GGUF 量化
vLLM
TensorRT-LLM
lm-evaluation-harness
tokens/s、latency、quality 三维 benchmark
目标产出:模型部署选型报告:质量/速度/成本/显存权衡。
7. 最值得优先做的 3 个项目
RAG Prompt Injection 实验室
最接近真实企业场景,能理解“模型 + 检索 + 外部数据”的攻击面。TransformerLens 复现 Induction Heads + Activation Patching
最适合理解白盒逆向,不停留在 prompt 层面。量化与推理性能 benchmark
对工程落地最有价值,能直接形成部署决策能力。
这三项覆盖:黑盒安全、白盒机制、工程部署。