Agent Skill现在非常火热,但是想要用好它可不简单,推荐当前最火热的20篇关于Agent Skill的论文,一起学习Agent Skill前沿最新研究成果。
论文列表
1. Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills
- 作者:Lijia Lv, Xuehai Tang, Jie Wen, Jizhong Han, Songlin Hu
- 时间:2026-04-28
- 关注热点:Agent Skill 安全审计、三分类鲁棒性、跨文件安全审查、语义保全重写攻防
- 创新性:高 — 提出 SkillGuard-Robust 框架,将 skill 预加载审计形式化为鲁棒三分类任务,在 404 包测试集达 97.30% 整体匹配率,恶意风险召回率 98.33%
- 链接:PDF
2. From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills
- 作者:Qiliang Liang, Hansi Wang, Zhong Liang, Yang Liu
- 时间:2026-04-27(2026-04-28 更新)
- 关注热点:Skill 结构化表示、SSL 表示框架、技能发现、风险评估、知识表示
- 创新性:高 — 首次提出 Scheduling-Structural-Logical(SSL)结构化表示,将 skill 调度信号、执行结构与动作证据解耦;Skill Discovery MRR 从 0.573 提升至 0.707
- 链接:PDF
3. ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation
- 作者:Boqin Yuan, Renchu Song, Yue Su, Sen Yang, Jing Qin
- 时间:2026-04-27
- 关注热点:Skill 蒸馏、代价感知追踪、TraceCard、反事实剪枝、成本优化
- 创新性:高 — 引入 per-step USD 成本标注与 TraceCard 机制,提出 Preserve/Prune/Repair 三类 skill patch,剪枝规则跨 benchmark 迁移可降低中位成本 32%
- 链接:PDF
4. MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills
- 作者:Yingyong Hou, Xinyuan Lao, Huimei Wang 等(13 人)
- 时间:2026-04-22
- 关注热点:医学领域 Skill 审计、部署前质量评估、科学完整性、领域专用评估框架
- 创新性:中 — 将通用 skill 审计移植到医学研究场景,提出分层评分框架;ICC(2,1)=0.449 超越人工标注一致性 0.300,但 Academic Writing 类存在结构性负相关问题
- 链接:PDF
5. SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks
- 作者:Shanshan Zhong, Yi Lu, Jingjie Ning, Yibing Wan 等(10 人)
- 时间:2026-04-22
- 关注热点:Skill 持续学习基准、技能自动生成、自反馈 vs 外部反馈、真实任务评估
- 创新性:高 — 首个专注 skill 持续学习的基准(20 个验证任务,15 个子领域,三层评估),揭示了自反馈单独使用会导致递归漂移等非显而易见的问题
- 链接:PDF
6. Skilldex: A Package Manager and Registry for Agent Skill Packages with Hierarchical Scope-Based Distribution
- 作者:Sampriti Saha, Pranav Hemanth
- 时间:2026-04-18
- 关注热点:Skill 包管理器、分层作用域分发、Skillset 抽象、MCP 服务器、格式规范验证
- 创新性:中 — 提出 compiler-style 格式合规评分和 skillset 捆绑抽象,TypeScript CLI 实现;更偏工程贡献,理论创新度有限
- 链接:PDF
7. Bilevel Optimization of Agent Skills via Monte Carlo Tree Search
- 作者:Chenyi Huang, Haoting Zhang, Jingxu Xu, Zeyu Zheng, Yunduan Lin
- 时间:2026-04-17
- 关注热点:双层优化、MCTS、Skill 结构优化、内容优化、运筹学问答
- 创新性:高 — 将 skill 优化形式化为双层优化问题,外层 MCTS 决定 skill 结构,内层精化组件内容;框架设计新颖,结构-内容联合优化思路突破已有方法
- 链接:PDF
8. Don’t Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG
- 作者:Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh
- 时间:2026-04-16
- 关注热点:知识蒸馏为 Skill、层级导航 RAG、企业知识库、Corpus2Skill、主动检索
- 创新性:高 — 将文档语料离线编译为可导航的层级 skill 目录,Agent 在服务时通过 skill 树主动导航而非被动检索;在企业 RAG 基准超越 RAPTOR 等基线
- 链接:PDF
9. BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning
- 作者:Guiyao Tie, Jiawen Shi, Pan Zhou, Lichao Sun
- 时间:2026-04-10
- 关注热点:后门攻击、Skill 内嵌模型、供应链风险、语义触发器、模型毒化
- 创新性:高 — 首次定义 model-in-skill 威胁面(skill 包内嵌恶意微调模型),8 种架构平均攻击成功率高达 99.5%,仅需 3% 毒化率即可达到 91.7% ASR
- 链接:PDF
10. SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering
- 作者:Jingzhi Gong, Ruizhen Gu, Zhiwei Fei 等(10 人)
- 时间:2026-04-10
- 关注热点:多目标优化、NSGA-II、Skill Bundle 进化、软件工程、成本-质量权衡
- 创新性:高 — 将 NSGA-II 引入 skill bundle 进化优化,solver/optimizer 双 agent 协作,pass rate 提升最高 131%,成本降低最高 32%
- 链接:PDF
11. SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support
- 作者:Xingyan Liu, Xiyue Luo, Linyu Li 等(6 人)
- 时间:2026-04-09
- 关注热点:领域特化 Skill 生成、自演化、云技术支持、失败驱动精化、知识库接地
- 创新性:高 — 端到端 Creation-Evaluation-Refinement 闭环,Failure Analyzer→Skill Diagnostician→Skill Optimizer 三阶段自动诊断,真实 1883 工单验证
- 链接:PDF
12. SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills
- 作者:Yinghan Hou, Zongyou Yang
- 时间:2026-04-08
- 关注热点:恶意 Skill 检测、三层分级框架、XGBoost+LLM 联合审查、多 LLM 陪审团投票
- 创新性:高 — 三层渐进检测架构(Regex+AST → 单 LLM 四并行子任务 → 多 LLM 投票辩论),在 49592 真实 skill 上 F1=0.800,成本仅 $0.006/skill
- 链接:PDF
13. Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills
- 作者:Dawei Liu, Zongxia Li, Hongyang Du 等(7 人)
- 时间:2026-04-07(2026-04-09 更新)
- 关注热点:大规模 Skill 检索、图结构依赖、Personalized PageRank、上下文预算水化、Token 效率
- 创新性:高 — 首次用可执行 Skill 图 + Personalized PageRank 做运行时依赖感知检索,平均 reward 提升 43.6%,token 减少 37.8%,支持 200-2000 skill 规模
- 链接:PDF
14. How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings
- 作者:Yujian Liu, Jiabao Ji, Li An 等(6 人)
- 时间:2026-04-06
- 关注热点:Skill 实际效用基准、大规模真实 Skill 检索、34k 真实 Skill 集、技能精化策略
- 创新性:中 — 首次在 34k 真实 skill 场景下全面评估 skill 实用性,揭示”技能收益在现实设置下显著退化”;精化策略可恢复部分性能
- 链接:PDF
15. SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement
- 作者:Zenghao Duan, Yuxin Tian, Zhiyi Yin 等(9 人)
- 时间:2026-04-05
- 关注热点:Red Teaming、对抗提示、漏洞利用、攻击路径精化、潜在漏洞挖掘
- 创新性:高 — 无需修改 skill 本身即可通过对抗提示利用潜在漏洞,闭环攻击路径精化,ASR 0.73-0.93(对抗 skill)
- 链接:PDF
16. SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources
- 作者:Shuaike Shen, Wenduo Cheng, Mingqian Ma 等(6 人)
- 时间:2026-04-05
- 关注热点:异构科学资源挖掘、Skill 自演化库、领域知识树、闭环验证、科学 Agent
- 创新性:高 — 自动从 repo/API/notebook/论文挖掘并编译成可执行 skill 包,71.1% skill 与现有库不重复,在 MoSciBench 5/6 数据集上改善 Agent 性能
- 链接:PDF
17. Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems
- 作者:Yubin Qu, Yi Liu, Tongcheng Geng 等(8 人)
- 时间:2026-04-03
- 关注热点:供应链攻击、DDIPE 隐式载荷执行、代码示例注毒、MITRE ATT&CK 分类
- 创新性:高 — 提出 DDIPE 将恶意逻辑嵌入 skill 文档的代码示例/配置模板,绕过率 11.6%-33.5%,静态分析后仍有 2.5% 逃逸
- 链接:PDF
18. Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study
- 作者:Zhihao Chen, Ying Zhang, Yi Liu 等(10 人)
- 时间:2026-04-03
- 关注热点:凭证泄露、跨模态分析、调试日志漏洞、提示注入、大规模实证研究
- 创新性:中 — 对 17022 个 skill(抽样自 170226)做大规模实证分析,识别 10 种泄露模式,76.3% 泄露需代码+自然语言联合分析;属实证贡献
- 链接:PDF
19. Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis
- 作者:Zhiyuan Li, Jingzheng Wu, Xiang Ling, Xing Cui, Tianyue Luo
- 时间:2026-04-03
- 关注热点:Agent Skill 安全架构、威胁分类法、全生命周期分析、数据-指令边界缺失、市场审查缺失
- 创新性:中 — 首次对 Agent Skills 框架做系统性安全分析,梳理 7 类 17 种威胁场景,验证 5 起真实安全事件;偏综合性分析
- 链接:PDF
20. CoEvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification
- 作者:Hanrong Zhang, Shicheng Fan, Henry Peng Zou 等(13 人)
- 时间:2026-04-02(2026-04-13 更新)
- 关注热点:协同进化、Skill 自动生成、Surrogate Verifier、无标注 Skill 生成、人机认知对齐
- 创新性:高 — Skill Generator 与 Surrogate Verifier 协同进化,无需 ground-truth 测试内容即可提供可操作反馈;在 SkillsBench 上超越 5 个基线,迁移到 6 个额外 LLM
- 链接:PDF
🔥 热点研究方向 Top 10
| # | 方向 | 出现次数 |
|---|---|---|
| 1 | Agent Skill 安全性与攻击防御(审计、后门、红队测试、供应链攻击) | 9 |
| 2 | Skill 自动生成与自演化(CoEvo、SkillForge、SKILLFOUNDRY) | 6 |
| 3 | Skill 结构化表示与检索(SSL 表示、GoS 图检索) | 4 |
| 4 | Skill 优化与多目标进化(双层优化、NSGA-II、SkillMOO) | 4 |
| 5 | Skill 基准评测(SkillLearnBench、Wild Benchmarking) | 3 |
| 6 | 领域特化 Skill(医学、云支持、科学研究) | 3 |
| 7 | Skill 蒸馏与代价感知训练(ClawTrace/CostCraft) | 2 |
| 8 | Skill 生态系统与包管理(Skilldex、注册表、MCP) | 2 |
| 9 | 凭证泄露与隐私安全 | 2 |
| 10 | RAG 与知识导航 Skill(Corpus2Skill、导航式检索) | 2 |
📈 趋势判断
Agent Skill 安全性已成为独立研究方向,且问题远比想象复杂。过去一个月内有近半数论文关注安全,涵盖后门攻击、供应链投毒、红队测试、凭证泄露等多维威胁,且大量研究揭示现有防御手段(静态分析、提示过滤)存在明显盲区,预计安全-鲁棒性方向将持续升温。
Skill 的自演化与闭环精化正在替代人工编写。SkillForge、CoEvoSkills、SKILLFOUNDRY 等研究均指向”让 Agent 自主生成并迭代改进 skill”,核心挑战已从”如何写 skill”转变为”如何自动验证和修正 skill 的质量”。
大规模 Skill 库下的检索效率问题浮出水面。Graph of Skills(GoS)等工作针对千量级 skill 库,提出图结构依赖感知检索;随着 OpenClaw 等平台 skill 数量突破万量级,该方向研究需求将快速增长。
Skill 的结构化与形式化表示是提升可维护性的关键突破口。SSL 表示与双层优化等工作表明:将 skill 从纯文本提升为结构化形式,可显著提升检索、风险评估和优化效率——这可能是未来 skill 标准化的重要基础。
“Skill 的现实有效性低于预期”正在成为共识。How Well Do Agentic Skills Work in the Wild 等研究揭示,在真实 34k skill 检索场景下 skill 收益大幅退化,SkillLearnBench 也发现更强的 LLM backbone 并不稳定提升 skill 质量——如何弥合”理想基准”与”真实部署”之间的差距,将是下一阶段的核心研究议题。