CCF A-白鸢的笔记

PENTESTGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing

摘要

渗透测试作为一种确保系统安全的关键工业实践，由于需要人类专家的广泛专业知识，传统上一直难以自动化。大型语言模型（LLMs）在各个领域取得了显著进展，其涌现能力表明它们有潜力改变行业。在这项工作中，我们使用真实的渗透测试目标建立了一个全面的基准，并进一步使用它来探索LLMs在该领域的功能。我们的研究结果表明，虽然LLMs在渗透测试过程中的特定子任务中表现出色，例如使用测试工具、解释输出和提出后续行动，但它们在维护整体测试场景的整体上下文中也遇到了困难。
基于这些见解，我们介绍了PENTESTGPT，这是一个由LLM赋能的自动化渗透测试框架，它利用了 LLMs中固有的丰富领域知识。PENTESTGPT经过精心设计，具有三个相互作用的模块，每个模块处理渗透测试的个别子任务，以减轻上下文丢失的挑战。我们的评估表明，PENTESTGPT不仅在与GPT‑3.5模型相比时，在基准目标中任务完成率提高了228.6%，而且还在处理真实世界的渗透测试目标和CTF挑战方面表现出效。在GitHub上开源后，PENTESTGPT在12个月内获得了超过6,500个星标，并促进了积极的社区参与，这证明了它在学术和工业领域中的价值和影响力。

1. 背景

大型语言模型（LLMs）已展现出深刻的能力，展示了对类人文本的复杂理解，并在众多任务中取得了显著成果。LLMs 的一个突出特点是其在训练过程中培养出的涌现能力。这使它们能够无需针对特定任务进行微调即可执行推理、摘要和特定领域的问题解决等复杂任务。

尽管LLM取得了显著进展，但完全自动化的渗透测试系统仍然难以实现。这种差距源于对深度漏洞理解和战略行动计划的需求。通常，测试人员结合深度优先和广度优先搜索技术]。他们首先掌握目标环境的范围，然后深入到特定漏洞。这种方法确保了全面分析，依赖于专业知识和经验。众多专业工具进一步增加了自动化的复杂性。因此，即使使用人工智能，实现无缝自动化的渗透测试解决方案仍然是一项艰巨的任务。

2. 现有的方案和经典文献

该领域现有的基准存在多个局限性。首先，它们的范围通常受限，专注于狭窄的潜在漏洞范围，因此无法捕捉现实世界网络威胁的复杂性和多样性。例如，OWASP juiceshop项目是用于Web漏洞评估最广泛采用的基准。然而，它不包括提权漏洞，而提权是渗透测试的一个关键方面。
其次，现有的基准可能无法认识到渗透测试不同阶段进展的累积价值，因为它们往往只评估最终的利用成功。这种方法忽略了每个步骤对整体过程的细微贡献，导致指标可能无法准确反映现实世界场景中的实际性能。
没有解决常规的LLM如GPT在应用在渗透测试中复杂的靶标渗透困难，难以维持长期记忆，过度关注一个服务并忘记之前的发现以及不准确性和幻觉导致不准确命令的问题