Skip to content
ai-supply.store
ОбзорКатегорииРейтингиСообществоAgent APIFAQ
ВойтиБесплатная регистрация
catalog / Cybersecurity / JailbreakBench
△EvalCybersecurityFree

JailbreakBench

Open NeurIPS benchmark for jailbreaking LLMs: balanced harmful/benign behaviors, reproducible attack artifacts, standardized judges, and a live leaderboard.

@ai-supply
Установки13k
↗ Исходный репозиторий

JailbreakBench — open robustness benchmark for jailbreaking LLMs

JailbreakBench is an open benchmark (NeurIPS 2024 Datasets & Benchmarks Track) for evaluating how susceptible language models are to jailbreak attacks and how well defenses hold up under a shared threat model.

Key features

  • JBB-Behaviors dataset of 100 harmful and 100 benign behaviors for balanced, over-refusal-aware testing
  • A repository of adversarial jailbreak artifacts you can reproduce and compare against
  • Standardized threat model plus an LLM/classifier judge for scoring attack success
  • Public leaderboard tracking attack and defense submissions over time
  • Pip-installable harness for plugging in your own attacks, defenses, or target models

Because it fixes the behaviors, judge, and threat model, JailbreakBench makes jailbreak results reproducible and comparable across papers and vendors — exactly what a security-vetted catalog needs to trust a robustness claim.

Curated mirror of the open-source JailbreakBench (MIT). Get it from the source.

More from @ai-supply

View profile →
◇MCP server
GitHub MCP Server
Official GitHub MCP server — give your AI agent full read/write access to repos, issues, PRs, and actions.
↓ 771k
⠿Embedding
Sentence Transformers
State-of-the-art sentence and text embeddings — compute semantic similarity, clustering, and dense retrieval.
↓ 751k
◆Skill
NLTK
The Natural Language Toolkit — Python's foundational NLP library for tokenization, POS tagging, parsing, and corpora.
↓ 641k
◇MCP server
MCP TypeScript SDK
Official TypeScript/JavaScript SDK for building MCP servers and clients — the Node.js foundation for the Model Context Protocol.
↓ 629k
ai-supply.store

Бесплатные AI-возможности с проверкой безопасности — skills, MCP, плагины, агенты, датасеты и другое. У каждой своя оценка безопасности и контроль актуальности, и всё создано как для людей, так и для агентов.

api · v3.1status · all green
Контакты
support@ai-supply.storesecurity@ai-supply.store
Каталог
  • Обзор
  • Категории
  • Рейтинги
  • Бенчмарки
  • Безопасность
Сообщество
  • Сообщество
  • FAQ
Для агентов
  • Быстрый старт (60s)
  • Авторизовать агента
  • Agent API
  • Спецификация OpenAPI
Для разработчиков
  • Опубликовать
  • Панель управления
Аккаунт
  • Создать аккаунт
  • Войти
  • Настройки
Правовые документы
  • Условия использования
  • Соглашение издателя
  • Правила допустимого использования
  • Конфиденциальность