Robustness Evaluation Via Adversarial And Distribution Shifted Inputs

1

TrustLLMBenchmark63/100

via “robustness evaluation with adversarial examples and out-of-distribution detection”

8-dimension trustworthiness benchmark for LLMs.

Unique: Combines adversarial NLU (AdvGLUE), adversarial instruction-following (AdvInstruction), and OOD detection into a single robustness dimension. Uses deterministic metrics for reproducibility while capturing both adversarial and distributional robustness.

vs others: More comprehensive than single-adversarial-dataset benchmarks because it measures robustness to multiple perturbation types and includes OOD detection, which is critical for real-world deployment.

2

HELMBenchmark61/100

via “robustness evaluation via adversarial and distribution-shifted inputs”

Stanford's holistic LLM evaluation — 42 scenarios, 7 metrics including fairness, bias, toxicity.

Unique: Embeds robustness testing into the core evaluation loop by generating multiple perturbed versions of each scenario (typos, paraphrases, out-of-distribution examples) and measuring accuracy degradation. Treats robustness as a first-class metric alongside accuracy rather than a post-hoc analysis.

vs others: More systematic than ad-hoc robustness testing because it applies consistent perturbation strategies across all 42 scenarios, enabling fair comparison of robustness profiles across models

3

ProtectAIProduct

via “model-adversarial-robustness-testing”

4

RagaAI Inc.Product

via “adversarial robustness testing”

Top Matches

Also Known As

Company