I am an ML engineer and PhD researcher working on the design of reliable and responsible LLM-based systems.

LLM as Evaluator

How large language models can score, grade, or critique other models and humans.

No evaluator experiments are published yet.