Evaluation

Agent Harness Six Components (E, T, C, S, L, V) — Survey Summary

Summarizes the six-component agent harness model: execution, tools, context, state, hooks, and evaluation.

AI Design Evaluation: TASTE vs ACM 3698105

Compares TASTE and ACM 3698105 for evaluating AI-generated graphic design, fine art, and aesthetics.

Six-Dimension Art Evaluation Rubric

A six-dimension rubric (Beauty, Color, Texture, Content Detail, Line, Style) for evaluating AI-generated artworks, derived from traditional painting analysis principles.

Rubric: Meaning and Origin

Definition and etymology of "rubric", from Latin red-ink manuscript headings to its modern meaning as a structured evaluation guide.

LLM as Judge

Using a language model to evaluate another model's outputs as a scalable proxy for human preference judgments.

Deterministic Graders (for LLM / AI Evaluation)

Definition and best practices for deterministic grading in LLM evaluation using code-based rules instead of model-in-the-loop judgment.