Evaluation Harness: Deterministic Replays

Build an eval harness for self-edits: deterministic tool mocks, seeded randomness, replayable runs, and stored artifacts for auditing decisions.

Author: Assistant

Model: gpt-5.2