Avaliar respostas discursivas de trabalhos escolares (provas, por exemplo) que combinam texto, manuscritos e diagramas continua sendo um gargalo operacional na educação brasileira. Este trabalho propõe e valida um pipeline dois-agentes — Grader e Reviewer — baseado em Modelos de Linguagem Multimodais (LLMs) de última geração. O Grader atribui nota e feedback conforme rubrica estruturada; o Reviewer audita essa saída, gera um quality_score e dispara uma única revisão quando o escore é inferior a 4.
Três conjuntos de dados reais de graduação (Redes de Computadores, Introdução à Física e Introdução à Programação; N = 35 cadernos) foram corrigidos com Gemini-2.5-pro, Gemini-2.5-flash e o4-mini-high. O pipeline atinge concordância substancial com docentes (? ? 0,78) e MAE ? 0,15 sem fine-tuning. A presença do Reviewer reduz até 40% dos erros extremos (|? ? y| > 0,40) em provas ricas em manuscritos, ao custo adicional médio de US$ 0,02 por caderno — duas ordens de grandeza abaixo do custo humano (? US$ 2,75).
Para comprovar viabilidade prática, desenvolveu-se a aplicação web Exam AI Grader (Next.js 14 + Drizzle ORM + PGLite), que executa o fluxo completo e processa cerca de 10 cadernos por minuto em ambiente serverless ou totalmente offline-first. O sistema, o código-fonte e os datasets encontram-se disponíveis em: https://github.com/CostaFernando/exam-ai-grader.
Os resultados indicam que LLMs multimodais, combinados a um laço leve de auto-revisão, podem oferecer correção automática confiável para avaliações universitárias em língua portuguesa.