Freelance Agent Evaluation Engineer
Please submit your CV in English and indicate your level of English proficiency.
Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.
What this opportunity involves
We're building a dataset to evaluate AI coding agents - how well a model handles real-world developer tasks.
You'll create challenging tasks and evaluation criteria within realistic simulated environments:
- Build realistic developer environments - a virtual company with codebase, infrastructure, and context (tickets, docs, conversations) that forms a believable development history
- Design tasks from intermediate states of these environments - craft the prompt, define what "solved" means, and ensure the task is solvable by an AI agent
- Write tests that verify agent solutions - accept all valid approaches and reject incorrect ones, neither too strict nor too lenient
- Iterate on tasks and tests based on QA feedback - review agent solutions, analyze failures, and refine until the evaluation is fair and robust
What this is NOT
- Not data labeling
- Not prompt engineering
- Not writing code from scratch - the agent writes most of the code; you guide and evaluate
What we look for
- 5+ years in software development
- Core stack: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis
- Experience writing tests (functional, integration)
- English proficiency - B2+
Why this is hard
Frontier models are already good at coding. Creating a task that genuinely challenges the best models is non-trivial. You need to deeply understand where models fail and what scenarios reveal the difference between a good and a bad solution. Tasks have many valid solutions - writing tests that accept all correct solutions and reject incorrect ones is harder than it sounds.
How it works
Apply → Pass qualification(s) → Join a project → Complete tasks → Get paid
Effort estimate
Tasks for this project are estimated to take 20 hours to complete, depending on complexity. This is an estimate and not a schedule requirement; you choose when and how to work. Tasks must be submitted by the deadline and meet the listed acceptance criteria to be accepted.
Compensation
Up to $50/hr equivalent , depending on level and pace. Tasks are estimated at ~20 hours each; you set your own schedule.
Emplois Recommandés
Alternance - Chef de Produit Marketing H/F
A propos de Groupe AVEM: AVEM c'est un collectif engagé, expert des équipements et du parcours de paiement, partenaire des banques, des enseignes et des commerçants et résolument tourné vers l'humain…
Hôtesse événementielle F/H le 08, le
Nombre de postes : 15 Métier : Hôtesse événementielle F/H Contexte : Convention bancaire Missions : Emargement, Orientation clients, Accueil LIEU & PLANNING : Dates de la mission :…
Manager - Data Engineer & Data Science H/F Ajouter aux favoris
Description de l'entreprise En tant qu'entreprise de services aux professionnels , Ayming s'associe aux organisations du monde entier pour créer une valeur durable. Avec une équipe de plus de 1 5…
Médecin coordonnateur ( H/F )
Notre résidence recherche un Médecin Coordonnateur F/H à temps partiel (à partir de 0,6 ETP) en CDI. Ce poste peut être ouvert à un 0.9 ETP avec 0.6 ETP sur des fonctions de coordination et 0.3 ETP s…
Psychologue - H/F
Vous recherchez une opportunité professionnelle où les valeurs humaines sont au coeur de l'action ? Rejoignez la Fondation ARHM en tant que Psychologue et contribuez à une mission d'utilité publi…
Directeur de Supermarché Parcours Certifiant (H/F)
Notre mission : Agir au quotidien pour la satisfaction de nos clients Lidl s’est implanté en France en 1989. Nous avons connu une expansion très rapide qui nous a permis de devenir un acteur incon…
Chef de secteur GMS
Vous démarrez la journée sur la route, avec un objectif clair : faire performer vos marques dans les rayons de vos magasins GMS. Rattaché au Chef des Ventes, vous gérez un portefeuille de magasins …
Ingénieur Conception/Appels d’offres
I. L’ENTREPRISE Notre société de promotion immobilière réalise des programmes de grande qualité en résidentiel, avec des prestations choisies ; nos opérations s’adressent essentiellement à des propri…
Technicien Assurance Qualité Produit - Pharma
À propos de notre client: Page Personnel Santé intervient auprès de l'Industrie Pharmaceutique et Biomédicale pour le recrutement de profils scientifiques, techniques, marketing et commerciaux à d…
Assistant ADV Export Retail (H/F)
Talents ADV-SUPPLY , cabinet de recrutement national spécialisé sur les métiers ADV, Assistanat Commercial, Import/Export, Relation client, Logistique, Transport, Achats et Supply Chain Basé dans l…