We are looking for an AI Evaluation Engineer specialized in data analysis to design benchmark tasks that simulate real-world analytical workflows.

Requirements

Design and develop multi-agent benchmark tasks focused on complex data analysis workflows
Create or curate realistic datasets (CSV, JSON, logs, reports, financial or operational data)
Implement evaluation pipelines using Python and SQL
Create reproducible environments using Docker
Analyze task performance and refine for clarity, difficulty, and scoring accuracy

Benefits

Contractor assignment
Duration of contract: 4 weeks+

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

Requirements

Benefits

Apply now

About the job

Apply before

Posted on

Job type

Experience level

Location requirements

Hiring timezones

Job categories

Skills

Browse similar jobs

About Gramian Consulting Group

Apply now

About the job

Apply before

Posted on

Job type

Experience level

Location requirements

Hiring timezones

Job categories

Skills

Browse similar jobs

Gramian Consulting Group

Similar remote jobs

Spontaneous Application - Data Engineer

Senior Data Scientist, Product

Senior Data Engineer

Analytics Engineer II

AI & Cloud Engineering

Data Cloud Engineer (DataOps)

18 remote jobs at Gramian Consulting Group

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

Power Electronics Domain Expert - PCB Design & Evaluation for AI

AI Content Analyst in GERMAN Language

Find your dream job

Find your dream job

Apply now

Apply now

Spontaneous Application - Data Engineer

Senior Data Scientist, Product

Senior Data Engineer

Analytics Engineer II

AI & Cloud Engineering

Data Cloud Engineer (DataOps)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

Power Electronics Domain Expert - PCB Design & Evaluation for AI

AI Content Analyst in GERMAN Language

Find your dream job