We are looking for an AI Evaluation Engineer specialized in data analysis to design benchmark tasks that simulate real-world analytical workflows. Responsibilities include designing and developing multi-agent benchmark tasks, creating realistic datasets, and implementing evaluation pipelines using Python and SQL.

Requirements

5+ years of experience in data analysis or analytics-heavy roles
Strong proficiency in Python (pandas, NumPy) and SQL
Experience working with real-world, messy datasets (CSV, JSON, logs, reports)
Ability to design analytical problems with clear, verifiable answers
Solid understanding of statistics (distributions, correlations, outliers)
Familiarity with AI benchmarks or evaluation environments (e.g., SWE-bench or similar)
Hands-on experience with Docker (Dockerfiles, image builds, debugging)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

Requirements

Apply now

About the job

Apply before

Posted on

Job type

Experience level

Location requirements

Hiring timezones

Job categories

Skills

Browse similar jobs

About Gramian Consulting Group

Apply now

About the job

Apply before

Posted on

Job type

Experience level

Location requirements

Hiring timezones

Job categories

Skills

Browse similar jobs

Gramian Consulting Group

Similar remote jobs

Spontaneous Application - Data Engineer

Growth Engineer

Junior Data Engineer

Senior Data Scientist - Credit

ML Operations Engineer

Senior Data Engineer

18 remote jobs at Gramian Consulting Group

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

Power Electronics Domain Expert - PCB Design & Evaluation for AI

AI Content Analyst in GERMAN Language

Find your dream job

Find your dream job

Apply now

Apply now

Spontaneous Application - Data Engineer

Growth Engineer

Junior Data Engineer

Senior Data Scientist - Credit

ML Operations Engineer

Senior Data Engineer

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

AI Evaluation Engineer (Data Analysis & Multi-Agent Systems)

Power Electronics Domain Expert - PCB Design & Evaluation for AI

AI Content Analyst in GERMAN Language

Find your dream job