Мы создаем национальную языковую модель (LLM) для узбекского языка с нуля — от разработки конвейеров данных до тонкой настройки (fine-tuning) и внедрения в продакшн. Мы ищем Data Engineer'а, который возьмет на себя полный жизненный цикл данных для LLM: сбор, очистку, валидацию, подачу в пайплайны обучения и поддержку систем RAG.

Обязанности:

Создание масштабируемых конвейеров данных для обучения, оценки LLM и систем RAG.
Сбор, очистка, нормализация, дедупликация, кластеризация и валидация огромных текстовых датасетов (новости, книги, веб-контент, юридические документы, разговорная речь).
Разработка автоматизированных систем проверки качества данных (фильтры, эвристики и ML-методы валидации).
Создание и поддержка инструментов для аннотирования, верификации и работы кураторов данных.
Подготовка датасетов для:
- Instruction tuning (инструктивное обучение);
- Supervised fine-tuning (SFT);
- Генерации пар «вопрос-ответ»;
- Задач перевода и суммаризации.
Коллаборация с ML-инженерами: участие в обучении токенизаторов, настройке LoRA / QLoRA, версионировании данных и отслеживании экспериментов.
Разработка пайплайнов RAG (ингестия документов, чанкинг, векторизация, поиск) и интеграция кастомных инференс-решений в продакшн.
Настройка рабочих процессов для максимально эффективного использования GPU при обучении и инференсе.

Требования:

Python: глубокие знания языка для обработки данных и построения ML-пайплайнов.
Уверенный опыт работы с PyTorch, HuggingFace Transformers и базовое понимание CUDA (достаточное для взаимодействия с ML-командой).
Практический опыт подготовки датасетов для LLM, работы с Instruction tuning и SFT.
Опыт работы с LangChain или LlamaIndex, понимание LoRA / QLoRA и процессов обучения токенизаторов.
Владение инструментами: Git, Docker.
Опыт работы с backend-фреймворками (FastAPI или аналогичными).

Условия:

График работы: 5 дней в неделю, с 09:00 до 18:00;
Оформление в соответствии с Трудовым кодексом РУз, предоставление 28 календарных дней отпуска;
Отсутствие строгого дресс-кода — мы стремимся разрушить стереотипы о государственных организациях;
Работа в сильной команде профессионалов, готовых делиться знаниями и опытом;
Участие в крупных и значимых проектах, направленных на создание сервисов для улучшения жизни населения и оптимизацию бизнес-процессов в ведущих предприятиях страны;
Широкие возможности для самостоятельных решений и активного влияния на развитие компании.

Middle/Senior Data Engineer — LLM (Muxlisa AI)

Условия работы

Заинтересованы в вакансии?