Middle/Senior Data Engineer — LLM (Muxlisa AI)
Условия работы
Мы создаем национальную языковую модель (LLM) для узбекского языка с нуля — от разработки конвейеров данных до тонкой настройки (fine-tuning) и внедрения в продакшн. Мы ищем Data Engineer'а, который возьмет на себя полный жизненный цикл данных для LLM: сбор, очистку, валидацию, подачу в пайплайны обучения и поддержку систем RAG.
Обязанности:
-
Создание масштабируемых конвейеров данных для обучения, оценки LLM и систем RAG.
-
Сбор, очистка, нормализация, дедупликация, кластеризация и валидация огромных текстовых датасетов (новости, книги, веб-контент, юридические документы, разговорная речь).
-
Разработка автоматизированных систем проверки качества данных (фильтры, эвристики и ML-методы валидации).
-
Создание и поддержка инструментов для аннотирования, верификации и работы кураторов данных.
-
Подготовка датасетов для:
-
Instruction tuning (инструктивное обучение);
-
Supervised fine-tuning (SFT);
-
Генерации пар «вопрос-ответ»;
-
Задач перевода и суммаризации.
-
-
Коллаборация с ML-инженерами: участие в обучении токенизаторов, настройке LoRA / QLoRA, версионировании данных и отслеживании экспериментов.
-
Разработка пайплайнов RAG (ингестия документов, чанкинг, векторизация, поиск) и интеграция кастомных инференс-решений в продакшн.
-
Настройка рабочих процессов для максимально эффективного использования GPU при обучении и инференсе.
Требования:
-
Python: глубокие знания языка для обработки данных и построения ML-пайплайнов.
-
Уверенный опыт работы с PyTorch, HuggingFace Transformers и базовое понимание CUDA (достаточное для взаимодействия с ML-командой).
-
Практический опыт подготовки датасетов для LLM, работы с Instruction tuning и SFT.
-
Опыт работы с LangChain или LlamaIndex, понимание LoRA / QLoRA и процессов обучения токенизаторов.
-
Владение инструментами: Git, Docker.
-
Опыт работы с backend-фреймворками (FastAPI или аналогичными).
Условия:
- График работы: 5 дней в неделю, с 09:00 до 18:00;
- Оформление в соответствии с Трудовым кодексом РУз, предоставление 28 календарных дней отпуска;
- Отсутствие строгого дресс-кода — мы стремимся разрушить стереотипы о государственных организациях;
- Работа в сильной команде профессионалов, готовых делиться знаниями и опытом;
- Участие в крупных и значимых проектах, направленных на создание сервисов для улучшения жизни населения и оптимизацию бизнес-процессов в ведущих предприятиях страны;
- Широкие возможности для самостоятельных решений и активного влияния на развитие компании.
Заинтересованы в вакансии?
Перед откликом на вакансию, обязательно ознакомьтесь с обязанностями и условиями работы