UZINFOCOM logoUZINFOCOM logo

Middle/Senior Data Engineer — LLM (Muxlisa AI)

Полная занятость

3-6

Главный офис

10.02.2026

Условия работы

Мы создаем национальную языковую модель (LLM) для узбекского языка с нуля — от разработки конвейеров данных до тонкой настройки (fine-tuning) и внедрения в продакшн. Мы ищем Data Engineer'а, который возьмет на себя полный жизненный цикл данных для LLM: сбор, очистку, валидацию, подачу в пайплайны обучения и поддержку систем RAG.

Обязанности:

  • Создание масштабируемых конвейеров данных для обучения, оценки LLM и систем RAG.

  • Сбор, очистка, нормализация, дедупликация, кластеризация и валидация огромных текстовых датасетов (новости, книги, веб-контент, юридические документы, разговорная речь).

  • Разработка автоматизированных систем проверки качества данных (фильтры, эвристики и ML-методы валидации).

  • Создание и поддержка инструментов для аннотирования, верификации и работы кураторов данных.

  • Подготовка датасетов для:

    • Instruction tuning (инструктивное обучение);

    • Supervised fine-tuning (SFT);

    • Генерации пар «вопрос-ответ»;

    • Задач перевода и суммаризации.

  • Коллаборация с ML-инженерами: участие в обучении токенизаторов, настройке LoRA / QLoRA, версионировании данных и отслеживании экспериментов.

  • Разработка пайплайнов RAG (ингестия документов, чанкинг, векторизация, поиск) и интеграция кастомных инференс-решений в продакшн.

  • Настройка рабочих процессов для максимально эффективного использования GPU при обучении и инференсе.

Требования:

  • Python: глубокие знания языка для обработки данных и построения ML-пайплайнов.

  • Уверенный опыт работы с PyTorchHuggingFace Transformers и базовое понимание CUDA (достаточное для взаимодействия с ML-командой).

  • Практический опыт подготовки датасетов для LLM, работы с Instruction tuning и SFT.

  • Опыт работы с LangChain или LlamaIndex, понимание LoRA / QLoRA и процессов обучения токенизаторов.

  • Владение инструментами: Git, Docker.

  • Опыт работы с backend-фреймворками (FastAPI или аналогичными).

Условия:

  • График работы: 5 дней в неделю, с 09:00 до 18:00;
  • Оформление в соответствии с Трудовым кодексом РУз, предоставление 28 календарных дней отпуска;
  • Отсутствие строгого дресс-кода — мы стремимся разрушить стереотипы о государственных организациях;
  • Работа в сильной команде профессионалов, готовых делиться знаниями и опытом;
  • Участие в крупных и значимых проектах, направленных на создание сервисов для улучшения жизни населения и оптимизацию бизнес-процессов в ведущих предприятиях страны;
  • Широкие возможности для самостоятельных решений и активного влияния на развитие компании.

Заинтересованы в вакансии?

Перед откликом на вакансию, обязательно ознакомьтесь с обязанностями и условиями работы