UZINFOCOM logoUZINFOCOM logo

Middle/Senior Data Engineer — LLM (Muxlisa AI)

To'liq bandlik

3-6

Bosh ofis

10.02.2026

Work Conditions

Biz noldan boshlab o‘zbek tili uchun milliy til modelini (LLM) yaratmoqdamiz — ma'lumotlar konveyerlarini (pipeline) ishlab chiqishdan tortib, modelni nozik sozlash (fine-tuning) va "production"ga joriy etishgacha. Biz LLM uchun ma'lumotlarning to‘liq hayotiy tsiklini: yig‘ish, tozalash, validatsiya qilish, o‘qitish payplaynlariga uzatish va RAG tizimlarini qo‘llab-quvvatlashni o‘z zimmasiga oladigan Data Engineer qidirmoqdamiz.

Vazifalar:

  • Pipeline yaratish: LLMni o‘qitish, baholash va RAG tizimlari uchun masshtablanuvchi ma'lumotlar konveyerlarini yaratish.

  • Katta ma'lumotlar bilan ishlash: Ulkan matnli datasetlarni (yangiliklar, kitoblar, veb-kontent, yuridik hujjatlar, jonli nutq) yig‘ish, tozalash, normallashtirish, deduplikatsiya qilish (takrorlanishni yo‘qotish), klasterlash va validatsiya qilish.

  • Sifat nazorati: Ma'lumotlar sifatini avtomatik tekshirish tizimlarini (filtrlar, evristik usullar va ML-validatsiya usullari) ishlab chiqish.

  • Annotatsiya vositalari: Ma'lumotlarni annotatsiya qilish (belgilash), verifikatsiya va kurerlik ishlari uchun vositalarni yaratish va qo‘llab-quvvatlash.

  • Datasetlarni tayyorlash: Quyidagi vazifalar uchun ma'lumotlar to‘plamlarini tayyorlash:

    • Instruction tuning (ko‘rsatmalar asosida o‘qitish);

    • Supervised fine-tuning (SFT);

    • "Savol-javob" juftliklarini generatsiya qilish;

    • Tarjima va xulosa chiqarish (summarization) vazifalari.

  • ML-jamoa bilan hamkorlik: Tokenizatorlarni o‘qitish, LoRA / QLoRA sozlamalari, ma'lumotlarni versiyalash va eksperimentlarni kuzatishda ishtirok etish.

  • RAG: RAG payplaynlarini (hujjatlarni kiritish, qismlarga ajratish — chunking, vektorizatsiya, qidiruv) ishlab chiqish va maxsus (custom) inferens yechimlarini prodakshnga integratsiya qilish.

  • GPU optimizatsiyasi: O‘qitish va inferens jarayonida GPU dan maksimal darajada samarali foydalanish uchun ish jarayonlarini sozlash.

Talablar:

  • Python: Ma'lumotlarni qayta ishlash va ML-payplaynlarni qurish uchun tilni chuqur bilish.

  • Frameworklar: PyTorch, HuggingFace Transformers bilan ishlash bo‘yicha ishonchli tajriba va CUDA haqida (ML-jamoa bilan hamkorlik qilish uchun yetarli) bazaviy tushuncha.

  • LLM tajribasi: LLM uchun datasetlar tayyorlash, Instruction tuning va SFT bilan ishlash bo‘yicha amaliy tajriba.

  • Texnologiyalar: LangChain yoki LlamaIndex bilan ishlash tajribasi, LoRA / QLoRA va tokenizatorlarni o‘qitish jarayonlarini tushunish.

  • Vositalar: Git, Docker bilan erkin ishlash.

  • Backend: Backend-freymvorklar (FastAPI yoki shunga o‘xshash) bilan ishlash tajribasi.

Shartlar:

  • Grafik: Haftada 5 kun, 09:00 dan 18:00 gacha.

  • Rasmiylashtirish: O‘zR Mehnat kodeksiga muvofiq, 28 kalendar kunlik mehnat ta'tili.

  • Erkin muhit: Qat'iy kiyinish qoidalari (dress-kod) yo‘q — biz davlat tashkilotlari haqidagi stereotiplarni buzishga intilamiz.

  • Jamoa: Bilim va tajriba almashishga tayyor kuchli professionallar jamoasi.

  • Loyihalar: Aholi turmush darajasini yaxshilash va mamlakatning yetakchi korxonalarida biznes jarayonlarini optimallashtirishga qaratilgan yirik va ahamiyatli loyihalarda ishtirok etish.

  • Rivojlanish: Mustaqil qarorlar qabul qilish va kompaniya rivojiga faol ta'sir ko‘rsatish uchun keng imkoniyatlar.

Interested in this Vacancy?

Be sure to familiarize yourself with the duties and working conditions before responding to the job posting