UZINFOCOM logoUZINFOCOM logo

Middle/Senior Data Engineer — LLM (Muxlisa AI)

To'liq bandlik

3-6

Bosh ofis

10.02.2026

Ish sharoitlari

Biz noldan boshlab o‘zbek tili uchun milliy til modelini (LLM) yaratmoqdamiz — ma'lumotlar konveyerlarini (pipeline) ishlab chiqishdan tortib, modelni nozik sozlash (fine-tuning) va "production"ga joriy etishgacha. Biz LLM uchun ma'lumotlarning to‘liq hayotiy tsiklini: yig‘ish, tozalash, validatsiya qilish, o‘qitish payplaynlariga uzatish va RAG tizimlarini qo‘llab-quvvatlashni o‘z zimmasiga oladigan Data Engineer qidirmoqdamiz.

Vazifalar:

  • Pipeline yaratish: LLMni o‘qitish, baholash va RAG tizimlari uchun masshtablanuvchi ma'lumotlar konveyerlarini yaratish.

  • Katta ma'lumotlar bilan ishlash: Ulkan matnli datasetlarni (yangiliklar, kitoblar, veb-kontent, yuridik hujjatlar, jonli nutq) yig‘ish, tozalash, normallashtirish, deduplikatsiya qilish (takrorlanishni yo‘qotish), klasterlash va validatsiya qilish.

  • Sifat nazorati: Ma'lumotlar sifatini avtomatik tekshirish tizimlarini (filtrlar, evristik usullar va ML-validatsiya usullari) ishlab chiqish.

  • Annotatsiya vositalari: Ma'lumotlarni annotatsiya qilish (belgilash), verifikatsiya va kurerlik ishlari uchun vositalarni yaratish va qo‘llab-quvvatlash.

  • Datasetlarni tayyorlash: Quyidagi vazifalar uchun ma'lumotlar to‘plamlarini tayyorlash:

    • Instruction tuning (ko‘rsatmalar asosida o‘qitish);

    • Supervised fine-tuning (SFT);

    • "Savol-javob" juftliklarini generatsiya qilish;

    • Tarjima va xulosa chiqarish (summarization) vazifalari.

  • ML-jamoa bilan hamkorlik: Tokenizatorlarni o‘qitish, LoRA / QLoRA sozlamalari, ma'lumotlarni versiyalash va eksperimentlarni kuzatishda ishtirok etish.

  • RAG: RAG payplaynlarini (hujjatlarni kiritish, qismlarga ajratish — chunking, vektorizatsiya, qidiruv) ishlab chiqish va maxsus (custom) inferens yechimlarini prodakshnga integratsiya qilish.

  • GPU optimizatsiyasi: O‘qitish va inferens jarayonida GPU dan maksimal darajada samarali foydalanish uchun ish jarayonlarini sozlash.

Talablar:

  • Python: Ma'lumotlarni qayta ishlash va ML-payplaynlarni qurish uchun tilni chuqur bilish.

  • Frameworklar: PyTorch, HuggingFace Transformers bilan ishlash bo‘yicha ishonchli tajriba va CUDA haqida (ML-jamoa bilan hamkorlik qilish uchun yetarli) bazaviy tushuncha.

  • LLM tajribasi: LLM uchun datasetlar tayyorlash, Instruction tuning va SFT bilan ishlash bo‘yicha amaliy tajriba.

  • Texnologiyalar: LangChain yoki LlamaIndex bilan ishlash tajribasi, LoRA / QLoRA va tokenizatorlarni o‘qitish jarayonlarini tushunish.

  • Vositalar: Git, Docker bilan erkin ishlash.

  • Backend: Backend-freymvorklar (FastAPI yoki shunga o‘xshash) bilan ishlash tajribasi.

Shartlar:

  • Grafik: Haftada 5 kun, 09:00 dan 18:00 gacha.

  • Rasmiylashtirish: O‘zR Mehnat kodeksiga muvofiq, 28 kalendar kunlik mehnat ta'tili.

  • Erkin muhit: Qat'iy kiyinish qoidalari (dress-kod) yo‘q — biz davlat tashkilotlari haqidagi stereotiplarni buzishga intilamiz.

  • Jamoa: Bilim va tajriba almashishga tayyor kuchli professionallar jamoasi.

  • Loyihalar: Aholi turmush darajasini yaxshilash va mamlakatning yetakchi korxonalarida biznes jarayonlarini optimallashtirishga qaratilgan yirik va ahamiyatli loyihalarda ishtirok etish.

  • Rivojlanish: Mustaqil qarorlar qabul qilish va kompaniya rivojiga faol ta'sir ko‘rsatish uchun keng imkoniyatlar.

Vakansiyaga qiziqdingizmi?

Vakansiyaga ariza berishdan oldin majburiyatlar va ish sharoitlari bilan tanishib chiqing