Middle/Senior Data Engineer — LLM (Muxlisa AI)
Ish sharoitlari
Biz noldan boshlab o‘zbek tili uchun milliy til modelini (LLM) yaratmoqdamiz — ma'lumotlar konveyerlarini (pipeline) ishlab chiqishdan tortib, modelni nozik sozlash (fine-tuning) va "production"ga joriy etishgacha. Biz LLM uchun ma'lumotlarning to‘liq hayotiy tsiklini: yig‘ish, tozalash, validatsiya qilish, o‘qitish payplaynlariga uzatish va RAG tizimlarini qo‘llab-quvvatlashni o‘z zimmasiga oladigan Data Engineer qidirmoqdamiz.
Vazifalar:
-
Pipeline yaratish: LLMni o‘qitish, baholash va RAG tizimlari uchun masshtablanuvchi ma'lumotlar konveyerlarini yaratish.
-
Katta ma'lumotlar bilan ishlash: Ulkan matnli datasetlarni (yangiliklar, kitoblar, veb-kontent, yuridik hujjatlar, jonli nutq) yig‘ish, tozalash, normallashtirish, deduplikatsiya qilish (takrorlanishni yo‘qotish), klasterlash va validatsiya qilish.
-
Sifat nazorati: Ma'lumotlar sifatini avtomatik tekshirish tizimlarini (filtrlar, evristik usullar va ML-validatsiya usullari) ishlab chiqish.
-
Annotatsiya vositalari: Ma'lumotlarni annotatsiya qilish (belgilash), verifikatsiya va kurerlik ishlari uchun vositalarni yaratish va qo‘llab-quvvatlash.
-
Datasetlarni tayyorlash: Quyidagi vazifalar uchun ma'lumotlar to‘plamlarini tayyorlash:
-
Instruction tuning (ko‘rsatmalar asosida o‘qitish);
-
Supervised fine-tuning (SFT);
-
"Savol-javob" juftliklarini generatsiya qilish;
-
Tarjima va xulosa chiqarish (summarization) vazifalari.
-
-
ML-jamoa bilan hamkorlik: Tokenizatorlarni o‘qitish, LoRA / QLoRA sozlamalari, ma'lumotlarni versiyalash va eksperimentlarni kuzatishda ishtirok etish.
-
RAG: RAG payplaynlarini (hujjatlarni kiritish, qismlarga ajratish — chunking, vektorizatsiya, qidiruv) ishlab chiqish va maxsus (custom) inferens yechimlarini prodakshnga integratsiya qilish.
-
GPU optimizatsiyasi: O‘qitish va inferens jarayonida GPU dan maksimal darajada samarali foydalanish uchun ish jarayonlarini sozlash.
Talablar:
-
Python: Ma'lumotlarni qayta ishlash va ML-payplaynlarni qurish uchun tilni chuqur bilish.
-
Frameworklar:
PyTorch,HuggingFace Transformersbilan ishlash bo‘yicha ishonchli tajriba vaCUDAhaqida (ML-jamoa bilan hamkorlik qilish uchun yetarli) bazaviy tushuncha. -
LLM tajribasi: LLM uchun datasetlar tayyorlash, Instruction tuning va SFT bilan ishlash bo‘yicha amaliy tajriba.
-
Texnologiyalar:
LangChainyokiLlamaIndexbilan ishlash tajribasi,LoRA/QLoRAva tokenizatorlarni o‘qitish jarayonlarini tushunish. -
Vositalar:
Git,Dockerbilan erkin ishlash. -
Backend: Backend-freymvorklar (
FastAPIyoki shunga o‘xshash) bilan ishlash tajribasi.
Shartlar:
-
Grafik: Haftada 5 kun, 09:00 dan 18:00 gacha.
-
Rasmiylashtirish: O‘zR Mehnat kodeksiga muvofiq, 28 kalendar kunlik mehnat ta'tili.
-
Erkin muhit: Qat'iy kiyinish qoidalari (dress-kod) yo‘q — biz davlat tashkilotlari haqidagi stereotiplarni buzishga intilamiz.
-
Jamoa: Bilim va tajriba almashishga tayyor kuchli professionallar jamoasi.
-
Loyihalar: Aholi turmush darajasini yaxshilash va mamlakatning yetakchi korxonalarida biznes jarayonlarini optimallashtirishga qaratilgan yirik va ahamiyatli loyihalarda ishtirok etish.
-
Rivojlanish: Mustaqil qarorlar qabul qilish va kompaniya rivojiga faol ta'sir ko‘rsatish uchun keng imkoniyatlar.
Vakansiyaga qiziqdingizmi?
Vakansiyaga ariza berishdan oldin majburiyatlar va ish sharoitlari bilan tanishib chiqing