Middle\Senior Data Engineer (Muxlisa AI)
Work Conditions
Siz Muxlisa AI kompaniyasida nutq texnologiyalarini rivojlantirish uchun ma'lumotlar quvurlarini (data pipelines) loyihalash va qo‘llab-quvvatlash bilan shug‘ullanasiz. Sizning ishingiz nutqni avtomatik aniqlash (ASR/STT), nutq sintezi (TTS) va diarizatsiya modellarini o‘qitish uchun poydevor bo‘lib xizmat qiladi hamda ularni toza va sifatli ma'lumotlar to‘plamlari bilan ta'minlaydi.
Vazifalar:
-
Audio ma'lumotlarni yig‘ish: Turli manbalardan (koll-markazlar, TTS yozish studiyalari, ichki resurslar) audio ma'lumotlarni olish va yuklashni tashkil etish.
-
Ochiq ma'lumotlar: Python, veb-krouling (web-crawling) kutubxonalari va maxsus parserlardan foydalangan holda ochiq datasetlarni yig‘ish.
-
Tozalash va qayta ishlash: Audioni tozalash va birlamchi qayta ishlash (resampling, VAD — nutq faolligini aniqlash, sukunatni olib tashlash, segmentatsiya).
-
Juftliklarni shakllantirish: O‘qitish, validatsiya va test (train/dev/test) tanlamalari uchun tekshirilgan "audio-matn" juftliklarini shakllantirish.
-
Saqlashni optimallashtirish: MinIO/S3 da ma'lumotlar tuzilmasi va oqimlarini optimallashtirish.
-
Markirovka jarayonlari: Razmetka (belgilash) jarayonlarini kuzatib borish (ma'lumotlarni eksport/import qilish, validatsiya).
-
ETL: STT/TTS xususiyatlari uchun ETL jarayonlarini yaratish va qo‘llab-quvvatlash.
-
Ma'lumotlarni yetkazib berish: Machine Learning muhandislari uchun ma'lumotlarni tayyorlash va yetkazib berish.
Talablar:
-
Python: Python tilini mukammal bilish (
pandas,numpy,librosa,soundfile,re,pydub). -
Linux/Big Data: Linux/bash muhitida ishlash tajribasi va katta hajmdagi ma'lumotlarni qayta ishlash ko‘nikmalari.
-
Audio: Audio signallarni qayta ishlash asoslarini tushunish.
-
Obyektli saqlash: S3/MinIO bilan ishlash tajribasi.
-
Ma'lumotlar tuzilmasi: Ma'lumotlarni tuzilish tamoyillarini chuqur tushunish: ma'lumotlarni segmentlash, toifalash va belgilash, aniq sxemalarni loyihalash va formatlar barqarorligini ta'minlash qobiliyati.
-
Formatlar: STT/TTS uchun ma'lumotlar formatlari xususiyatlarini bilish.
Afzallik beriladi:
-
ETL orkestratsiya vositalari (
Airflow,Luigi) bilan tanish bo‘lish. -
Nutq diarizatsiyasi uchun datasetlar bilan ishlash tajribasi.
Shartlar:
-
Grafik: Haftada 5 kun, 09:00 dan 18:00 gacha.
-
Rasmiylashtirish: O‘zR Mehnat kodeksiga muvofiq, 28 kalendar kunlik mehnat ta'tili.
-
Erkin muhit: Qat'iy kiyinish qoidalari (dress-kod) yo‘q — biz davlat tashkilotlari haqidagi stereotiplarni buzishga intilamiz.
-
Jamoa: Bilim va tajriba almashishga tayyor kuchli professionallar jamoasi.
-
Loyihalar: Aholi turmush darajasini yaxshilash va mamlakatning yetakchi korxonalarida biznes jarayonlarini optimallashtirishga qaratilgan yirik va ahamiyatli loyihalarda ishtirok etish.
-
Rivojlanish: Mustaqil qarorlar qabul qilish va kompaniya rivojiga faol ta'sir ko‘rsatish uchun keng imkoniyatlar.
Interested in this Vacancy?
Be sure to familiarize yourself with the duties and working conditions before responding to the job posting