Middle\Senior Data Engineer (Muxlisa AI)
Условия работы
Siz Muxlisa AI kompaniyasida nutq texnologiyalarini rivojlantirish uchun ma'lumotlar quvurlarini (data pipelines) loyihalash va qo‘llab-quvvatlash bilan shug‘ullanasiz. Sizning ishingiz nutqni avtomatik aniqlash (ASR/STT), nutq sintezi (TTS) va diarizatsiya modellarini o‘qitish uchun poydevor bo‘lib xizmat qiladi hamda ularni toza va sifatli ma'lumotlar to‘plamlari bilan ta'minlaydi.
Vazifalar:
-
Audio ma'lumotlarni yig‘ish: Turli manbalardan (koll-markazlar, TTS yozish studiyalari, ichki resurslar) audio ma'lumotlarni olish va yuklashni tashkil etish.
-
Ochiq ma'lumotlar: Python, veb-krouling (web-crawling) kutubxonalari va maxsus parserlardan foydalangan holda ochiq datasetlarni yig‘ish.
-
Tozalash va qayta ishlash: Audioni tozalash va birlamchi qayta ishlash (resampling, VAD — nutq faolligini aniqlash, sukunatni olib tashlash, segmentatsiya).
-
Juftliklarni shakllantirish: O‘qitish, validatsiya va test (train/dev/test) tanlamalari uchun tekshirilgan "audio-matn" juftliklarini shakllantirish.
-
Saqlashni optimallashtirish: MinIO/S3 da ma'lumotlar tuzilmasi va oqimlarini optimallashtirish.
-
Markirovka jarayonlari: Razmetka (belgilash) jarayonlarini kuzatib borish (ma'lumotlarni eksport/import qilish, validatsiya).
-
ETL: STT/TTS xususiyatlari uchun ETL jarayonlarini yaratish va qo‘llab-quvvatlash.
-
Ma'lumotlarni yetkazib berish: Machine Learning muhandislari uchun ma'lumotlarni tayyorlash va yetkazib berish.
Talablar:
-
Python: Python tilini mukammal bilish (
pandas,numpy,librosa,soundfile,re,pydub). -
Linux/Big Data: Linux/bash muhitida ishlash tajribasi va katta hajmdagi ma'lumotlarni qayta ishlash ko‘nikmalari.
-
Audio: Audio signallarni qayta ishlash asoslarini tushunish.
-
Obyektli saqlash: S3/MinIO bilan ishlash tajribasi.
-
Ma'lumotlar tuzilmasi: Ma'lumotlarni tuzilish tamoyillarini chuqur tushunish: ma'lumotlarni segmentlash, toifalash va belgilash, aniq sxemalarni loyihalash va formatlar barqarorligini ta'minlash qobiliyati.
-
Formatlar: STT/TTS uchun ma'lumotlar formatlari xususiyatlarini bilish.
Afzallik beriladi:
-
ETL orkestratsiya vositalari (
Airflow,Luigi) bilan tanish bo‘lish. -
Nutq diarizatsiyasi uchun datasetlar bilan ishlash tajribasi.
Shartlar:
-
Grafik: Haftada 5 kun, 09:00 dan 18:00 gacha.
-
Rasmiylashtirish: O‘zR Mehnat kodeksiga muvofiq, 28 kalendar kunlik mehnat ta'tili.
-
Erkin muhit: Qat'iy kiyinish qoidalari (dress-kod) yo‘q — biz davlat tashkilotlari haqidagi stereotiplarni buzishga intilamiz.
-
Jamoa: Bilim va tajriba almashishga tayyor kuchli professionallar jamoasi.
-
Loyihalar: Aholi turmush darajasini yaxshilash va mamlakatning yetakchi korxonalarida biznes jarayonlarini optimallashtirishga qaratilgan yirik va ahamiyatli loyihalarda ishtirok etish.
-
Rivojlanish: Mustaqil qarorlar qabul qilish va kompaniya rivojiga faol ta'sir ko‘rsatish uchun keng imkoniyatlar.
Заинтересованы в вакансии?
Перед откликом на вакансию, обязательно ознакомьтесь с обязанностями и условиями работы