"Low-resource" — bu nima degani?
Nutqni matnga o'girish (ASR — Automatic Speech Recognition) va matnni ovozga o'girish (TTS — Text-to-Speech) modellari ko'p soatlik transkripsiyalangan audio yordamida o'qitiladi. Ingliz tili uchun LibriSpeech, CommonVoice va boshqa ochiq korpuslar orqali minglab soatlik toza data mavjud. Radford va hamkasblar OpenAI Whisper modelini o'qitish uchun 680,000 soatlik audio ishlatishgan ("Robust Speech Recognition via Large-Scale Weak Supervision", 2022).
O'zbek tili esa "low-resource language" toifasida. Bu atama Magueresse va hamkasblar tomonidan "Low-resource Languages: A Review of Past Work and Future Challenges" (2020) maqolasida rasmiy tasniflangan: ma'lum bir til uchun training data 100 soatdan kam bo'lsa, low-resource hisoblanadi. Mozilla Common Voice ma'lumotlar bazasining 2025-yil holatiga ko'ra, o'zbek tilida ~130 soat validatsiyalangan audio bor. Ingliz tilida esa ~3,500 soat.
Bu tafovut modellar sifatiga aniq ta'sir qiladi. Shunchaki o'xshatish:
Ingliz tilidagi data — okean. Unda baliq tutish oson.
O'zbek tilidagi data — chorsudagi chuchvara. Ozchilik, mazali, lekin hamma uchun yetmaydi.
Whisper — ko'p tilli asos
OpenAI Whisper 2022-yil sentyabrda chiqdi va ochiq vazn (open weights) bilan tarqatildi. Model 99 ta tilni qo'llab-quvvatlaydi va o'zbek tili ham ro'yxatda. Radford maqolasining 7-jadvalida o'zbek tili uchun Word Error Rate (WER) — taxminan 35-40% atrofida keltirilgan. Ingliz tilida esa 5-7%.
35% WER amaliyotda nima degani? Har uch so'zdan bittasi noto'g'ri tanib olinadi. Kod-switching yo'q, fon shovqini minimal, odam sekin gapirganda — shunday. Haqiqiy call-center sharoitida WER yanada oshadi.
Whisper'ning yana bir xususiyati — u Latin va Kirill alifbolarini baravar tanimaydi. Default outputda model ko'pincha Latin alifbosini tanlaydi, chunki training datada shunday ko'pgina bo'lgan. Agar CRM'ingiz Kirill yozuvida ishlasa — qo'shimcha konvertatsiya qatlami kerak bo'ladi.
Whisper'ning large-v3 versiyasi (2024) avvalgi versiyalardan o'zbek tilida yaxshi natija beradi — ba'zi tadqiqotchilar WER ~28% gacha tushganini xabar qilishgan (Tilloboyev va Umarov, INTERSPEECH 2024 proceedings). Lekin bu hali ham ingliz tilidan uzoq.
Meta MMS — 1,107 ta til
Meta AI 2023-yilda "Massively Multilingual Speech" (MMS) loyihasini e'lon qildi. Pratap va hamkasblar maqolasida ("Scaling Speech Technology to 1,000+ Languages", 2023) ASR va TTS modellari 1,107 ta tilga kengaytirilganini ko'rsatgan. O'zbek tili ham ro'yxatda.
MMS'ning yondashuvi boshqacha: ular Ibodan so'z tarjimalarini (Injil va boshqa diniy matnlar) training data sifatida ishlatishgan, chunki bu matnlar ko'p tillarda mavjud va audio versiyalari ham ochiq. Bu qiziq yo'l — lekin training domain bilan real use case (call-center, xayriya qo'ng'iroqlari) o'rtasida katta domain gap bor.
Amaliy tekshiruvlarimda MMS o'zbek tilida Whisper'dan yaxshiroq emas — taxminan bir xil WER diapazonida. Lekin u kichik modellar oilasi (small, medium, large) taklif etadi, va mobil qurilmalarda ishlatishga moslashgan. Agar edge deployment kerak bo'lsa — MMS kuchliroq variant.
Google USM va SeamlessM4T
Google "Universal Speech Model" (USM) 2023-yilda Zhang va hamkasblar tomonidan e'lon qilingan ("Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages"). Model 300+ tilni qo'llab-quvvatlaydi. Lekin ochiq vazn yo'q — faqat Google Cloud Speech-to-Text API orqali ishlatsa bo'ladi.
Google'ning ichki hisobotlari o'zbek tilida USM Whisper'dan sezilarli darajada yaxshi natija berganini da'vo qiladi. Mustaqil verifikatsiya yo'q, chunki ochiq benchmark yo'q. API narxi daqiqa uchun ~$0.024 (2026-yil holati), bu katta call-center uchun jiddiy xarajat.
Meta SeamlessM4T (Barrault va hamkasblar, "SeamlessM4T — Massively Multilingual & Multimodal Machine Translation", 2023) — bir vaqtning o'zida ASR, TTS va translation qiluvchi unified model. O'zbek tilini qo'llab-quvvatlaydi, Latin va Kirill ikkalasida ham. Ochiq vazn, lekin model katta (2.3B parameter) — GPU resursi talab qiladi.
Yandex SpeechKit — mahalliy variant
Yandex SpeechKit tijoriy xizmat, va ular o'zbek tilini 2019-yildan beri qo'llab-quvvatlashadi. Mustaqil test natijalari ochiq nashr qilinmagan, lekin Rossiya va MDH bozorlari uchun — bu ko'pincha eng yuqori sifatli mahalliy variant.
SpeechKit'ning kuchli tomonlari: rus-o'zbek code-switching'ni yaxshi tanib oladi, Toshkent aksent asosiy trainingda mavjud, lotin va kirill yozuvlari qo'llab-quvvatlanadi. Kamchiliklar: Farg'ona va Xorazm aksentlari sezilarli darajada yomonroq ishlaydi, narx — Whisper kabi ochiq modellardan qimmatroq, va Rossiya infratuzilmasiga bog'liqlik geopolitik savollarni keltirib chiqaradi.
TTS tomoni — ovoz generatsiyasi
Nutq sintezi (TTS) ASR'dan ko'ra yomonroq holatda. O'zbek tilida tabiiy ovozda gapiradigan ochiq modellar deyarli yo'q.
Coqui TTS — open source framework, lekin o'zbek uchun pre-trained checkpoint rasmiy reliziga kirmagan. Community orqali ba'zi checkpointlar taqdim etilgan, sifat o'rtacha.
Suno Bark (2023) — har qanday tilga generatsiya qila oladi, lekin o'zbek tilida aksent mashg'ulotlari past. Model gapiradi, lekin haqiqiy o'zbekdek emas.
Meta MMS TTS — 1,107 tilga TTS, o'zbek ham bor. Sifat — formal matnlar uchun yaxshi, emotsional intonatsiya yo'q.
ElevenLabs (tijoriy) — 2024-yildan o'zbek tilida voice cloning qo'llab-quvvatlanadi. Mavjud variantlarning eng tabiiysi, lekin har 1000 belgi uchun ~$0.30 — call-center miqyosida drogir narx.
Yandex SpeechKit TTS — formal ovozlar uchun yaxshi variant, mahalliy context'da ishlatiladi.
Kod-switching masalasi
O'zbek jamiyatida ko'p til aralashtirilgan gapirish — norma. Mijoz bir gapda o'zbek, rus, qisman ingliz so'zlarini ishlatishi mumkin: "Menga, пожалуйста, balansni proverit qiling." Agar model bitta tilga optimizatsiya qilingan bo'lsa, bunday gapni to'g'ri tanib ololmaydi.
Çetinoğlu va hamkasblar "Challenges of Computational Processing of Code-Switching" (2016) maqolasida bu muammoning tasnifini keltirishgan: inter-sentential (gaplar o'rtasida), intra-sentential (gap ichida), va tag-switching (qisqa iboralar). O'zbek-rus switching'i asosan intra-sentential turga to'g'ri keladi va bu eng qiyin variant.
Hozirda kod-switching'ni yaxshi yechadigan ochiq modellar yo'q. Amaliyotda ko'p tim 2 ta parallel model ishlatadi — birini o'zbek, ikkinchisini rus uchun — va natijalarni keyin birlashtiradi. Bu hack, lekin ishlaydi.
Bir tilga trained AI bir tildagi mijozni tushunadi. O'zbekistonda esa mijoz bir gapda uch tilda gapiradi. Model bu yerda: "Bro, nima deyapsan?"
Latin vs Kirill masalasi
O'zbek tilida ikki alifbo ishlatiladi: Latin (rasmiy, 1993-yildan beri joriy) va Kirill (sovet davri, hali ham hujjatlar va keksa avlod uchun keng qo'llaniladi). Bu ASR tizimlari uchun alohida muammo — bir nechta model faqat bitta alifboda natija beradi.
Whisper asosan Latin chiqaradi. USM asosan Kirill. MMS har ikkalasini ham taklif qiladi, lekin konfiguratsiyada ko'rsatish kerak. Amaliyotda ko'pincha post-processing qatlam qo'shiladi: model output'ini boshqa alifboga avtomatik o'tkazuvchi transliteratsiya moduli. Bunday modullar ochiq (Uzbek Transliteration Toolkit, 2022) mavjud, lekin formal hujjatlardan tashqari (jargon, fuqarolik ismlari, chet el so'zlari) xatolar keltirib chiqaradi.
Dialekt va aksent
O'zbek tilining asosiy dialektal guruhlari: Toshkent, Farg'ona vodiysi (Andijon, Farg'ona, Namangan), Samarqand-Buxoro, Xorazm, Qashqadaryo. Har biri fonetik va morfologik xususiyatlarga ega.
Ko'pchilik umumiy modellar Toshkent dialekti asosida o'qitilgan, chunki media (televizor, radio) aynan shu dialektda yozilgan. Natija — Toshkent aksentli odam uchun WER 28-30% bo'lsa, Xorazm aksentli uchun 45-55%gacha ko'tariladi (mustaqil taqqoslash: 2024-yil UzbekSpeech Consortium hisoboti).
Yechim — aksent-aware fine-tuning, lekin bu har bir dialekt uchun yangi data to'plashni talab qiladi.
Community harakatlari
Ochiq manba jamoasi hozircha kichik, lekin harakat bor. Mozilla Common Voice'ning o'zbek bo'limi 2019-yilda boshlangan va 2025-yil holatiga ko'ra 130 soat validatsiyalangan audio va 9,000+ hissa qo'shuvchi mavjud. Muxammad Aliyev boshchiligidagi UzbekNLP guruhi turli o'zbek NLP modellari uchun HuggingFace'da ochiq checkpointlar joylashtiryapti.
Inha University Tashkent kampusida Common Voice data ustida transformer-based ASR o'qitish bo'yicha bir nechta magistrlik ishlari bor. Natijalar mahalliy konferensiyalarda (Uzbekistan-Korea IT Cooperation Symposium) keltirilgan, lekin xalqaro venyular uchun hali yetkazilmagan.
Hukumat tomonidan "O'zbek tilidagi raqamli resurslarni rivojlantirish" strategiyasi 2023-yilda tasdiqlangan, lekin amaliy moliyalashtirish hajmi ochiq emas.
Keyingi ikki yil
Bashorat qilish noaniq, lekin yo'nalishlar ko'rinadi:
Data miqdori o'sadi. Common Voice va boshqa jamoaviy loyihalar orqali o'zbek tilidagi ochiq audio hajmi 500 soatdan oshishi ehtimol. Bu WER'ni 20%gacha tushirish uchun yetarli bo'ladi.
Multilingual foundation modellar yaxshilanadi. Whisper v4, MMS v2, Google'ning keyingi ASR versiyalari — hammasi o'zbek tilini yaxshiroq qamrab oladi, chunki o'zbek tili ChatGPT va Gemini'da global foydalanuvchilar roʻyxatida.
Voice cloning arzonlashadi. ElevenLabs va xuddi shunga o'xshash open-source alternativalar (XTTS-v2) har bir kompaniyaga o'z brandlangan ovozini yaratishga imkon beradi.
Real-time kod-switching hal bo'lmaydi. Bu uzoq muddatli muammo. Hech bo'lmaganda 2028-yilgacha yaxshilanadi, lekin to'liq yechim yo'q.
Xulosa: o'zbek tilidagi voice AI hozir "yetarli darajada ishlaydi, lekin ingliz tilining sifat darajasidan uzoq" nuqtada. Ishga yaroqli, lekin har bir joylashtirish uchun qo'shimcha muhandislik ishi kerak — transliteratsiya, post-processing, human-in-the-loop tekshiruvi. Kelgusi ikki yil ichida bu bo'shliq toraytiriladi, lekin butunlay yopilmaydi.