ქართული მეტყველების ამოცნობა

georgian speech to text

 ხმის ამომცნობი ანუ წარმოთქმულის ტექსტად ქცევის საშუალებები (ინგლ. Speech to Text, შემოკლ. STT, გამოითქმის „ეს-თი-თი“) ეწოდება პროგრამულ უზრუნველყოფას, რომელსაც ადამიანის გაბმული მეტყველებიდან ან ხმოვანი ჩანაწერიდან შეუძლია ასოებისა თუ სიტყვების ამოცნობა და საჭიროების შემთხვევაში წერილობით გამოსახვაც.

ამის მისაღწევად საჭიროა დიდძალი ტექსტი გახმოვანებულ ჩანაწერებთან ერთად, რომ მანქანური შესწავლის ალგორითმებით კომპიუტერმა დაადგინოს წარმოთქმულ ბგერებსა და ნაწერს შორის ურთიერთკავშირები და მეტყველების მოსმენისას შეძლოს სიტყვების სწორად ამოცნობა.

ვინაიდან ეს ყველაფერი დიდ რესურსებს საჭიროებს, მცირერიცხოვან ხალხთა ენებისთვის ნაკლებადაა ხელმისაწვდომი, მაგრამ ციფრული ტექნოლოგიებისა თუ ხელოვნური ინტელექტის განვითარებასთან ერთად იმატებს ამგვარი ენების საჭირო საშუალებებით უზრუნველყოფის შესაძლებლობებიც.

2017 წელს ქართულისთვის მეტ-ნაკლებად ხარისხიანი STT თავის მომსახურებებში დაამატა Google-მა. მოსინჯვა და შეძენა შეიძლება ღრუბლოვანი მომსახურებების საიტზე Cloud.Google.com აგრეთვე ვებგვერდზე ჩაშენებული სახით ბრაუზერისთვის – Chrome Web Speech API. ყოველთვიურად 1 საათი უფასოა, შემდეგ კი წუთობრივი ტარიფი მოქმედებს. მომსახურებების გასაუმჯობესებლად ხმოვანი ჩანაწერების შეგროვებაზე თანხმობის შემთხვევაში გარკვეული ფასდაკლებაცაა გათვალისწინებული.

შეუზღუდავადაა ხელმისაწვდომი სხვადასხვა პროდუქტებში (Google Search, Google Translate, Google Docs, Gboard, Google Assistant). უფასოა, მაგრამ გასათვალისწინებელია, რომ შეიძლება იწერდეს და აღრიცხავდეს ნალაპარაკევს მომსახურების გასაუმჯობესებლად.

  • Web Speech Demo — გუგლის ამომცნობის მოსასინჯი

2021 წელს ბუნებრივი ენის მიმართულებით მომუშავე ქართულმა კომპანიამ წარმოადგინა პლატფორმა wavetech („ვეივტექი“), რომლითაც ადგილობრივ სამომხმარებლო ბაზარს სთავაზობდა საკუთარ ხმოვან ძრავებს, იმავე წლის ბოლოს კი საცდელ რეჟიმში დაემატა მეტყველების ამომცნობიც.

  • wavetech — ქართული კომპანიის ხმის ამომცნობი

2023 წელს კი ხმოვანი მომსახურებებით მხარდაჭერილი ენების რიცხვი გააფართოვა Microsoft-მაც და ქართული ენის ამომცნობი სისტემით სარგებლობა შეიძლება Azure-საიტიდან.

  • Speech Studio — მაიკროსოფტის ამომცნობის მოსასინჯი

 ხმოვანი ტექნოლოგიების განვითარებისთვის მნიშვნელოვანია ჩანაწერთა დიდი კრებულის შეგროვება. Google, Microsoft და მსგავსი გიგანტური კომპანიები ამისთვის იყენებს საკუთარ მომსახურებებს, მოწყობილობებს, სისტემებსა თუ პროგრამებს, რომ ადამიანთა საუბრების, მიმოწერის, მოძიებული შედეგებისა და მსგავსი მონაცემების აღრიცხვით დახვეწოს საკუთარი პროდუქტი, რაც შესაძლოა, არ იყოს ბევრისთვის მისაღები და იწვევდეს უკმაყოფილებას პირადი ცხოვრების ხელყოფის გამო.

ამასთან ერთად, ენებისთვის დამახასიათებელია ხოლმე სხვადასხვა კილო, დიალექტი, აქცენტი, ხოლო ამ სახით შეგროვებულ მონაცემებში ჭარბობს უმრავლესობის მეტყველების თავისებურება, შესაბამისად ვერ იქნება გათვალისწინებული მცირე ჯგუფები და მათი დიდი ნაწილი ტექნოლოგიური მხარდაჭერის გარეშე რჩება.

სწორედ ამ მიზეზების გამო, 2017 წლის ივნისში პირადი ცხოვრების ხელშეუხებლობისთვის მზრუნველმა კომპანია Mozilla-მ წარმოადგინა პლატფორმა Common Voice, რომლის მეშვეობითაც ნებისმიერ მსურველს ნებაყოფლობით შეუძლია საკუთარი ენისთვის ან დიალექტისთვის საჭირო ტექსტების მიწოდება და მათი გახმოვანება, რომელთაც შემდგომში რიგითი ხალხი თავისუფლად გამოიყენებს ხმოვანი პროგრამების განსავითარებლად და არ იქნება დამოკიდებული მხოლოდ დიდი კომპანიების შემოთავაზებულ შეზღუდულ ან ფასიან მომსახურებებზე.

2020 წლის ზაფხულში ჩანაწერების კრებულს დაემატა ქართულიც და ხალხის ჩართულობით თანდათან იზრდება. უკვე შეგროვებული ჩანაწერების ჩამოტვირთვა შესაძლებელია გვერდიდან Common Voice კრებული – Mozilla.

მისი მეშვეობით მოხალისეების მიერ შემუშავებული ხმის ამომცნობების ხილვა კი შეიძლება Hugginface-პლატფორმაზე, რომელიც განკუთვნილია საგანგებოდ მანქანური შესწავლის მოდელების ღიად განსათავსებლად, დასამუშავებლად, გამოსაკვლევად. Common voice-ის ქართული კრებულით შეიძლება გაიწვრთნას Facebook-ის XLS-R მოდელი და ადვილად ხერხდება საკუთარი ქართული მეტყველების ამომცნობის შექმნა.

  • wav2vec2-XLS-R ერთ-ერთი მოხალისის მიერ გაწვრთნილი მოდელი

ქვემოთ ვიდეოში ნაჩვენებია Google-ისა და Microsoft-ის მომსახურებებში მოცემული ხმის ამომცნობი საშუალებების გამოყენების შედეგები ქართული ენისთვის და აგრეთვე, მოსინჯულია Mozilla-ს მიერ შეგროვებული კრებულით მომზადებული XLS-R-მოდელიც.




 

 

Comments