ხმის ამომცნობი ანუ წარმოთქმულის ტექსტად ქცევის საშუალებები (ინგლ. Speech to Text, შემოკლ. STT, გამოითქმის „ეს-თი-თი“) ეწოდება პროგრამულ უზრუნველყოფას, რომელსაც ადამიანის გაბმული მეტყველებიდან ან ხმოვანი ჩანაწერიდან შეუძლია ასოებისა თუ სიტყვების ამოცნობა და საჭიროების შემთხვევაში წერილობით გამოსახვაც.
ამის მისაღწევად საჭიროა დიდძალი ტექსტი გახმოვანებულ ჩანაწერებთან ერთად, რომ მანქანური შესწავლის ალგორითმებით კომპიუტერმა დაადგინოს წარმოთქმულ ბგერებსა და ნაწერს შორის ურთიერთკავშირები და მეტყველების მოსმენისას შეძლოს ნაკარნახევი ტექსტის სწორად ამოცნობა.
ვინაიდან ეს ყველაფერი დიდ რესურსებს საჭიროებს, მცირერიცხოვან ხალხთა ენებისთვის ნაკლებადაა ხელმისაწვდომი, მაგრამ ციფრული ტექნოლოგიებისა თუ ხელოვნური ინტელექტის განვითარებასთან ერთად იმატებს ამგვარი ენების საჭირო საშუალებებით უზრუნველყოფის შესაძლებლობებიც.
ქართული ხმის ამომცნობი
2017 წელს ქართულისთვის მეტ-ნაკლებად ხარისხიანი STT თავის მომსახურებებში დაამატა Google-მა. მოსინჯვა და შეძენა შეიძლება ღრუბლოვანი მომსახურებების საიტზე Cloud.Google.com აგრეთვე ვებგვერდზე ჩაშენებული სახით ბრაუზერისთვის – Chrome Web Speech API. ყოველთვიურად 1 საათი უფასოა, შემდეგ კი წუთობრივი ტარიფი მოქმედებს. მომსახურებების გასაუმჯობესებლად ხმოვანი ჩანაწერების შეგროვებაზე თანხმობის შემთხვევაში გარკვეული ფასდაკლებაცაა გათვალისწინებული.
შეუზღუდავადაა ხელმისაწვდომი სხვადასხვა პროდუქტებში (Google Search, Google Translate, Google Docs, Gboard, Google Assistant). უფასოა, მაგრამ გასათვალისწინებელია, რომ შეიძლება იწერდეს და აღრიცხავდეს ნაკარნახევს მომსახურების გასაუმჯობესებლად.
- Web Speech Demo — გუგლის ქართულის ამომცნობის საჩვენებელი ვერსია
2021 წელს ბუნებრივი ენის მიმართულებით მომუშავე ქართულმა კომპანიამ წარმოადგინა პლატფორმა wavetech („ვეივტექი“), რომლითაც ადგილობრივ სამომხმარებლო ბაზარს სთავაზობდა საკუთარ ხმოვან ძრავებს, იმავე წლის ბოლოს კი საცდელ რეჟიმში დაემატა მეტყველების ამომცნობიც.
2023 წელს კი ხმოვანი მომსახურებებით მხარდაჭერილი ენების რიცხვი გააფართოვა Microsoft-მაც და ქართული ენის ამომცნობი სისტემით სარგებლობა შეიძლება Azure-საიტიდან, აგრეთვე აღნიშნული მომსახურება ჩაშენებულია Microsoft Office კრებულებში და შესაძლებელია ქართული ტექსტის კარნახით აკრეფა Word-დოკუმენტის შესადგენად.
- Speech Studio — მაიკროსოფტის ქართულის ამომცნობის მოსასინჯი როგორც კარნახით, ასევე ხმოვანი ფაილის ატვირთვით.
2024 წელს კიდევ ერთმა ქართულმა კომპანიამ გამოიტანა ღიად ენობრივი ტექნოლოგიების პლატფორმა, ხელოვნური ინტელექტის მეშვეობით მომუშავე საშუალებები ქართულისა და სხვა მცირერიცხოვანი ენებისთვის, დასახელებით „ენაგრამი“. აქვს როგორც ფასიანი მომსახურებები დაწესებულებებისთვის, ასევე უფასო გამოყენების შესაძლებლობა რიგითი მომხმარებლებისთვის ანგარიშის შექმნისას.
მისი ერთ-ერთი ხელსაწყო „საუბარმწერი“ ნაწერის სახით გამოიტანს შეტანილ ხმას, რომელიც შეიძლება მიეწოდოს პირდაპირ მიკროფონით, ხმოვანი ფაილით ანდა Youtube-ბმულის სახით. ამასთანავე, შესაძლებელია გარდაქმნილი ტექსტის მართლწერის გასწორებაც უკეთესი ხარისხის მისაღებად.
- enagram.ai — ქართული ხმის მატექსტებელი STT-ხელსაწყოს მოსასინჯი გვერდი
ღია და თავისუფალი ხმის ამომცნობის შემუშავება
ხმოვანი ტექნოლოგიების განვითარებისთვის მნიშვნელოვანია ჩანაწერთა დიდი კრებულის შეგროვება. Google, Microsoft და მსგავსი გიგანტური კომპანიები ამისთვის იყენებს საკუთარ მომსახურებებს, მოწყობილობებს, სისტემებსა თუ პროგრამებს, რომ ადამიანთა საუბრების, მიმოწერის, მოძიებული შედეგებისა და მსგავსი მონაცემების აღრიცხვით დახვეწოს საკუთარი პროდუქტი, რაც შესაძლოა, არ იყოს ბევრისთვის მისაღები და იწვევდეს უკმაყოფილებას პირადი ცხოვრების ხელყოფის გამო.
ამას გარდა, ვინაიდან ენებისთვის დამახასიათებელია ხოლმე სხვადასხვა კილო, დიალექტი, აქცენტი, ხოლო დიდი კომპანიების მიერ ფარულად შეგროვებულ მონაცემებში ჭარბობს უმრავლესობის მეტყველების თავისებურება, შესაბამისად ვერ იქნება გათვალისწინებული მცირე ჯგუფები და მათი დიდი ნაწილი ტექნოლოგიური მხარდაჭერის გარეშე რჩება.
სწორედ ამ მიზეზების გამო 2017 წლის ივნისში პირადი ცხოვრების ხელშეუხებლობისთვის მზრუნველმა კომპანია Mozilla-მ წარმოადგინა პლატფორმა Common Voice, რომლის მეშვეობითაც ნებისმიერ მსურველს ნებაყოფლობით შეუძლია საკუთარი ენისთვის ან კუთხური მეტყველებისა და დიალექტისთვის საჭირო ტექსტების მიწოდება და მათი გახმოვანება, რომელთაც შემდგომში რიგითი ხალხი თავისუფლად გამოიყენებს ხმოვანი პროგრამების განსავითარებლად და არ იქნება დამოკიდებული მხოლოდ დიდი კომპანიების შემოთავაზებულ შეზღუდულ ან ფასიან მომსახურებებზე.
2020 წლის ზაფხულში ჩანაწერების კრებულს დაემატა ქართულიც, ხოლო 2024 წლის ბოლოდან კი გამოჩნდა მეგრული, სვანური და წოვათუშურიც. უკვე შეგროვებული ჩანაწერების ჩამოტვირთვა შესაძლებელია გვერდიდან Common Voice კრებული – Mozilla.
ღია და საჯაროდ ხელმისაწვდომი მონაცემების შექმნაში წვლილის შეტანა ნებისმიერ მსურველს შეუძლია
- ქართულისთვის ხმოვანი ჩანაწერების შექმნა — commonvoice/ka
- მეგრულისთვის ხმოვანი ჩანაწერების შექმნა — commonvoice/xmf
- სვანურისთვის ხმოვანი ჩანაწერების შექმნა — commonvoice/sva
- წოვათუშურისთვის ხმოვანი ჩანაწერების შექმნა — commonvoice/bbl
მისი მეშვეობით მოხალისეების მიერ შემუშავებული ხმის ამომცნობების ხილვა კი შეიძლება Hugginface-პლატფორმაზე, რომელიც განკუთვნილია საგანგებოდ მანქანური შესწავლის მოდელების ღიად განსათავსებლად, დასამუშავებლად, გამოსაკვლევად. Common voice-ის კრებულით შეიძლება გაიწვრთნას Facebooks-ის (ახლანდელი Meta) მიერ შემუშავებული XLS-R მოდელი, რომელიც განკუთვნილია სხვადასხვა ენებისა თუ მათი ვარიაციების ღრმა სწავლებისთვის და ადვილად ხერხდება მცირე ენებისთვის, მათ შორის ქართულისთვისაც, მეტყველების ამომცნობის შექმნა.
- wav2vec2-XLS-R — ერთ-ერთი მოხალისის მიერ გაწვრთნილი მოდელი
ქვემოთ ვიდეოში ნაჩვენებია Google-ისა და Microsoft-ის მომსახურებებში მოცემული ხმის ამომცნობი საშუალებების გამოყენების შედეგები ქართული ენისთვის და აგრეთვე, მოსინჯულია Mozilla-ს მიერ შეგროვებული კრებულით მომზადებული XLS-R-მოდელიც.
Comments
Post a Comment