ქართული მეტყველების ამოცნობა

geotts

 ხმის ამომ­ცნო­ბი ანუ წარ­მოთ­ქმუ­ლის ტექ­სტად ქცე­ვის სა­შუა­ლე­ბე­ბი (ინგლ. Speech to Text, შე­მოკლ. STT, გა­მო­ით­ქმის „ეს-თი-თი“) ეწო­დე­ბა პროგ­რა­მულ უზ­რუნ­ველ­ყო­ფას, რო­მელ­საც ადა­მია­ნის გაბ­მუ­ლი მეტ­ყვე­ლე­ბი­დან ან ხმო­ვა­ნი ჩა­ნა­წე­რი­დან შე­უძ­ლია ასოე­ბი­სა თუ სიტ­ყვე­ბის ამოც­ნო­ბა და სა­ჭი­როე­ბის შემ­თხვე­ვა­ში წე­რი­ლო­ბით გა­მო­სახ­ვაც.

ამის მი­საღ­წე­ვად სა­ჭი­როა დიდ­ძა­ლი ტექ­სტი გახ­მო­ვა­ნე­ბულ ჩა­ნა­წე­რებ­თან ერ­თად, რომ მან­ქა­ნუ­რი შეს­წავ­ლის ალ­გო­რით­მე­ბით კომ­პიუ­ტერ­მა და­ად­გი­ნოს წარ­მოთ­ქმულ ბგე­რებ­სა და ნა­წერს შო­რის ურ­თი­ერ­თკავ­ში­რე­ბი და მეტ­ყვე­ლე­ბის მოს­მე­ნი­სას შეძ­ლოს ნა­კარ­ნა­ხე­ვი ტექ­სტის სწო­რად ამოც­ნო­ბა.

ვი­ნაი­დან ეს ყვე­ლა­ფე­რი დიდ რე­სურ­სებს სა­ჭი­რო­ებს, მცი­რე­რიც­ხო­ვან ხალ­ხთა ენე­ბის­თვის ნაკ­ლე­ბა­დაა ხელ­მი­საწ­ვდო­მი, მაგ­რამ ციფ­რუ­ლი ტექ­ნო­ლო­გიე­ბი­სა თუ ხე­ლოვ­ნუ­რი ინ­ტე­ლექ­ტის გან­ვი­თა­რე­ბას­თან ერ­თად იმა­ტებს ამ­გვა­რი ენე­ბის სა­ჭი­რო სა­შუა­ლე­ბე­ბით უზ­რუნ­ველ­ყო­ფის შე­საძ­ლებ­ლო­ბე­ბიც.

ქარ­თუ­ლი ხმის ამომ­ცნო­ბი 

 2017 წელს ქარ­თუ­ლის­თვის მეტ-ნაკ­ლე­ბად ხა­რის­ხია­ნი STT თა­ვის მომ­სა­ხუ­რე­ბებ­ში და­ამა­ტა Google-მა. მო­სინ­ჯვა და შე­ძე­ნა შე­იძ­ლე­ბა ღრუბ­ლო­ვა­ნი მომ­სა­ხუ­რე­ბე­ბის სა­იტ­ზე Cloud.Google.com აგ­რეთ­ვე ვებ­გვერ­დზე ჩა­შე­ნე­ბუ­ლი სა­ხით ბრა­უზე­რის­თვის – Chrome Web Speech API. ყო­ველ­თვიუ­რად 1 სა­ათი უფა­სოა, შემ­დეგ კი წუ­თობ­რი­ვი ტა­რი­ფი მოქ­მე­დებს. მომ­სა­ხუ­რე­ბე­ბის გა­სა­უმ­ჯო­ბე­სებ­ლად ხმო­ვა­ნი ჩა­ნა­წე­რე­ბის შეგ­რო­ვე­ბა­ზე თან­ხმო­ბის შემ­თხვე­ვა­ში გარ­კვეუ­ლი ფას­დაკ­ლე­ბა­ცაა გათ­ვა­ლის­წი­ნე­ბუ­ლი.

 შე­უზ­ღუ­და­ვა­დაა ხელ­მი­საწ­ვდო­მი სხვა­დას­ხვა პრო­დუქ­ტებ­ში (Google Search, Google Translate, Google Docs, Gboard, Google Assistant). უფა­სოა, მაგ­რამ გა­სათ­ვა­ლის­წი­ნე­ბე­ლია, რომ შე­იძ­ლე­ბა იწერ­დეს და აღ­რიც­ხავ­დეს ნა­კარ­ნა­ხევს მომ­სა­ხუ­რე­ბის გა­სა­უმ­ჯო­ბე­სებ­ლად.

  • Web Speech Demo გუგ­ლის ქარ­თუ­ლის ამომ­ცნო­ბის საჩ­ვე­ნე­ბე­ლი ვერ­სია
    საჩ­ვე­ნე­ბე­ლი speech web api

 2021 წელს ბუ­ნებ­რი­ვი ენის მი­მარ­თუ­ლე­ბით მო­მუ­შა­ვე ქარ­თულ­მა კომ­პა­ნი­ამ წარ­მო­ად­გი­ნა პლატ­ფორ­მა wavetech („ვე­ივ­ტე­ქი“), რომ­ლი­თაც ად­გი­ლობ­რივ სა­მომ­ხმა­რებ­ლო ბა­ზარს სთა­ვა­ზობ­და სა­კუ­თარ ხმო­ვან ძრა­ვებს, იმა­ვე წლის ბო­ლოს კი საც­დელ რე­ჟიმ­ში და­ემა­ტა მეტ­ყვე­ლე­ბის ამომ­ცნო­ბიც.

 2023 წელს კი ხმო­ვა­ნი მომ­სა­ხუ­რე­ბე­ბით მხარ­და­ჭე­რი­ლი ენე­ბის რიც­ხვი გა­აფარ­თო­ვა Microsoft-მაც და ქარ­თუ­ლი ენის ამომ­ცნო­ბი სის­ტე­მით სარ­გებ­ლო­ბა შე­იძ­ლე­ბა Azure-საი­ტი­დან, აგ­რეთ­ვე აღ­ნიშ­ნუ­ლი მომ­სა­ხუ­რე­ბა ჩა­შე­ნე­ბუ­ლია Microsoft Office კრე­ბუ­ლებ­ში და შე­საძ­ლე­ბე­ლია ქარ­თუ­ლი ტექ­სტის კარ­ნა­ხით აკ­რე­ფა Word-დო­კუ­მენ­ტის შე­სად­გე­ნად.

  • Speech Studio — მა­იკ­რო­სოფ­ტის ქარ­თუ­ლის ამომ­ცნო­ბის მო­სა­სინ­ჯი რო­გორც კარ­ნა­ხით, ასე­ვე ხმო­ვა­ნი ფა­ილის ატ­ვირ­თვით.

     microsoft ქარ­თუ­ლის ამომ­ცნო­ბი


 2024 წელს კი­დევ ერ­თმა ქარ­თულ­მა კომ­პა­ნი­ამ გა­მოი­ტა­ნა ღი­ად ენობ­რი­ვი ტექ­ნო­ლო­გიე­ბის პლატ­ფორ­მა, ხე­ლოვ­ნუ­რი ინ­ტე­ლექ­ტის მეშ­ვეო­ბით მო­მუ­შა­ვე სა­შუა­ლე­ბე­ბი ქარ­თუ­ლი­სა და სხვა მცი­რე­რიც­ხო­ვა­ნი ენე­ბის­თვის, და­სა­ხე­ლე­ბით „ენაგ­რა­მი“. აქვს რო­გორც ფა­სია­ნი მომ­სა­ხუ­რე­ბე­ბი და­წე­სე­ბუ­ლე­ბე­ბის­თვის, ასე­ვე უფა­სო გა­მო­ყე­ნე­ბის შე­საძ­ლებ­ლო­ბა რი­გი­თი მომ­ხმა­რებ­ლე­ბის­თვის ან­გა­რი­შის შექ­მნი­სას. 

   მი­სი ერთ-ერ­თი ხელ­საწ­ყო „საუ­ბარ­მწე­რი“ ნა­წე­რის სა­ხით გა­მოი­ტანს შე­ტა­ნილ ხმას, რო­მე­ლიც შე­იძ­ლე­ბა მი­ეწო­დოს პირ­და­პირ მიკ­რო­ფო­ნით, ხმო­ვა­ნი ფა­ილით ან­და Youtube-ბმუ­ლის სა­ხით. ამას­თა­ნა­ვე, შე­საძ­ლე­ბე­ლია გარ­დაქ­მნი­ლი ტექ­სტის მარ­თლწე­რის გას­წო­რე­ბაც უკე­თე­სი ხა­რის­ხის მი­სა­ღე­ბად.

  • enagram.ai — ქარ­თუ­ლი ხმის მა­ტექ­სტე­ბე­ლი STT-ხელ­საწ­ყოს მო­სა­სინ­ჯი გვერ­დი

    ენაგ­რა­მი — ხმის ტექ­სტად ქცე­ვის ხელ­საწ­ყო

     

ღია და თა­ვი­სუ­ფა­ლი ხმის ამომ­ცნო­ბის შე­მუ­შა­ვე­ბა

   ხმო­ვა­ნი ტექ­ნო­ლო­გიე­ბის გან­ვი­თა­რე­ბის­თვის მნიშ­ვნე­ლო­ვა­ნია ჩა­ნა­წერ­თა დი­დი კრე­ბუ­ლის შეგ­რო­ვე­ბა. Google, Microsoft და მსგავ­სი გი­გან­ტუ­რი კომ­პა­ნიე­ბი ამის­თვის იყე­ნებს სა­კუ­თარ მომ­სა­ხუ­რე­ბებს, მოწ­ყო­ბი­ლო­ბებს, სის­ტე­მებ­სა თუ პროგ­რა­მებს, რომ ადა­მი­ან­თა სა­უბ­რე­ბის, მი­მო­წე­რის, მო­ძიე­ბუ­ლი შე­დე­გე­ბი­სა და მსგავ­სი მო­ნა­ცე­მე­ბის აღ­რიც­ხვით დახ­ვე­წოს სა­კუ­თა­რი პრო­დუქ­ტი, რაც შე­საძ­ლოა, არ იყოს ბევ­რის­თვის მი­სა­ღე­ბი და იწ­ვევ­დეს უკ­მა­ყო­ფი­ლე­ბას პი­რა­დი ცხოვ­რე­ბის ხელ­ყო­ფის გა­მო.

  ამას გარ­და, ვი­ნაი­დან ენე­ბის­თვის და­მა­ხა­სია­თე­ბე­ლია ხოლ­მე სხვა­დას­ხვა კი­ლო, დი­ალექ­ტი, აქ­ცენ­ტი, ხო­ლო დი­დი კომ­პა­ნიე­ბის მი­ერ ფა­რუ­ლად შეგ­რო­ვე­ბულ მო­ნა­ცე­მებ­ში ჭარ­ბობს უმ­რავ­ლე­სო­ბის მეტ­ყვე­ლე­ბის თა­ვი­სე­ბუ­რე­ბა, შე­სა­ბა­მი­სად ვერ იქ­ნე­ბა გათ­ვა­ლის­წი­ნე­ბუ­ლი მცი­რე ჯგუ­ფე­ბი და მა­თი დი­დი ნა­წი­ლი ტექ­ნო­ლო­გიუ­რი მხარ­და­ჭე­რის გა­რე­შე რჩე­ბა.

   სწო­რედ ამ მი­ზე­ზე­ბის გა­მო 2017 წლის ივ­ნის­ში პი­რა­დი ცხოვ­რე­ბის ხელ­შეუ­ხებ­ლო­ბის­თვის მზრუნ­ველ­მა კომ­პა­ნია Mozilla-მ წარ­მო­ად­გი­ნა პლატ­ფორ­მა Common Voice, რომ­ლის მეშ­ვეო­ბი­თაც ნე­ბის­მი­ერ მსურ­ველს ნე­ბა­ყოფ­ლო­ბით შე­უძ­ლია სა­კუ­თა­რი ენის­თვის ან კუთ­ხუ­რი მეტ­ყვე­ლე­ბი­სა და დი­ალექ­ტის­თვის სა­ჭი­რო ტექ­სტე­ბის მი­წო­დე­ბა და მა­თი გახ­მო­ვა­ნე­ბა, რო­მელ­თაც შემ­დგომ­ში რი­გი­თი ხალ­ხი თა­ვი­სუფ­ლად გა­მოი­ყე­ნებს ხმო­ვა­ნი პროგ­რა­მე­ბის გან­სა­ვი­თა­რებ­ლად და არ იქ­ნე­ბა და­მო­კი­დე­ბუ­ლი მხო­ლოდ დი­დი კომ­პა­ნიე­ბის შე­მო­თა­ვა­ზე­ბულ შეზ­ღუ­დულ ან ფა­სი­ან მომ­სა­ხუ­რე­ბებ­ზე.

 2020 წლის ზაფ­ხულ­ში ჩა­ნა­წე­რე­ბის კრე­ბულს და­ემა­ტა ქარ­თუ­ლიც, ხო­ლო 2024 წლის ბო­ლო­დან კი გა­მოჩ­ნდა მეგ­რუ­ლი, სვა­ნუ­რი და წო­ვა­თუ­შუ­რიც. უკ­ვე შეგ­რო­ვე­ბუ­ლი ჩა­ნა­წე­რე­ბის ჩა­მოტ­ვირ­თვა შე­საძ­ლე­ბე­ლია გვერ­დი­დან Common Voice კრე­ბუ­ლი – Mozilla.

 ღია და საჯაროდ ხელმისაწვდომი მონაცემების შექმნაში წვლილის შეტანა ნებისმიერ მსურველს შეუძლია

 მი­სი მეშ­ვეო­ბით მო­ხა­ლი­სეე­ბის მი­ერ შე­მუ­შა­ვე­ბუ­ლი ხმის ამომ­ცნო­ბე­ბის ხილ­ვა კი შე­იძ­ლე­ბა Hugginface-პლატ­ფორ­მა­ზე, რო­მე­ლიც გან­კუთ­ვნი­ლია სა­გან­გე­ბოდ მან­ქა­ნუ­რი შეს­წავ­ლის მო­დე­ლე­ბის ღი­ად გან­სა­თავ­სებ­ლად, და­სა­მუ­შა­ვებ­ლად, გა­მო­საკ­ვლე­ვად. Common voice-ის კრე­ბუ­ლით შე­იძ­ლე­ბა გა­იწ­ვრთნას Facebooks-ის (ახ­ლან­დე­ლი Metaმი­ერ შე­მუ­შა­ვე­ბუ­ლი XLS-R მო­დე­ლი, რო­მე­ლიც გან­კუთ­ვნი­ლია სხვა­დას­ხვა ენე­ბი­სა თუ მა­თი ვა­რი­აციე­ბის ღრმა სწავ­ლე­ბის­თვის და ად­ვი­ლად ხერ­ხდე­ბა მცი­რე ენე­ბის­თვის, მათ შო­რის ქარ­თუ­ლის­თვი­საც, მეტ­ყვე­ლე­ბის ამომ­ცნო­ბის შექ­მნა.

  • wav2vec2-XLS-R ერთ-ერ­თი მო­ხა­ლი­სის მი­ერ გაწ­ვრთნი­ლი მო­დე­ლი

 ქვე­მოთ ვი­დეო­ში ნაჩ­ვე­ნე­ბია Google-ისა და Microsoft-ის მომ­სა­ხუ­რე­ბებ­ში მო­ცე­მუ­ლი ხმის ამომ­ცნო­ბი სა­შუა­ლე­ბე­ბის გა­მო­ყე­ნე­ბის შე­დე­გე­ბი ქარ­თუ­ლი ენის­თვის და აგ­რეთ­ვე, მო­სინ­ჯუ­ლია Mozilla-ს მი­ერ შეგ­რო­ვე­ბუ­ლი კრე­ბუ­ლით მომ­ზა­დე­ბუ­ლი XLS-R-მო­დე­ლიც.



 

 

Comments