Skip to main content

ქართული ტექსტის გახმოვანება

georgian text to speech

ტექსტის ხმოვანი წამკითხველი, ნაწერის გამხმოვანებელი ანუ მეტყველების სინთეზატორი (ინგლ. Text to Speech, შემოკლ. TTS) ეწოდება პროგრამულ უზ­რუნ­ველ­ყო­ფას, რო­მე­ლიც კომ­პიუ­ტერ­ში აკ­რე­ფილ სიტ­ყვებს გარ­დაქ­მნის ხმო­ვან სიგ­ნა­ლე­ბად ადა­მია­ნის­თვის გა­სა­გებ ენა­ზე. ხმის შექ­მნა ელექ­ტრო­ნუ­ლა­დაც შე­იძ­ლე­ბა მა­თე­მა­ტი­კუ­რი მო­დე­ლე­ბის მეშ­ვეო­ბით და გა­მო­მა­ვა­ლი სიგ­ნა­ლის მა­ხა­სია­თებ­ლე­ბის სურ­ვილ­სა­მებრ გარ­დაქ­მნის სა­შუა­ლე­ბა­საც იძ­ლე­ვა (სქე­სის შე­საც­ვლე­ლად, ჩურ­ჩუ­ლის მი­სამ­სგავ­სებ­ლად), მაგრამ ასე მე­ტად რო­ბო­ტი­სებ­რი ხმა მი­იღე­ბა და ბუ­ნებ­რიო­ბის მი­საღ­წე­ვად უფ­რო ხში­რად ადა­მი­ან­თა ხმე­ბის ჩა­ნა­წე­რე­ბის­გან შემ­დგა­რი მო­ნა­ცემ­თა ბა­ზე­ბი გა­მოი­ყე­ნე­ბა. ბო­ლო წლებ­ში კი მან­ქა­ნუ­რი შეს­წავ­ლის (Machine Learning) სა­შუა­ლე­ბებ­ით, აგრეთვე ნე­ირო­ნუ­ლი ქსე­ლე­ბი­სა (Neural Network) და ხე­ლოვ­ნუ­რი ინ­ტე­ლექ­ტის (Artificial Intelligence, შე­მოკლ. AI) დახ­მა­რე­ბით უკ­ვე შე­საძ­ლე­ბე­ლი გახ­და ბუ­ნებ­რივ­თან კი­დევ უფ­რო მი­ახ­ლოე­ბუ­ლი ხმე­ბის მი­ღე­ბა. 

წი­ნა ათეუ­ლი წლე­ბის გან­მავ­ლო­ბა­ში ქარ­თუ­ლი ენის­თვის ხმის სინ­თე­ზა­ტო­რის შე­მუ­შა­ვე­ბის არა­ერ­თი მცდე­ლო­ბა ყო­ფი­ლა ერ­თმა­ნე­თის­გან და­მოუ­კი­დე­ბე­ლად.

თავ­და­პირ­ვე­ლად, ამ­გვარ სის­ტე­მა­ზე მუ­შაო­ბა გა­აქ­ტი­ურ­და სა­ხელ­მწი­ფო უნი­ვერ­სი­ტეტ­ში 2003-2007 წლებ­ში „ლო­გი­კი­სა და ენის გა­ერ­თია­ნე­ბუ­ლ ქარ­თუ­ლ ჯგუ­ფ­ისა“ და მას­თან არ­სე­ბუ­ლი „ქარ­თუ­ლი ენის, ლო­გი­კი­სა და გა­მომ­თვლე­ლის ახალ­გაზ­რდუ­ლი ჯგუ­ფის“ მი­ერ, ხო­ლო 2008 წელს და­ფუძ­ნდა „ქარ­თუ­ლი ენის, ლო­გი­კი­სა და გა­მომ­თვლე­ლის ღია ინ­სტი­ტუ­ტი“, რო­მე­ლმაც წარმოადგინა 2005-2009 წლებში დამუშავებული ორი სხვადასხვა სახითა და ხარისხით მომუშავე სინ­თე­ზა­ტორი, GeoTextReader და Geospeaker. სა­ჩვე­ნე­ბელი ვერსია და მას­ზე და­ფუძ­ნე­ბული აპ­ლი­კა­ცი­ები ქვეყნდებოდა სა­იტებ­ზე GLLC და GEOANBANI.

2009-2010 წლებ­ში დამზადდა კი­დევ ერ­თი ქარ­თუ­ლი ხმო­ვა­ნი წამ­კით­ხვე­ლი და­სა­ხე­ლე­ბით „ბუ“. პროექტი შემუშავდა მინსკში, დამკვეთი იყო ეროვ­ნუ­ლი სა­მეც­ნიე­რო ბიბ­ლიო­თე­კა და ასო­ცი­აცია „უსი­ნათ­ლოე­ბი საზ­ღვრებს გა­რე­შე“. 

იმა­ვე პე­რი­ოდ­ში ქარ­თუ­ლი ენა აგ­რეთ­ვე გა­მოჩ­ნდა სა­ერ­თა­შო­რი­სო მრა­ვალ­პლატ­ფორ­მულ და ღია წყა­როს მქო­ნე სინ­თე­ზა­ტორ­ში სა­ხელ­წო­დე­ბით eSpeak.

2014 წელს შე­მო­სავ­ლე­ბის სამ­სა­ხუ­რის ორ­მა თა­ნამ­შრო­მელ­მა სამ­წლია­ნი ძა­ლის­ხმე­ვის შე­დე­გად წარ­მო­ად­გი­ნა ქარ­თუ­ლის­თვის და­მუ­შა­ვე­ბუ­ლი ახა­ლი ძრა­ვა Geotts, რომ­ლის მეშ­ვეო­ბი­თაც გახ­მო­ვან­და და მცი­რე მხედ­ველ­თათ­ვის ხელ­მი­საწ­ვდო­მი გახ­და შე­მო­სავ­ლე­ბის სამ­სა­ხუ­რის, სა­ხელ­მწი­ფო სერ­ვი­სე­ბი­სა და სხვა სამ­თავ­რო­ბო მომ­სა­ხუ­რე­ბის ვებ­გვერ­დე­ბი, აგ­რე­თვე გამოიყენება ხოლმე თბი­ლი­სის ავ­ტო­ბუ­სებ­ში გა­ჩე­რე­ბე­ბის გა­მო­საც­ხა­დებ­ლად. 

2016-2018 წლებ­ში და­არ­სდა ხე­ლოვ­ნურ ინ­ტე­ლექ­ტზე ორი­ენ­ტი­რე­ბუ­ლი კერ­ძო კომ­პა­ნი­ებ­იც, რომ­ლე­ბიც მუ­შაო­ბდნენ ქარ­თუ­ლი ხმო­ვა­ნი ტექ­ნო­ლო­გიე­ბის დახ­ვე­წა­ზე ად­გი­ლობ­რივ თუ სა­ერ­თა­შო­რი­სო კო­მერ­ცი­ულ ორ­გა­ნი­ზა­ცი­ებ­თან თა­ნამ­შრომ­ლო­ბის­თვის. ერთ-ერ­თი იყო Pulsar AI, მის­მა გუნდ­მა ქარ­თუ­ლი ბუ­ნებ­რი­ვი ენ­ის კომ­პიუ­ტე­რუ­ლი და­მუ­შა­ვე­ბით შექმ­ნა ქარ­თულ ენა­ზე მო­საუბ­რე „ბო­ტე­ბი“ და ხმო­ვა­ნი ასის­ტენ­ტი, რო­მელ­თაც იყე­ნებ­და სხვა­და­სხვა კერ­ძო ბან­კე­ბი და სა­კო­მუ­ნი­კა­ციო კომ­პა­ნი­ები მომ­ხმა­რე­ბელ­თა თვით­მომ­სა­ხუ­რე­ბის­თვის.

იმა­ვე პე­რი­ოდ­ში ხე­ლოვ­ნუ­რ ინ­ტე­ლექ­ტზე მო­მუ­შა­ვე კი­დევ ერ­თმა ქარ­თუ­ლმა კომ­პა­ნი­ამ SYSTEMcorp (შემ­დგომ­ში WAVETECH)  წარ­მო­ად­გი­ნა ქარ­თუ­ლი ტექს­ტის წამ­კით­ხვე­ლი ძრა­ვა, რომ­ლი­თაც დი­დი მო­ცუ­ლო­ბის ტექს­ტე­ბის ხმო­ვან ფაი­ლად ქცე­ვა რამ­დე­ნი­მე წუთ­ში იყო შე­საძ­ლე­ბე­ლი.

  საიტ­ზე WAVETECH.AI მომხ­მა­რებ­ლებს, მათ შო­რის ფი­ზი­კურ და იუ­რი­დი­ულ პი­რებს, შე­საძ­ლებ­ლო­ბა აქვთ, მო­სინ­ჯონ ხმის ამომ­ცნო­ბი სის­ტე­მა და შეი­ძი­ნონ მომ­სა­ხუ­რე­ბა ბრაუ­ზე­რის გა­ფარ­თოე­ბე­ბის ან სხვა­დას­ხვა პროგ­რა­მა­თა და­ნა­მა­ტე­ბის სა­ხით.

 2016 წლი­დან კომ­პა­ნია Google-მა თა­ვი­სი ღრუბ­ლო­ვა­ნი მომ­სა­ხუ­რე­ბე­ბის პლატ­ფორ­მა­ზე Google Cloud (აგ­რეთ­ვე Amazon-მა AWS-ში და შემ­დგომ­ Microsoft-მაც სა­კუ­თარ Azure-ზე) და­იწ­ყო ნე­ირო­ნუ­ლი ქსე­ლე­ბი­სა და ხე­ლოვ­ნუ­რი ინ­ტე­ლექ­ტის მეშ­ვეო­ბით ბუ­ნებ­რივ­თან მე­ტად მიმ­სგავ­სე­ბუ­ლი ხმის მო­დე­ლე­ბის შე­მუ­შა­ვე­ბა სხვადასხვა ენებისთვის. მა­თი გა­მო­ყე­ნე­ბა ფა­სი­ანია, თუმ­ცა უფასოდ შე­საძ­ლე­ბე­ლია მო­სინ­ჯვა და ჩა­შე­ნე­ბუ­ლია კომ­პა­ნი­ის სხვა­დას­ხვა მომ­სა­ხუ­რე­ბა­სა თუ აპ­ლი­კა­ცი­აში.

2022 წლის ივ­ნის­ში კი Microsoft-მა გა­აფარ­თო­ვა სა­კუ­თა­რი ღრუბ­ლო­ვა­ნი მომ­სა­ხუ­რე­ბის სა­ერ­თა­შო­რი­სო მხარ­და­ჭე­რა და ხმო­ვა­ნი წამ­კით­ხვე­ლი (Text-to-Speech), ისევე როგორც წარ­მოთ­ქმუ­ლის ტექ­სტად მქცევი (Speech-to-Text) სა­შუა­ლე­ბე­ბი ხელ­მი­საწ­ვდო­მი გა­ხა­და 140 ენის­თვის, მათ შო­რის ქარ­თუ­ლის­თვი­საც ორი გან­სხვა­ვე­ბუ­ლი ხმით — ქა­ლი­სა (ეკა) და კა­ცის (გი­ორ­გი). სასურველი ნა­წე­რის გახ­მო­ვა­ნე­ბის მო­სინ­ჯვა თავდაპირველად Azure-ს სა­იტ­ზე­ იყო შე­საძ­ლე­ბე­ლი, შემდგომ კი Speech Studio საიტზე დაიდო მზა ჩანაწერები.

 


 ხმო­ვა­ნი წამ­კით­ხვე­ლის უფასოდ გა­მო­ყე­ნე­ბა შე­საძ­ლე­ბე­ლია Microsoft-ის ბრა­უზერ EDGE-ის დახ­მა­რე­ბით Windows-სის­ტე­მა­ზე ქარ­თუ­ლი სა­იტე­ბი­სა თუ PDF-ის ან Word-ის დო­კუ­მენ­ტე­ბი­დან ტექ­სტის ამო­სა­კით­ხად.




ქვე­მოთ კი მო­ცე­მუ­ლია ქარ­თუ­ლის­თვის ღი­ად ხელ­მი­საწ­ვდო­მი სის­ტე­მე­ბი:

ღია წყა­როს მქო­ნეა და მი­სი გა­მო­ყე­ნე­ბა ნე­ბის­მიე­რი და­ნიშ­ნუ­ლე­ბით ნე­ბა­დარ­თუ­ლია შეზ­ღუდ­ვე­ბის გა­რე­შე. გად­მო­წე­რა შე­საძ­ლე­ბე­ლია ოფი­ცია­ლუ­რი სა­იტი­დან ყვე­ლა სის­ტე­მა­ზე, რო­გორც და­მოუ­კი­დე­ბე­ლი პროგ­რა­მის სა­ხით, ასე­ვე ბრძა­ნე­ბა­თა სტრი­ქო­ნით გა­საშ­ვე­ბად. იგი აგ­რეთ­ვე ჩა­შე­ნე­ბუ­ლია ღია წყა­როს მქო­ნე ეკ­რა­ნის წამ­კით­ხველ ცნო­ბილ პროგ­რა­მა­ში NVDA და არა­ერ­თი ენის­თვის გა­მოი­ყე­ნე­ბა Google Tranlate სის­ტე­მა­შიც. ამ­ჟა­მად მას­ზე მუ­შაო­ბა შეწ­ყვე­ტი­ლია, თუმ­ცა გა­ნახ­ლე­ბუ­ლი ვერ­სია წარ­მოდ­გე­ნი­ლია eSpeak-NG-პრო­ექ­ტში Github-ზე.

ვი­ნაი­დან ნე­ბის­მი­ერ მსურ­ველს შე­უძ­ლია გა­დაა­მუ­შა­ოს, მო­იპო­ვე­ბა რო­გორც ვებ­ვერ­სი­ის, ასე­ვე ბრაუ­ზე­რის გა­ფარ­თო­ების სა­ხი­თაც, მათ შო­რის ქარ­თუ­ლის­თვი­ს. გა­მომ­დი­ნა­რე იქი­დან, რომ ხმა ელექ­ტრო­ნუ­ლად იწარ­მო­ება, მე­ტად რო­ბო­ტი­ზე­ბუ­ლად ის­მის, სა­მა­გიე­როდ მცირე ზომისაა და ად­ვი­ლი ზე­მოქ­მე­დე­ბით მი­იღე­ბა სხვა­დას­ხვა სქე­სის, ტო­ნის, გა­მოთ­ქმი­სა თუ ჩურ­ჩუ­ლი­სთვის და­მა­ხა­სია­თე­ბე­ლი ეფექ­ტე­ბი.

ტექ­ნი­კურ უნი­ვერ­სი­ტეტ­თან არ­სე­ბუ­ლი „ქარ­თუ­ლი ენის, ლო­გი­კი­სა და გა­მომ­თვლე­ლის ღია ინ­სტი­ტუტ­ში შექ­მნი­ლი, რო­მე­ლიც გა­მოი­ყე­ნე­ბა მათ მი­ერ­ვე შე­მუ­შა­ვე­ბულ არა­ერთ პრო­ექ­ტში, ხმით მარ­თვის, გრა­მა­ტი­კუ­ლი მარ­თლწე­რი­სა და სხვა­დას­ხვა ენებ­ზე თარ­გმნის სის­ტე­მებ­ში. მი­სი მო­სინ­ჯვა შე­საძ­ლე­ბე­ლია სინ­ტაქ­სის ანა­ლი­ზა­ტორ­ში, რო­მე­ლიც წარ­მოდ­გე­ნი­ლია ვებ­გვერ­დზე

ეროვ­ნუ­ლი სა­მეც­ნიე­რო ბიბ­ლიო­თე­კი­სა და ასო­ცი­აცი­ის „უსი­ნათ­ლოე­ბი საზ­ღვრებს გა­რე­შე“ სა­ერ­თო პრო­ექ­ტით შექ­მნილ პროგ­რა­მებ­ში „ბუ“ და „ინ­ტერ­ბუ“ ჩა­შე­ნე­ბუ­ლი მეტ­ყვე­ლე­ბის სინ­თე­ზა­ტო­რი. ხელ­მი­საწ­ვდო­მია რამ­დე­ნი­მე ხმით, მათ შო­რის კა­ცი­სა და ქა­ლის.

პროგ­რა­მე­ბის ჩა­მოტ­ვირ­თვა შე­საძ­ლე­ბე­ლია ასო­ციაცი­ის ვებ­გვერ­დი­დან­ვე.

შე­მო­სავ­ლე­ბის სამ­სა­ხუ­რის თა­ნამ­შრომ­ლე­ბის შე­მუ­შა­ვე­ბუ­ლი, რო­მე­ლიც გა­მოი­ყე­ნე­ბა სამ­თავ­რო­ბო სა­იტებ­ზე. იგი ღია ფორ­მით წარ­მოდ­გე­ნი­ლია პრო­ექ­ტში, სა­ხელ­წო­დე­ბით RHVoice, Github-ზე. ქართული ენის კრებულები ხელმისაწვდომია ოფიციალურ საიტზე rhvoice.org. პი­რა­დი და­ნიშ­ნუ­ლე­ბით გა­მო­ყე­ნე­ბა ნე­ბა­დარ­თუ­ლია, მაგ­რამ კო­მერ­ციუ­ლი მიზ­ნე­ბის­თვის აუ­ცი­ლე­ბე­ლია ავ­ტო­რებ­თან პი­რო­ბე­ბის შე­თან­ხმე­ბა.

RHVoice-ის ინ­ტეგ­რა­ცია შე­საძ­ლე­ბე­ლია Windows და GNU/Linux სის­ტე­მებ­ში ჩა­შე­ნე­ბულ ხმის ამომ­ცნობ სა­შუა­ლე­ბებ­თან. აგ­რეთ­ვე არ­სე­ბობს გა­ფარ­თოე­ბის სა­ხით პროგ­რა­მის­თვის NVDA და აღ­ნიშ­ნუ­ლი წამ­კით­ხვე­ლის გა­და­მუ­შა­ვე­ბუ­ლი 2014 წლის ვერ­სია, რო­მელ­საც Geotts თან­დარ­თუ­ლი აქვს, შე­იძ­ლე­ბა ჩა­მო­იტ­ვირ­თოს GBU-საი­ტი­დან. 

მოი­პო­ვე­ბა Android-აპ­ლი­კა­ცი­ის სა­ხი­თაც Play Store-ში და მი­სი და­ყე­ნე­ბით ქარ­თუ­ლი ენის ასარ­ჩე­ვი და­ემა­ტე­ბა ტე­ლე­ფო­ნის მე­ნი­უს „მარ­ტი­ვი წვდო­მის“ (Accessibility) გან­ყო­ფი­ლე­ბა­ში. შე­დე­გად, ეკ­რან­ზე მო­ცე­მუ­ლი ქარ­თუ­ლი ტექს­ტის ამო­კით­ხვა შე­საძ­ლე­ბე­ლი გახ­დე­ბა სხვა­და­სხვა აპ­ლი­კა­ცი­ით, რო­გო­რი­ცაა, მა­გა­ლი­თად Talkback, რო­მე­ლიც ჩა­შე­ნე­ბუ­ლად მოჰ­ყვე­ბა Android-ს.


ქვე­მოთ მო­ცე­მულ ვი­დეო­ში ნაჩ­ვე­ნე­ბია eSpeak-ისა და GeottsRHVoice-ის ჩა­მოტ­ვირ­თ­ვის, და­ყე­ნე­ბი­სა და მო­სინ­ჯ­ვის მა­გა­ლი­თე­ბი Windows-ის სის­ტე­მა­ზე Firefox-ის ბრა­უზე­რით, რო­მელ­საც ჩა­შე­ნე­ბუ­ლი აქვს ხმის ამომ­ცნო­ბი ძრა­ვე­ბის გა­მო­ყე­ნე­ბის შე­საძ­ლებ­ლო­ბა. იმუ­შა­ვებს ამ­გვა­რი ძრა­ვე­ბის მხარ­და­ჭე­რის მქო­ნე ნე­ბის­მი­ერ სხვა პროგ­რა­მა­შიც.

 

Comments

Popular posts from this blog

ქართული ნაწერის ამოცნობა

     ტექსტის ოპტიკური ამოცნობა ( ინგლ . Optical Character Recognition , შემოკლ . OCR ) გულისხმობს სკანერის ან ფოტოაპარატის მეშვეობით სურათზე აღბეჭდილი ასო-ნიშნების ამოცნობასა და გადაყვანას ელექტრონულ ფორმატში, რის შედეგადაც მარტივად იქნება შესაძლებელი მისი ჩასწორება და დამუშავება შესაბამისი ტექ­სტუ­რი რე­დაქ­ტო­რე­ბით, რო­გო­რებიცაა TextEdit, Notepad, Microsoft Office Word და ა.შ.    ქართულისთვის ამგვარ სისტემებზე მუშაობა და მათი გამოშვება დაიწყო 90 -იან წლებში, თუმცა უმეტესად დაწესებულებებისთვის იყო ხელმისაწვდომი წერილობითი მასალების გასაციფრულებლად.    1998 წელს გამოჩნდა პირველად რიგითი მომხმარებლებისთვის სახელწოდებით „ქორის თვალი“ , მაგრამ კარგი შედეგის მისაღებად საჭიროებდა მოსამზადებელ სამუშაოებს, მათ შორის გამოსახულების აღბეჭდისთვის სათანადო პირობების შექმნას, უკვე აღბეჭდილის კარგად დამუშავებას, ზოგ შემთხვევაში კი ამოსაცნობი შრიფტის მოძიებასა და სწავლებას რამდენჯერმე შეტანის გზით, აგრეთვე, ტექსტის სხვადასხვა ნაწილისთვის საგანგებოდ მორგებას და ა. შ. „ქორის თვალის“ აღწერა და მის

ქართული მეტყველების ამოცნობა

 ხმის ამომცნობი ანუ წარმოთქმულის ტექსტად ქცევის ( ინგლ . Speech to Text , შემოკლ. STT ) საშუალებები ეწოდება პროგრამულ უზრუნველყოფას, რომელსაც ადამიანის გაბმული მეტყველებიდან ან ხმოვანი ჩანაწერიდან შეუძლია ასოებისა თუ სიტყვების ამოცნობა და საჭიროების შემთხვევაში წერილობით გამოსახვაც. ამის მისაღწევად საჭიროა დიდძალი ტექსტი გახმოვანებულ ჩანაწერებთან ერთად, რომ მანქანური შესწავლის ალგორითმებით კომპიუტერმა დაადგინოს წარმოთქმულ ბგერებსა და ნაწერს შორის ურთიერთკავშირები და მეტყველების მოსმენისას შეძლოს სიტყვების სწორად ამოცნობა. ვინაიდან ეს ყველაფერი დიდ რესურსებს საჭიროებს, მცირერიცხოვან ხალხთა ენებისთვის ნაკლებადაა ხელმისაწვდომი, მაგრამ ციფრული ტექნოლოგიებისა თუ ხელოვნური ინტელექტის განვითარებასთან ერთად იმატებს ამგვარი ენების საჭირო საშუალებებით უზრუნველყოფის შესაძლებლობებიც. 2017 წელს ქართულისთვის მეტ-ნაკლებად ხარისხიანი STT თავის მომსახურებებში დაამატა Google -მა . მოსინჯვა და შეძენა შეიძლება ღრუბლოვანი მომსახურებების საიტზე Cloud.Google.com აგრეთვე ვებგვერდზე ჩაშენებული სახი