ტექსტის ხმოვანი წამკითხველი, ნაწერის გამხმოვანებელი ანუ მეტყველების სინთეზატორი (ინგლ. Text to Speech, შემოკლ. TTS) ეწოდება პროგრამულ უზრუნველყოფას, რომელიც კომპიუტერში აკრეფილ სიტყვებს გარდაქმნის ხმოვან სიგნალებად ადამიანისთვის გასაგებ ენაზე. ხმის შექმნა ელექტრონულადაც შეიძლება მათემატიკური მოდელების მეშვეობით და გამომავალი სიგნალის მახასიათებლების სურვილსამებრ გარდაქმნის საშუალებასაც იძლევა (სქესის შესაცვლელად, ჩურჩულის მისამსგავსებლად), მაგრამ ასე მეტად რობოტისებრი ხმა მიიღება და ბუნებრიობის მისაღწევად უფრო ხშირად ადამიანთა ხმების ჩანაწერებისგან შემდგარი მონაცემთა ბაზები გამოიყენება. ბოლო წლებში კი მანქანური შესწავლის (Machine Learning) საშუალებებით, აგრეთვე ნეირონული ქსელებისა (Neural Network) და ხელოვნური ინტელექტის (Artificial Intelligence, შემოკლ. AI) დახმარებით უკვე შესაძლებელი გახდა ბუნებრივთან კიდევ უფრო მიახლოებული ხმების მიღება.
წინა ათეული წლების განმავლობაში ქართული ენისთვის ხმის სინთეზატორის შემუშავების არაერთი მცდელობა ყოფილა ერთმანეთისგან დამოუკიდებელად.
თავდაპირველად, ამგვარ სისტემაზე მუშაობა გააქტიურდა სახელმწიფო უნივერსიტეტში 2003-2007 წლებში „ლოგიკისა და ენის გაერთიანებულ ქართულ ჯგუფისა“ და მასთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ახალგაზრდული ჯგუფის“ მიერ, ხოლო 2008 წელს დაფუძნდა „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტი“, რომელმაც წარმოადგინა 2005-2009 წლებში დამუშავებული ორი სხვადასხვა სახითა და ხარისხით მომუშავე სინთეზატორი, GeoTextReader და Geospeaker. საჩვენებელი ვერსია და მასზე დაფუძნებული აპლიკაციები ქვეყნდებოდა საიტებზე GLLC და GEOANBANI.
2009-2010 წლებში დამზადდა კიდევ ერთი ქართული ხმოვანი წამკითხველი დასახელებით „ბუ“. პროექტი შემუშავდა მინსკში, დამკვეთი იყო ეროვნული სამეცნიერო ბიბლიოთეკა და ასოციაცია „უსინათლოები საზღვრებს გარეშე“.
იმავე
პერიოდში ქართული ენა აგრეთვე გამოჩნდა საერთაშორისო
მრავალპლატფორმულ და ღია წყაროს მქონე სინთეზატორში
სახელწოდებით eSpeak.
2014 წელს შემოსავლების სამსახურის ორმა თანამშრომელმა სამწლიანი ძალისხმევის შედეგად წარმოადგინა ქართულისთვის დამუშავებული ახალი ძრავა Geotts, რომლის მეშვეობითაც გახმოვანდა და მცირე მხედველთათვის ხელმისაწვდომი გახდა შემოსავლების სამსახურის, სახელმწიფო სერვისებისა და სხვა სამთავრობო მომსახურების ვებგვერდები, აგრეთვე გამოიყენება ხოლმე თბილისის ავტობუსებში გაჩერებების გამოსაცხადებლად.
2016-2018 წლებში დაარსდა ხელოვნურ ინტელექტზე ორიენტირებული კერძო კომპანიებიც, რომლებიც მუშაობდნენ ქართული ხმოვანი ტექნოლოგიების დახვეწაზე ადგილობრივ თუ საერთაშორისო კომერციულ ორგანიზაციებთან თანამშრომლობისთვის. ერთ-ერთი იყო Pulsar AI, მისმა გუნდმა ქართული ბუნებრივი ენის კომპიუტერული დამუშავებით შექმნა ქართულ ენაზე მოსაუბრე „ბოტები“ და ხმოვანი ასისტენტი, რომელთაც იყენებდა სხვადასხვა კერძო ბანკები და საკომუნიკაციო კომპანიები მომხმარებელთა თვითმომსახურებისთვის.
იმავე პერიოდში ხელოვნურ ინტელექტზე მომუშავე კიდევ ერთმა ქართულმა კომპანიამ SYSTEMcorp (შემდგომში WAVETECH) წარმოადგინა ქართული ტექსტის წამკითხველი ძრავა, რომლითაც დიდი მოცულობის ტექსტების ხმოვან ფაილად ქცევა რამდენიმე წუთში იყო შესაძლებელი.
საიტზე WAVETECH.AI მომხმარებლებს, მათ შორის ფიზიკურ და იურიდიულ პირებს, შესაძლებლობა აქვთ, მოსინჯონ ხმის ამომცნობი სისტემა და შეიძინონ მომსახურება ბრაუზერის გაფართოებების ან სხვადასხვა პროგრამათა დანამატების სახით.
2016 წლიდან კომპანია Google-მა თავისი ღრუბლოვანი მომსახურებების პლატფორმაზე Google Cloud (აგრეთვე Amazon-მა AWS-ში და შემდგომ Microsoft-მაც საკუთარ Azure-ზე) დაიწყო ნეირონული ქსელებისა და ხელოვნური ინტელექტის მეშვეობით ბუნებრივთან მეტად მიმსგავსებული ხმის მოდელების შემუშავება სხვადასხვა ენებისთვის. მათი გამოყენება ფასიანია, თუმცა უფასოდ შესაძლებელია მოსინჯვა და ჩაშენებულია კომპანიის სხვადასხვა მომსახურებასა თუ აპლიკაციაში.
2022 წლის ივნისში კი Microsoft-მა გააფართოვა საკუთარი ღრუბლოვანი მომსახურების საერთაშორისო მხარდაჭერა და ხმოვანი წამკითხველი (Text-to-Speech), ისევე როგორც წარმოთქმულის ტექსტად მქცევი (Speech-to-Text) საშუალებები ხელმისაწვდომი გახადა 140 ენისთვის, მათ შორის ქართულისთვისაც ორი განსხვავებული ხმით — ქალისა (ეკა) და კაცის (გიორგი). სასურველი ნაწერის გახმოვანების მოსინჯვა თავდაპირველად Azure-ს საიტზე იყო შესაძლებელი, შემდგომ კი Speech Studio საიტზე დაიდო მზა ჩანაწერები.
ხმოვანი წამკითხველის უფასოდ გამოყენება შესაძლებელია Microsoft-ის ბრაუზერ EDGE-ის დახმარებით Windows-სისტემაზე ქართული საიტებისა თუ PDF-ის ან Word-ის დოკუმენტებიდან ტექსტის ამოსაკითხად.
ქვემოთ კი მოცემულია ქართულისთვის ღიად ხელმისაწვდომი სისტემები:
ღია წყაროს მქონეა და მისი გამოყენება ნებისმიერი დანიშნულებით ნებადართულია შეზღუდვების გარეშე. გადმოწერა შესაძლებელია ოფიციალური საიტიდან ყველა სისტემაზე, როგორც დამოუკიდებელი პროგრამის სახით, ასევე ბრძანებათა სტრიქონით გასაშვებად. იგი აგრეთვე ჩაშენებულია ღია წყაროს მქონე ეკრანის წამკითხველ ცნობილ პროგრამაში NVDA და არაერთი ენისთვის გამოიყენება Google Tranlate სისტემაშიც. ამჟამად მასზე მუშაობა შეწყვეტილია, თუმცა განახლებული ვერსია წარმოდგენილია eSpeak-NG-პროექტში Github-ზე.
ვინაიდან ნებისმიერ მსურველს შეუძლია გადაამუშაოს, მოიპოვება როგორც ვებვერსიის, ასევე ბრაუზერის გაფართოების სახითაც, მათ შორის ქართულისთვის. გამომდინარე იქიდან, რომ ხმა ელექტრონულად იწარმოება, მეტად რობოტიზებულად ისმის, სამაგიეროდ მცირე ზომისაა და ადვილი ზემოქმედებით მიიღება სხვადასხვა სქესის, ტონის, გამოთქმისა თუ ჩურჩულისთვის დამახასიათებელი ეფექტები.
ტექნიკურ უნივერსიტეტთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტში“ შექმნილი, რომელიც გამოიყენება მათ მიერვე შემუშავებულ არაერთ პროექტში, ხმით მართვის, გრამატიკული მართლწერისა და სხვადასხვა ენებზე თარგმნის სისტემებში. მისი მოსინჯვა შესაძლებელია სინტაქსის ანალიზატორში, რომელიც წარმოდგენილია ვებგვერდზე
ეროვნული სამეცნიერო ბიბლიოთეკისა და ასოციაციის „უსინათლოები საზღვრებს გარეშე“ საერთო პროექტით შექმნილ პროგრამებში „ბუ“ და „ინტერბუ“ ჩაშენებული მეტყველების სინთეზატორი. ხელმისაწვდომია რამდენიმე ხმით, მათ შორის კაცისა და ქალის.
შემოსავლების სამსახურის თანამშრომლების შემუშავებული, რომელიც გამოიყენება სამთავრობო საიტებზე. იგი ღია ფორმით წარმოდგენილია პროექტში, სახელწოდებით RHVoice, Github-ზე. ქართული ენის კრებულები ხელმისაწვდომია ოფიციალურ საიტზე rhvoice.org. პირადი დანიშნულებით გამოყენება ნებადართულია, მაგრამ კომერციული მიზნებისთვის აუცილებელია ავტორებთან პირობების შეთანხმება.
RHVoice-ის ინტეგრაცია შესაძლებელია Windows და GNU/Linux სისტემებში ჩაშენებულ ხმის ამომცნობ საშუალებებთან. აგრეთვე არსებობს გაფართოების სახით პროგრამისთვის NVDA და აღნიშნული წამკითხველის გადამუშავებული 2014 წლის ვერსია, რომელსაც Geotts თანდართული აქვს, შეიძლება ჩამოიტვირთოს GBU-საიტიდან.
მოიპოვება Android-აპლიკაციის სახითაც Play Store-ში და მისი დაყენებით ქართული ენის ასარჩევი დაემატება ტელეფონის მენიუს „მარტივი წვდომის“ (Accessibility) განყოფილებაში. შედეგად, ეკრანზე მოცემული ქართული ტექსტის ამოკითხვა შესაძლებელი გახდება სხვადასხვა აპლიკაციით, როგორიცაა, მაგალითად Talkback, რომელიც ჩაშენებულად მოჰყვება Android-ს.
ქვემოთ მოცემულ ვიდეოში ნაჩვენებია eSpeak-ისა და Geotts/RHVoice-ის ჩამოტვირთვის, დაყენებისა და მოსინჯვის მაგალითები Windows-ის სისტემაზე Firefox-ის ბრაუზერით, რომელსაც ჩაშენებული აქვს ხმის ამომცნობი ძრავების გამოყენების შესაძლებლობა. იმუშავებს ამგვარი ძრავების მხარდაჭერის მქონე ნებისმიერ სხვა პროგრამაშიც.
Comments