ნაწერის ხმოვანი წამკითხველი, ტექსტის გამხმოვანებელი, ხმის გენერატორი ანუ მეტყველების სინთეზატორი (ინგლ. Text to Speech, შემოკლ. TTS, გამოითქმის „თი-თი-ესი“) ეწოდება პროგრამულ უზრუნველყოფას, რომელიც კომპიუტერში აკრეფილ სიტყვებს გარდაქმნის ხმოვან სიგნალებად ადამიანისთვის გასაგებ ენაზე. ხმის შექმნა ელექტრონულადაც შეიძლება მათემატიკური მოდელების მეშვეობით და გამომავალი სიგნალის მახასიათებლების სურვილსამებრ გარდაქმნის საშუალებასაც იძლევა (სქესის შესაცვლელად, ხმამაღლა კარნახის ან ჩურჩულის მისამსგავსებლად), მაგრამ ასე მეტად რობოტისებრი ხმა მიიღება და ბუნებრიობის მისაღწევად უფრო ხშირად ადამიანთა ხმების ჩანაწერებისგან შემდგარი მონაცემთა ბაზები გამოიყენება. ბოლო წლებში კი მანქანური შესწავლის (Machine Learning) საშუალებებით, აგრეთვე ნეირონული ქსელებისა (Neural Network) და ხელოვნური ინტელექტის (Artificial Intelligence, შემოკლ. AI, გამოითქმის „ეი-აი“) დახმარებით უკვე შესაძლებელი გახდა ბუნებრივთან კიდევ უფრო მიახლოებული ხმების მიღება.
ტექსტის წამკითხველი ქართულისთვის
წინა ათეული წლების განმავლობაში არაერთი მცდელობა ყოფილა ერთმანეთისგან დამოუკიდებელად, რომ შექმნილიყო ქართული text-to-speech ხმის გენერატორი და სინთეზატორი.
თავდაპირველად, ამგვარ სისტემაზე მუშაობა გააქტიურდა სახელმწიფო უნივერსიტეტში 2003-2007 წლებში „ლოგიკისა და ენის გაერთიანებულ ქართულ ჯგუფისა“ და მასთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ახალგაზრდული ჯგუფის“ მიერ, ხოლო 2008 წელს დაფუძნდა „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტი“, რომელმაც წარმოადგინა 2005-2009 წლებში დამუშავებული ორი სხვადასხვა სახითა და ხარისხით მომუშავე ქართული ენის მკითხველი პროგრამა, GeoTextReader და Geospeaker. ტექსტის საჩვენებელი ვერსია და მასზე დაფუძნებული აპლიკაციები ქვეყნდებოდა საიტებზე GLLC და GEOANBANI.
2009-2010 წლებში დამზადდა კიდევ ერთი ქართული ხმოვანი წამკითხველი დასახელებით „ბუ“. პროექტი შემუშავდა მინსკში, დამკვეთი იყო ეროვნული სამეცნიერო ბიბლიოთეკა და ასოციაცია „უსინათლოები საზღვრებს გარეშე“.
იმავე
პერიოდში ქართული ენა აგრეთვე გამოჩნდა საერთაშორისო
მრავალპლატფორმულ და ღია წყაროს მქონე სინთეზატორში
სახელწოდებით eSpeak.
2014 წელს შემოსავლების სამსახურის ორმა თანამშრომელმა სამწლიანი ძალისხმევის შედეგად წარმოადგინა ქართულისთვის დამუშავებული ახალი ძრავა Geotts, რომლის მეშვეობითაც გახმოვანდა და მცირე მხედველთათვის ხელმისაწვდომი გახდა შემოსავლების სამსახურის, სახელმწიფო სერვისებისა და სხვა სამთავრობო მომსახურების ვებგვერდები, აგრეთვე გამოიყენება ხოლმე თბილისის ავტობუსებში გაჩერებების გამოსაცხადებლად და ხელმისაწვდომია ღია პროექტში სახელწოდებით RHVoice.
2016-2018 წლებში დაარსდა ხელოვნურ ინტელექტზე ორიენტირებული კერძო კომპანიებიც, რომლებიც მუშაობდნენ ქართული ენის ხმოვანი წამკითხველისა და მსგავსი ტექნოლოგიების დახვეწაზე ადგილობრივ თუ საერთაშორისო კომერციულ ორგანიზაციებთან თანამშრომლობისთვის. ერთ-ერთი იყო Pulsar AI, მისმა გუნდმა ქართული ბუნებრივი ენის კომპიუტერული დამუშავებით შექმნა ქართულ ენაზე მოსაუბრე „ბოტები“ და ქართული ხმოვანი ასისტენტი, რომელთაც იყენებდა სხვადასხვა კერძო ბანკები და საკომუნიკაციო კომპანიები მომხმარებელთა თვითმომსახურებისთვის.
იმავე პერიოდში ხელოვნურ ინტელექტზე მომუშავე კიდევ ერთმა ქართულმა კომპანიამ SYSTEMcorp (შემდგომში WAVETECH – „ვეივტექი“) წარმოადგინა ქართული ტექსტის წამკითხველი ძრავა, რომლითაც დიდი მოცულობის ტექსტების ხმოვან ფაილად ქცევა რამდენიმე წუთში იყო შესაძლებელი. საიტზე WAVETECH.AI მომხმარებლებს, მათ შორის ფიზიკურ და იურიდიულ პირებს, შესაძლებლობა ჰქონდათ, მოესინჯათ ხმის ამომცნობი სისტემა და შეეძინათ მომსახურება ბრაუზერის გაფართოებების ან სხვადასხვა პროგრამათა დანამატების სახით (მომსახურება მიუწვდომელია 2022 წლიდან).
2019 წლიდან „მონაცემთა ანალიზის ლაბორატორიის“ გუნდის მიერ მუშავდებოდა და 2024 წელს საჯაროდ გახდა ხელმისაწვდომი საქართველოში შექმნილი მრავალენოვანი პლატფორმა „ენაგრამი“, ხელოვნური ინტელექტის ტექნოლოგიით შემუშავებული ენობრივი ხელსაწყოების ნაკრები, რომელიც მოიცავს მართლწერის შემმოწმებელს, მთარგმნელს, ხმის ტექსტად გარდამქმნელს, ტექსტის გამხმოვანებლელს და სხვ. აქვს ფასიანი მომსახურებაც დაწესებულებებისთვის და უფასოც – რიგითი მომხმარებლებისთვის გარკვეული შეზღუდვებიით. ქართული ენის TTS, ანუ „ამლაპარაკებელი“ შემოთავაზებულია კაცისა და ქალის ხმით. შესაძლებელია სისწრაფისა და ხმის ტემბრის შეცვლაც.
ქართული გამხმოვანებელი უცხოურ მომსახურებებში
2016 წლიდან დაიწყო კომპანია Google-მა თავისი ღრუბლოვანი მომსახურებების პლატფორმაზე Google Cloud (აგრეთვე Amazon-მა AWS და შემდგომ Microsoft-მაც Azure საიტზე) ნეირონული ქსელებისა და ხელოვნური ინტელექტის მეშვეობით ბუნებრივთან მეტად მიმსგავსებული ხმის AI - მოდელების შემუშავება სხვადასხვა ენებისთვის. მათი გამოყენებით ტექსტის გახმოვანება ფასიანია, თუმცა უფასოდ შესაძლებელია მოსინჯვა და ჩაშენებულია კომპანიის სხვადასხვა მომსახურებასა თუ აპლიკაციაში.
2022 წლის ივნისში კი Microsoft-მა გააფართოვა საკუთარი ღრუბლოვანი მომსახურების საერთაშორისო მხარდაჭერა და ხმოვანი წამკითხველი (Text-to-Speech), ისევე როგორც წარმოთქმულის ტექსტად მქცევი (Speech-to-Text) საშუალებები ხელმისაწვდომი გახადა 140 ენისთვის, მათ შორის ქართულისთვისაც ორი განსხვავებული ხმით — ქალისა (ეკა) და კაცის (გიორგი). ქართულის ტექსტის გახმოვანება თავდაპირველად Azure-ს საიტზე იყო შესაძლებელი სასურველი ტექსტის მოსინჯვით, შემდგომ კი Speech Studio საიტზე დაიდო უკვე გამზადებული ჩანაწერები.
2023 წელს მაიკროსოფტმა დაამატა მრავალენოვანი გამხმოვანებლებიც, რომლებიც სხვადასხვა კილოთი და აქცენტით წარმოთქვამენ ტექსტს არაერთ ენაზე, მათ შორის ქართულადაც.
ხმოვანი წამკითხველის უფასოდ გამოყენება შესაძლებელია Microsoft-ის ბრაუზერ EDGE-ის დახმარებით Windows-სისტემაზე ქართული საიტებისა თუ PDF-ის ან Word-ის დოკუმენტებიდან ტექსტის ამოსაკითხად.
ქვემოთ კი მოცემულია ქართული გამხმოვანებლები, რომელთა გამოყენება შეუზღუდავადაა შესაძლებელი:
ღია წყაროს მქონეა და მისი გამოყენება ნებისმიერი დანიშნულებით ნებადართულია შეზღუდვების გარეშე. 2011 წლიდან დაემატა ქართული. გადმოწერა შესაძლებელია ოფიციალური საიტიდან ყველა სისტემაზე, როგორც დამოუკიდებელი პროგრამის სახით, ასევე ბრძანებათა სტრიქონით გასაშვებად. იგი აგრეთვე ჩაშენებულია ღია წყაროს მქონე ეკრანის წამკითხველ ცნობილ პროგრამაში NVDA და არაერთი ენისთვის გამოიყენება Google Tranlate სისტემაშიც. ამჟამად მასზე მუშაობა შეწყვეტილია, თუმცა განახლებული ვერსია წარმოდგენილია eSpeakNG-პროექტში Github-ზე.
ვინაიდან ნებისმიერ მსურველს შეუძლია გადაამუშაოს, მოიპოვება როგორც ვებვერსიის, ასევე ბრაუზერის გაფართოების სახითაც, მათ შორის ქართულისთვის. გამომდინარე იქიდან, რომ ხმა ელექტრონულად იწარმოება, მეტად რობოტიზებულად ისმის, სამაგიეროდ მცირე ზომისაა და ადვილი ზემოქმედებით მიიღება სხვადასხვა სქესის, ტონის, გამოთქმისა თუ ჩურჩულისთვის დამახასიათებელი ეფექტები.
2005 წელს შემუშავებული, რომელსაც მოგვიანებით იყენებდა ტექნიკურ უნივერსიტეტთან არსებული „ქართული ენის, ლოგიკისა და გამომთვლელის ღია ინსტიტუტი“ მათ მიერვე შემუშავებულ სხვადასხვა პროექტში, ხმით მართვის, გრამატიკული მართლწერისა და უცხოურ ენებზე თარგმნის სისტემებში. მისი მოსინჯვა შესაძლებელია სინტაქსის ანალიზატორში, რომელიც წარმოდგენილია ვებგვერდზე
2009 წელს ეროვნული სამეცნიერო ბიბლიოთეკისა და ასოციაციის „უსინათლოები საზღვრებს გარეშე“ საერთო პროექტით ბელარუსში შემუშავებული მეტყველების სინთეზატორი, რომელიც ჩაშენებულია პროგრამებში „ბუ“ და „ინტერბუ“. ხელმისაწვდომია რამდენიმე ხმით, მათ შორის კაცისა და ქალის.
2013 წელს შემოსავლების სამსახურის თანამშრომლების ძალისხმევით შექმნილი ქართული tts, რომელიც შემდეგ გამოიყენებოდა სამთავრობო საიტებზე. იგი ღია ფორმით წარმოდგენილია პროექტში, სახელწოდებით RHVoice, Github-ზე. ქართული ენის კრებულები ხელმისაწვდომია ოფიციალურ საიტზე rhvoice.org. პირადი დანიშნულებით გამოყენება ნებადართულია, მაგრამ კომერციული მიზნებისთვის აუცილებელია ავტორებთან პირობების შეთანხმება.
RHVoice-ის ინტეგრაცია შესაძლებელია Windows და GNU/Linux სისტემებში ჩაშენებულ ხმის ამომცნობ საშუალებებთან. აგრეთვე არსებობს გაფართოების სახით პროგრამისთვის NVDA. ამასთანავე, აღნიშნული წამკითხველის გადამუშავებული 2014 წლის ვერსია, რომელსაც Geotts თან მოჰყვება, შეიძლება ჩამოიტვირთოს GBU-საიტიდან.
მობილური ტელეფონებისთვის
მოიპოვება Android-აპლიკაციის სახითაც Play Store-ში. დაყენების შემდეგ ქართული ენის არჩევა და ჩამოტვირთვა თავად აპლიკაციაშია შესაძლებელი, ხოლო გამოსაყენებლად ტელეფონის მთავარი მენიუს „მარტივი წვდომის“ (Accessibility) განყოფილებაში უნდა მოინახოს ტექსტის ხმოვანი წამკითხავი Text-to-speech ან რომელიმე თანმოყოლილი პროგრამა, ზოგიერთ მობილურზე ასეთია Talkback, შემდეგ კი უნდა მიეთითოს RHvoice-ძრავა და ამოქმედების შემდეგ ტელეფონის ეკრანზე გამოსახულ ნებისმიერ ქართულ წარწერა ახმოვანდება ქართულ ენაზე.
ქვემოთ მოცემულ ვიდეოში ნაჩვენებია eSpeak-ისა და RHVoice-ის ჩამოტვირთვის, დაყენებისა და მოსინჯვის მაგალითები Windows-ის სისტემაზე ბრაუზერში Firefox, რომელსაც ჩაშენებული აქვს ხმის ამომცნობი ძრავების გამოყენების შესაძლებლობა (Narrator) ტექსტის კარნახით წასაკითხად. იმუშავებს ამგვარი ძრავების მხარდაჭერის მქონე ნებისმიერ სხვა პროგრამაშიც.
Comments
Post a Comment