ქართული ნაწერის ამოცნობა

ტექსტის ოპტიკური ამოცნობა (ინგლ. Optical Character Recognition, შემოკლ. OCR, იკითხება „ოუ-სი-არი“) გულისხმობს სკანერის ან ფოტოაპარატის მეშვეობით სურათზე აღბეჭდილი ასო-ნიშნების ამოცნობასა და გადაყვანას ელექტრონულ ფორმატში, რის შედეგადაც მარტივად იქნება შესაძლებელი მისი ჩასწორება და დამუშავება შესაბამისი ტექსტური რედაქტორებით, როგორებიცაა TextEdit, Notepad, Microsoft Office Word და ა.შ.

ქართული ტექსტის წამკითხველის ისტორია

ქართულისთვის ამგვარ სისტემებზე მუშაობა და მათი გამოშვება დაიწყო 90-იან წლებში, თუმცა უმეტესად დაწესებულებებისთვის იყო ხელმისაწვდომი წერილობითი მასალების გასაციფრულებლად.

1998 წელს გამოჩნდა პირველად რიგითი მომხმარებლებისთვის სახელწოდებით „ქორის თვალი“, მაგრამ კარგი შედეგის მისაღებად საჭიროებდა მოსამზადებელ სამუშაოებს, მათ შორის გამოსახულების აღბეჭდისთვის სათანადო პირობების შექმნას, უკვე აღბეჭდილის კარგად დამუშავებას, ზოგ შემთხვევაში კი ამოსაცნობი შრიფტის მოძიებასა და სწავლებას რამდენჯერმე შეტანის გზით, აგრეთვე, ტექსტის სხვადასხვა ნაწილისთვის საგანგებოდ მორგებას და ა. შ.

„ქორის თვალის“ აღწერა და მისი გამოყენების მეთოდების მიმოხილვა

2006 წლიდან მოხალისეების მიერ იქმნებოდა იმ დროს ცნობილი პროგრამის, ABBYY FineReader-ის არაოფიციალური დანამატი, რომელსაც წინასწარ სათითაოდ ნასწავლი ასონიშნებისა და მოხაზულობის საფუძველზე შეეძლო ნაწერის ამოცნობა, მაგრამ სიზუსტე მაინც არ იყო სათანადო, ამასთანავე, პრობლემა იყო ოდნავ განსხვავებული შრიფტით შესრულებული ტექსტის მიწოდების შემთხვევაშიც კი, ხოლო პროგრამის ახალი ვერსიებიდან მოყოლებული ამგვარი დანამატების მხარდაჭერა მწარმოებელმა საერთოდ შეწყვიტა.

2010 წლიდან გაეშვა ვებმომსახურება targmne.ge, რომელსაც გააჩნდა ქართულისთვის მორგებული ტექსტის ოპტიკური ამოცნობის შესაძლებლობა მცირე ზომის მასალებიდან. ბოლოს განახლდა 2021 წელს.

targmne.ge სკანირების ელექტრონული სისტემა

2012 წელს ღია წყაროს მქონე წამკითხველი ძრავის რამდენიმეწლიანი გადამუშავების შედეგად გამოჩნდა კიდევ ერთი ქართული პროგრამა SunnyPage, რომელიც წინა საშუალებებთან შედარებით ადვილად გამოსაყენებელი და გაცილებით ზუსტი იყო. საცდელი ვერსიის გადმოწერა ოფიციალური საიტიდან იყო შესაძლებელი:

SunnyPages OCRv3 და SunnyPages Online

აგრეთვე, დროდადრო ჩნდებოდა სხვადასხვა კომპანიებისა თუ ფიზიკურ პირთა ნამუშევრები, რომლებიც განკუთვნილი იყო ორგანიზაციათა მომსახურებისთვის. გარდა ამისა, სახელმწიფო უნივერსიტეტში, ტექნიკურ უნივერსიტეტში, ილიას უნივერსიტეტსა და სხვა სასწავლო-სამეცნიერო დაწესებულებებში ენის ციფრული საშუალებების კვლევებისა და დამუშავებისას შეიქმნა არაერთი საჩვენებელი პროგრამა თუ ვებმომსახურება ქართული ტექსტის ამოსაცნობად, მაგრამ ფართოდ არ გამოიყენებოდა.

ღიად ხელმისაწვდომი ქართული ტექსტის ამომცნობი სისტემები

დღესდღეობით, ყველაზე მეტად გავრცელებულ და თავისუფლად ხელმისაწვდომ სისტემას წარმოადგენს „ტესერაქტი“ (ინგლ. Tesseract), რომლის შემქმნელიცაა აპარატურის ცნობილი მწარმოებელი hp (Hewlett-Packard). აღნიშნული ძრავას კოდის წყარო კომპანიამ 2005 წელს გაასაჯაროვა, ხოლო 2006 წლიდან 2018 წლამდე მის განვითარებასა და დაფინანსებას უზრუნველყოფდა Google.

დღეს იგი ერთ-ერთი ყველაზე გამართული ღია სისტემაა, რომელსაც საკმაოდ მაღალი სიზუსტით შეუძლია ამოიცნოს მრავალი სხვადასხვა დამწერლობით შედგენილი ტექსტი.

2015 წლის ივლისში გამოსულ 3.04 ვერსიაში კი ოფიციალურად დაემატა ქართულის მხარდაჭერაც, მათ შორის ძველქართული დამწერლობისაც (ხუცური).

მისი ძრავას გადმოწერა საკუთარ პროგრამაში ინტეგრაციისთვის ან ბრძანებების ველის მეშვეობით გამოყენება შესაძლებელია GitHub-გვერდიდან:

Tesseract OCR Engine

მის უკეთ გაწვრთნილ და გაუმჯობესებულ ვერსიას Google თავის მომხმარებელს სთავაზობს საკუთარი ღრუბლოვანი მომსახურებითაც, სახელწოდებით Google Vision, რომლის შეძენაც შესაძლებელია cloud.Google.com გვერდიდან:

Google Vision API

გარდა ამისა, უფასოდაა ხელმისაწვდომი გუგლის სხვადასხვა მომსახურებასა და პროდუქტებში (Google Search, Google docs, Google Lens). მეტად მოსახერხებელად გამოსაყენებელია მობილურ აპლიკაციით Google Lens, რომელსაც პირდაპირ ტელეფონის კამერის მეშვეობით შეუძლია ფოტოდან ტექსტის ამოღება, თარგმნაც, მათემატიკური ამოცანების ამოხსნაც, სიტყვების სხვადასხვა საიტზე მოძიებაც და ასე შემდეგ.

Google Docs-ის მაგალითზე გამოყენებისთვის იხილეთ ვიდეო, ხოლო გარკვეული შეზღუდვების შესახებ დაწვრილებით იხილეთ დახმარების გვერდზე.

ქართული ხელნაწერის ამოცნობა

2018 წლიდან კი უკვე ქართული ხელნაწერის ამოცნობაც ხერხდება (Google Handwriting Recognition). მისი გამოიყენება შესაძლებელია სხვადასხვა მომსახურებაში ტექსტის შეყვანისას (Google Search, Youtube, Gmail). მოსინჯვა შეიძლება ვებგვერდიდან Google Input Tools, ხოლო მობილურზე ემატება კლავიატურის სახითაც Gboard-აპლიკაციის მეშვეობით.

აღსანიშნავია, რომ ცნობს მეტად გაკრული ხელითა და თავისებური სტილით მოხაზულ ასონიშნებსაც, გადაბმის სირთულის მიუხედავად. გამოსაყენებლად Gboard აპლიკაციაში კლავიატურების ასარჩევიდან უნდა დაემატოს „ხელით წერა“. ტექსტის შესაყვან ველში კი „ხელით წერაზე“ გადართვის შემდეგ შესაძლებელი იქნება თითით ან შესაბამისი კალმით (სტილუსით) ქართული ასოების მოხაზვა.

გასათვალისწინებელია, რომ გუგლის მომსახურებებით უფასო სარგებლობისას შეყვანილი ნებისმიერი ტექსტი იგზავნება სერვერებზე და შეიძლება აღირიცხებოდეს პროდუქტის გასაუმჯობესებლად.

სურათიდან ტექსტის ამოღება სხვადასხვა პროგრამით

ამას გარდა, არსებობს არაერთი სხვა ღია თუ კერძო პროექტი, რომლებიც დაფუძნებულია ტესერაქტის ძრავაზე და Google-ის სერვისების გამოუყენებლად იძლევა ადვილად სარგებლობის საშუალებას სხვადასხვა სისტემაზე და ვებსივრცეშიც კი.

გარდა Google Lens აპლიკაციისა, Android და iOS სისტემებზე წიგნებისა და სხვა ბეჭდური მასალის სკანერით გადასაღებად ერთ-ერთი ყველაზე მეტად მოსახერხებელი და ფართოდ გავრცელებული პროგრამაა vFlat. ხელმისაწვდომია როგორც Android Store, ისე Apple App Store გვერდებზე და მხარდაჭერილია ქართულისთვის ტექსტის ამოცნობის ფუნქცია. ამოცნობილი ტექსტის ასლის ჩასმა შესაძლებელია Word-ის ან სხვა სახის დოკუმენტებში.

პროგრამა დასახელებით gImageReader ხელმისაწვდომია Github-ზე და თავსებადია როგორც Windows სისტემასთან, ასევე Linux-ის დისტრიბუტივებთან. შესაძლებელია მისი დაყენება ან პირდაპირ გაშვება. ერთბაშად მრავალი ტექსტის დამუშავებისა და სხვადასხვა ფორმატით შეტანის ან შენახვის უნარი აქვს. აღჭურვილია დამატებითი ფუნქციებით, როგორიცაა გამოსახულების დამუშავება, სიმკვეთრის მომატება, სიკაშკაშის მორგება, ტექსტის ხელით შემოსაზღვრა და ამოცნობის შემდეგ მართლწერის გასწორებაც.

gImageReader

გარდა ამისა, მოიძებნება არაერთი ვებსაიტიც, რომელთა მეშვეობითაც სწრაფად და მარტივადაა შესაძლებელი მცირე ზომის ატვირთული სურათიდან ტექსტის ამოღება რეგისტრაციის ან დამატებითი პროგრამების ჩამოტვირთვისა და გაშვების გარეშეც:

Newocr – Free Online OCR
i2OCR – Free Georgian OCR

ქართული ენა პროგრამებსა და ვებსივრცეში

Search This Blog