Ievads OCR jeb teksta atpazīšanas smalkumi

Lai gan var uzskatīt, ka digitalizēt iespējams gandrīz jebko uz šīs pasaules (ja vien tas ir fizisks objekts, ko iespējams ievietot skenerī vai fiksēt ar digitālo fotokameru), tomēr nav šaubu – visvairāk līdz šim digitalizēti tieši tradicionālie teksta un attēlu dokumenti (iedomāsimies visus pasaulē digitalizētos grāmatu un fotogrāfiju miljonus!). Digitalizācijas procesa rezultātā tiek iegūts digitāla attēla fails – neatkarīgi no tā, vai tiek skenēta ilustrācija vai teksta dokuments. Jaunākās paaudzes  datora un interneta lietotājs ir diezgan prasīgs – viņš vēlas saņemt digitalizācijas galaproduktu, kas būtu kvalitatīvs un ar augstu izmantojamības pakāpi. Atzinīgi tiek novērtēti digitalizētie attēli ar augstu izšķirtspēju, savukārt jau gandrīz par pašsaprotamu tiek uzskatīts tas, ka ikvienu elektroniski lasāmu tekstu ar datora peles kursoru iespējams iezīmēt un pēcāk pārkopēt ar opcijas “Copy–Paste” palīdzību. Tāpēc teksts, kurš ir “tikai” lasāms, nereti tiek uzskatīts par materiālu ar mazāku pievienoto vērtību.  Šādu teksta dokumentu, kas ir kļuvis par digitālu attēlu, nav iespējams apstrādāt ar teksta apstrādes līdzekļiem – tekstu nav iespējams iezīmēt un iekopēt kādā teksta redaktorā, kur varētu veikt tā rediģēšanu.

Risinājumu šādā gadījumā spēj piedāvāt OCR programmatūra. Ar šo triju burtu abreviatūru angļu valodā apzīmē Optical Character Recognition (latviešu valodā šo procesu varētu tulkot kā optisko rakstzīmju atpazīšanu), un šīs programmatūras mērķis ir, atpazīstot ieskenētajā tekstā iekļautās rakstzīmes, digitāli atdalīt tekstu no attēlu faila, un konvertēt to tā, lai tas kļūtu rediģējams, kā arī tiktu nodrošināta iespēja veikt teksta satura meklējumus.

Lai arī šobrīd vispopulārākās “parastajam” lietotājam pieejamās OCR datorprogrammas ir pazīstamas relatīvi neilgu laiku, paša rakstzīmju atpazīšanas un konvertēšanas principa aizmetņi radušies jau 20. gadsimta sākumā. Sākotnējas ar to saistītās aktivitātes izpaudās divos virzienos – telegrāfijas iespēju paplašināšanā un lasīšanas ierīču izstrādē neredzīgo cilvēku vajadzībām. 1914. gadā Emanuels Goldbers izstrādāja iekārtu, kas spēja lasīt rakstu zīmes un konvertēt tās standarta telegrāfa kodā. Ap to pašu laiku Edmunds Furnjē d’Albe izgudroja optofonu – rokā turamu skeneri, kas, pārbīdīts pāri lapai ar iespiestu tekstu, radīja dažādus, konkrētām zīmēm atbilstošus skaņu signālus.  Vēlākajos gados OCR izmantošanas iespēju pētīšana turpinājās, un šīs tehnoloģijas jomā tika radīti vairāki patenti dažādās pasaules valstīs. Gluži saprotams, ka līdz ar datortehnoloģiju progresu OCR jomā kļuva iespējams veikt arvien būtiskākus uzlabojumus un jaunievedumus. Tika radītas gan ierīces, kas iespiestu tekstu pārveidoja mašīnlasāmā formātā, gan pirmās tehnoloģijas, kas teksta zīmes spēja arī atskaņot, tekstu pārvēršot runā.

Šobrīd OCR tehnoloģija skenētu teksta dokumentu rakstzīmju atpazīšanai ir kļuvusi daudz pieejamāka un tiek izmantota arvien plašāk. OCR programmas piedāvā dažādi ražotāji, nereti tās jau ir iekļautas skenera programmatūrā. Kad programma attēla failā ir atpazinusi tur fiksētās rakstzīmes, tās tiek pārveidotas ASCII kodā (American Standart Code for Information Inerchange – Amerikas Informācijas apmaiņas standarta kods), līdz teksta attēls tiek ierakstīts kā teksta fails, un teksta apstrādes programma var to nolasīt. Būtiskākais parametrs, pēc kura vērtē OCR programmas efektivitāti, ir atpazīto rakstzīmju atpazīšanas precizitāte. Kvalitatīva teksta materiāla (drukāta teksta dokumenti ar latīņu rakstzīmēm) gadījumos precizitāte var būt ļoti augsta – pat līdz 99%. Precizitāte var mazināties, ja tekstā iekļautas retāk izmantotas rakstzīmes (tiesa, dažām programmām var “iemācīt” papildus rakstzīmes, ko tās vēlāk spēs atpazīt), kā arī tad, ja digitalizējamajam materiālam ir zema fiziskā kvalitāte – kļūdu iespējamību palielina dažādi plankumi, smērējumi, papīra burzījumi, izbalējis un slikti salasāms teksts u.tml. Piemēram, OCR programmu nereti spēj “samulsināt” arī teksts kursīvā jeb slīprakstā.

Kādā pētījumā, kurā tika testētas dažādas komerciālajā apritē esošās OCR programmas, tika noskaidrots, ka, apstrādājot 19. gadsimta un 20. gadsimta sākumā iespiestos laikrakstus, teksta atpazīšanas precizitāte variēja no 71% līdz 98% procentiem. Labākās OCR programmas spēj atpazīt arī rakstzīmes rokrakstā, taču, protams, arī šādā gadījumā precizitāte, salīdzinot ar drukātu, tekstu ir zemāka. Tāpat ir pieejamas arī programmas, kas spēj atpazīt teksta elementus vecajā drukā – tā saucamajā gotiskajā rakstā.

Kā redzams, neviens no OCR programmatūras ražotājiem pat izcila izejmateriāla gadījumā nepiedāvā 100% teksta atpazīšanu, tāpēc, lai būtu garantija, ka rezultāts ir izcils, pēc teksta konvertēšanas vienmēr nepieciešams veikt pārbaudi arī ar cilvēka aci un nepieciešamības gadījuma koriģēt neprecīzi atpazītās rakstzīmes.

Neiedziļinoties specifiskos matemātiskos algoritmos, teksta atpazīšanas pamatprincipu var raksturot diezgan vienkārši. Vispirms OCR programma izanalizē dokumenta struktūru un sadala lappusi elementos – tekstu blokos, tabulās, zīmējumos u.c. Teksta līnijas tiek sadalītas vārdos, bet pēc tam – rakstzīmēs. Programma grafiski atpazīst rakstzīmes (burtus, ciparus, interpunkcijas zīmes) un salīdzina ar savā atmiņā esošajiem paraugiem, analizējot līnijas un līknes, kas raksturīgas noteiktiem teksta elementiem. Jo labāka, kvalitātīvāka programma – jo vairāk rakstzīmju tā atpazīst. Lielā daļā pasaulē lietoto valodu tiek izmantotas latīņu alfabēta zīmes, tomēr atsevišķās valodās šiem latīņu alfabēta burtiem ir pievienotas dažādas diakritiskās (garumzīmes, mīkstinājuma) zīmes, tādējādi veidojot jau citu (kaut ļoti līdzīgu) rakstzīmi. Taču ir arī valodas, kuras izmanto pavisam citu rakstzīmju alfabētus, piemēram, krievu un grieķu valoda. Jā, un neaizmirsīsim arī japāņu, ķīniešu, korejiešu rakstību… Labākās šībrīža OCR programmas atpazīst jau gandrīz 200 valodu, līdz ar to atmiņā glabājot informāciju par visām šajās valodās izmantotajām rakstzīmēm. Protams, ir ļoti svarīgi, lai programma spētu atpazīt arī pēc iespējas vairāk teksta fontu veidu.

Nu jau kādu laiku arī mēs, LU Bibliotēkas digitalizācijas grupa, atsevišķos gadījumos izmantojam OCR programmatūras sniegtās iespējas. Šobrīd, lietojot programmu Readiris Pro 11, teksta atpazīšanas process tiek veikts tām digitalizētajām disertācijām, kuras ikvienam pieejamas LU e-resursu repozitārijā. Tie ir PDF formāta faili, kuros pēc teksta atpazīšanas veikšanas tiek nodrošināta tā kopēšanas un satura meklēšanas iespēja (t.i., izmantojot opciju Find, pārbaudīt kāda vārda vai termina atrašanās vietu un lietošanas biežumu attiecīgajā tekstā). Teksta pārveidošanu rediģējamā formātā (piemēram, Microsoft Word failā) digitalizācijas procesā saprotamu iemeslu dēļ gan neveicam.

Lai gan teksta atpazīšanu ir vajadzība veikt drukāta teksta materiāliem, tomēr tā ne visos gadījumos dod vienlīdz labus rezultātus. Te lielākoties vainojama skenētā materiāla fiziskā kvalitāte. Līdz pat pagājušā gadsimta 90. gadu sākumam Latvijā publicēto disertāciju teksts tika rakstīts mašīnrakstā, tādējādi tas vizuāli atšķiras no mums pierastajiem datoros izmantotajiem teksta fontiem, tāpēc arī OCR programmai ne vienmēr izdodas to pilnvērtīgi atpazīt. Turklāt mašīnraksts, atšķirībā no tipogrāfiski iespiesta vai ar printeri drukāta teksta, ir ar zemāku kontrastu, pelēcīgs, dažiem darbiem laika gaitā arī manāmi izbalējis. Problemātisks teksta materiāls mēdz būt arī tajās disertācijās, kas ir veidotas kā publikāciju kopas – šajos darbos lielākoties ir iekļautas dažādu autora publikāciju kserokopijas, kas bieži vien nav sevišķi kvalitatīvas. Visi šie apstākļi ietekmē OCR programmas veiktspēju un precizitāti.

Raksta veidošanā palīdzēja šādi informācijas resursi:

  1. Pakalpojumi – OCR jeb teksta atpazīšana [tiešsaiste]. Pieejams: http://www.keelekoda.ee/lat-ocr-teksta-atpazisana
  2. Optical Character Recognition [tiešsaiste]. Pieejams: http://en.wikipedia.org/wiki/Optical_character_recognition
  3. ABBYY FineReader 11 Professional Edition [tiešsaiste]. Pieejams: http://finereader.abbyy.com/about_ocr/whatis_ocr/
  4. Best Practices for Optical Character Recognition [tiešsaiste]. Pieejams: http://www.library.illinois.edu/dcc/pdfs/best_practicespdfs/05_best_practices_for_ocr_opt.pdf

P.S. Turpmāk šeit centīsimies aplūkot arī citus ar digitalizāciju saistītus jautājumus.

Teksta atpazīšanas programma Readiris Pro 11 darbībā

Teksta atpazīšanas programma Readiris Pro 11 darbībā