LTU Patekote į pirmąjį lietuvišką domeną. Daugiau informacijos

 

 

2019 m. gegužės 20 d., 13:00 val.

Vilnius, Akademijos g. 4, 203 kab.

 

Vidas Daudaravičius

(VTeX)

 

„Mokslinių knygų automatinio indeksavimo ir anotavimo priemonė, apmokoma duomenų bazės duomenimis“

 

Pristatoma priemonė parengia pirminį knygos indeksą/anotavimą LaTeX failuose. Jos veikimas paremtas Dirbtiniu Intelektu, kuris yra apmokomas iš parengtos duomenų bazės. Taip pat, kad būtų patogu naudotis, šiai priemonei sukurta ir vartotojo sąsaja. Ši priemonė leidžia automatizuoti nemažą dalį žmogaus kūrybinės veiklos, kuri sunaudoja didelę dalį žmogiškųjų resursų, nors žmogaus visiškai pakeisti negali.
Indeksavimo programinė priemonė atlieka tokius automatinius darbus:
 - Sudaro reikšmingų terminų indeksą nurodant apytikslį terminų kiekį indekse.
 - Sudaro koncepcinių terminų indeksą (terminas nebūtinai yra statistiškai reikšmingas).
 - Sudaro akronimų ir jų išplėtimų sąrašą.
 - Sudaro indeksą pagal autoriaus pateiktą sarašą.
 - Sudaro išplėstinį indeksą pagal autoriaus pateiktą sarašą.
Derinant šiuos atskirus darbų atlikimo variantus, galima įgyvendinti įvairius indekso parengimo reikalavimus.
\index komandos yra automatiškai įterpiamos failuose. Atlikus įvarius testus buvo nustatyta, kad \index komandos įterpimas iškart už termino beveik visuomet pakeičia maketą, jei už termino yra taškas, kablelis, dvitaškis ar kabliataškis. Todėl \index komandos įterpimo vieta automatiškai koreguojama priklausomai ar įterpimo vietoje yra minėti skirybos ženklai - \index komanda įterpiama už ženklo. Toks \index komandos įterpimo būdas labai retai pakeičia maketą.
Terminai yra automatiškai normalizuojami, t.y., vienaskaitos ir daugiskaitos terminų formos yra suvedamos į vieną formą, kuri dominuoja tekste. Tai labai sumažina terminų redagavimo darbo sąnaudas.
Programinėje priemonėje yra įdiegta vidinė latex parsinimo ir dalinio makrosų skleidimo priemonė, kuri leidžia tiksliai ir patikimai nustatyti latex dokumento teksto turinį ir surasti tikslias \index komandų įterpimo vietas, net jei terminas yra skleidžiamo makroso dalis. Grąžinamas latex dokumentas turi tik naujai įterptas \index komandas ir neatlieka jokių kitų pakeitimų latex faile.
Priemonė leidžia indeksuoti failus/papildyti indeksą failuose, kuriuose jau yra autoriaus įterpti terminai su \index komanda.
Vidutinis failų automatinio apdorojimo ir terminų anotavimo laikas yra 1-3 min.
Indekso redagavimas vyksta šiais galimais būdais:
 - peržiūrint paeiliui terminų lokacijas ir atliekant keitimus failuose,
 - peržiūrint termino lokacijų konkordansą ir redaguojant terminus tiesiogiai konkordanse, konkordanso eilutės gali būti įvairuose failuose,
 - redaguojant indekso medį: ištrinant ar keičiant vieną ar kelis terminus vienu metu dialogo lange. Pakeitimai automatiškai atliekami visose termino(-ų) lokacijose visuose failuose.
Esant poreikiui, sistema su nedidelėmis sąnaudomis, gali būti adaptuota kitoms kalboms.
Projekto metu buvo testuojamas tiek knygų, tiek žurnalų indeksavimo galimybės. Testavimo metu atskleista, kad indekso sudarymo procesas knygoms ir žurnalams yra tapatus. Nedidelių (iki 100 terminų) indeksų sudarymo laiko sąnaudos yra apie 2-6 val. atliekant tik nereikalingų/netikslių terminų šalinimo darbą. Jei yra generuojamas tik nedidelis reikšmingų terminų indeksas, tai indekso redagavimo laiko sąnaudos yra iki 1-4 val.
Knygų indeksas gali būti tiek vieno, tiek kelių lygių. Tai daroma automatiškai nurodant ar reikalinga formuoti medį (gaunami keli lygiai), ar pateikti tik sąrašą (gaunamas tik vienas lygmuo).