Please use this identifier to cite or link to this item:
https://research.matf.bg.ac.rs/handle/123456789/2625
Title: | Prilog metodama klasifikacije teksta: matematički modeli i primene | Authors: | Graovac, Jelena | Affiliations: | Informatics and Computer Science | Issue Date: | 2014 | Rank: | M70 | Publisher: | Beograd : Matematički fakultet | Abstract: | U svetu u kome živimo, internet i digitalni zapis učinili su da ogromne količine sirovih podataka postanu dostupne širokoj javnosti. Jedan američki menadžer je još davno izjavio: "Računari su nam obećali fontanu mudrosti, a ovo što smo dobili je poplava podataka" [20]. Sirovi podaci, neadekvatno strukturirani i različitih formata, sadržaja i kvaliteta su retko od koristi. Neophodno ih je pripremiti, analizirati i na osnovu toga doći do informacija i znanja koja na taj način stiču neprocenjivu vrednost. Istraživanje podataka (eng. data mining) je interdisciplinarno polje informatike koje se bavi automatskim ili polu-automatskim otkrivanjem znanja u podacima. Njegov osnovni zadatak je netrivijalna ekstrakcija informacija iz podataka, i to informacija koje su implicitne, prethodno nepoznate i potencijalno korisne. Koriste se metode koje su u preseku veštačke inteligencije, mašinskog učenja, statistike i sistema baza podataka [97]. Zadaci koji se rešavaju u okviru Istraživanja podataka mogu biti prediktivni (klasifikacija, regresija, analiza vremenskih serija) ili deskriptivni (klasterovanje, sumarizacija, pravila pridruživanja, analiza redosleda, otkrivanje anomalija). U okviru ove doktorske disertacije bavimo se problemom klasifikacije tekstova na osnovu njihovog sadržaja. Smatra se da je preko 80% dostupnih informacija sačuvano u tekstualnom obliku. Većina informacija je zapisana prirodnim jezikom, odnosno jezikom koji koriste ljudi za svakodnevnu komunikaciju. Za očekivati je da će tehnologije automatske obrade podataka zapisanih prirodnim jezikom postati vodeće u svetu. Glavni doprinos disertacije ogleda se u predstavljanju novih metoda za klasifikaciju tekstualnih dokumenata. Prva metoda predstavlja unapredenje metode razvijene u cilju otkrivanja autorstva teksta [38]. Metoda je zasnovana na predstavljanju dokumenta kao profila koji sadrži fiksiran broj n-grama bajtova koji se pojavljuju u dokumentu, i meri različitosti pomoću koje se određuje klasa kojoj dokument pripada. Ova metoda je jezički nezavisna i ne zahteva nikakvu prethodnu obradu teksta niti predznanje o sadržaju teksta ili jeziku na kome je tekst napisan. Druga metoda se zasniva na odabranim konceptima kao predstavnicima klasa koji se dobijaju iz srpskog wordnet-a, leksičko-semantičke mreže za srpski jezik. Deo rezultata iz ove disertacije je sadržan u radovima [23, 27, 22, 21, 56, 26, 25, 24] koji su objavljeni, predati za objavljivanje ili su u fazi pripreme. Disertacija je organizovana na sledeći način. U glavi 1 je prikazan uvod u oblast klasifikacije podataka, u okviru koga su prikazane vrste klasifikacije, procena kvaliteta klasifikacije i primeri primene. Poseban osvrt dat je na klasifikaciju tekstualnih dokumenata. Prikazani su različiti načini predstavljanja dokumenata kao jednog od najvažnijiih koraka u procesu klasifikacije. Predočeni su i mnogi problemi i izazovi koji se javljaju. Prikazani su korpusi klasifikovanih tekstova na srpskom, engleskom, kineskom i arapskom jeziku koji će biti korišćeni u daljem istraživanju. Uvodna glava završava se jednim filozofskim pogledom na proces klasifikacije. Glava 2 daje pregled postojećih leksičkih resursa za srpski jezik [17] koji se razvijaju u okviru Grupe za jezičke tehnologije na Matematičkom fakultetu Univeziteta u Beogradu. Ideja je da se uključivanjem morfoloških, sintaksičkih i semantičkih informacija sadržanih u resursima unapredi proces klasifikacije tekstova na srpkom jeziku, kao jednom od morfološki bogatijih jezika. Predstavljeni su korpusi srpskog jezika, elektronski rečnik i srpski wordnet kao i raznovrsne tehnologije koje se koriste za njihovu obradu a koje se razvijaju u okviru Grupe. U glavi 3 su prikazane postojeće metode mašinskog učenja koje su do sada imale veoma uspešnu primenu u procesu klasifikacije. Prikazane su metode zasnovane na drvetima odlučivanja, metode zasnovane na pravilima i rastojanju, statistički zasnovane metode, metode zasnovane na neuronskim mrežama i metode zasnovane na podržavajućim vektorima. Nove metode za klasifikaciju teksta prikazane su u glavi 4. U okviru prve metode zasnovane na n-gramima bajtova, uvedeni su nova mera različitosti i novi težinski faktori u odnosu na osnovnu varijantu metode. Težinski faktori su dodeljeni n-gramima u okviru profila klasa, reflektujući značaj koji n-grami imaju za pripadajuću klasu. Smatra se da n-grami koji imaju veću frekvenciju a pripadaju manjem broju klasa imaju veći značaj za klasu kojoj pripadaju. Uvođenje ovih težinskih faktora rezultovalo je modifikacijom metode na dva načina: modifikacija na nivou mere različitosti i modifikacija na nivou profila klase. Druga metoda se odnosi na korišćenje informacija sadržanih u srpskom wordnetu i srpskom elektronskom rečniku u cilju klasifikacije teksta na srpskom jeziku. Ova metoda zasniva se na pridruživanju odabranih koncepata iz srpskog wordnet-a klasama, na osnovu kojih se izračunava mera pripadnosti klasi i vrši pridruživanje dokumenta nekoj od klasa. Rezultati prikazanih novih metoda sumirani su u okviru glave 5. Na srpskom korpusu je prikazano poredenje prve metode i njenih modifikacija zasnovanih na n-gramima bajtova, karaktera i reči. Osnovna varijanta metode i njene modifikacije za n-grame bajtova, testirani su na korpusima na srpskom, engleskom, kineskom i arapskom jeziku, čime je demonstrirana jezička nezavisnost metode. U okviru Priloga 1 dodatno su predstavljeni svi rezultati dobijeni testiranjem metode za različite vrednosti parametara, za sve predstavljene mere različitosti, na svim pomenutim korpusima. Druga metoda testirana je samo na korpusu na srpskom jeziku. Poredenje prikazanih rezultata sa drugim rezultataima iz ove oblasti dato je u glavi 6 a glava 7 prikazuje zakljuˇcke i pravce daljeg rada. |
URI: | https://research.matf.bg.ac.rs/handle/123456789/2625 |
Appears in Collections: | Research outputs |
Show full item record
Google ScholarTM
Check
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.