Svrstavanje srpskih reči u emocionalne i moralne kategorije

Šošić, Milena; Graovac, Jelena

Please use this identifier to cite or link to this item: https://research.matf.bg.ac.rs/handle/123456789/3222

Title:	Svrstavanje srpskih reči u emocionalne i moralne kategorije
Authors:	Šošić, Milena Graovac, Jelena
Affiliations:	Informatics and Computer Science
Keywords:	emocionalnost;moralnost;rečnik;srpski jezik;veliki jezički modeli;obrada prirodnih jezika
Issue Date:	2023
Rank:	M34
Publisher:	Beograd : Srpska akademija nauka i umetnosti ; Matematički institut SANU
Related Publication(s):	1. Konferencija Veštačka inteligencija 2023: Knjiga apstrakata = 1st Artificial Intelligence Conference 2023: Book of Abstracts
Conference:	Artificial Intelligence Conference (1 ; 2023 ; Beograd)
Abstract:	U okviru ove prezentacije biće predstavljene naše aktivnosti na pravljenju rečnika na srpskom jeziku koji reči svrstava u predefinisane kategorije prema prisustvu emocionalnog afekta ili moralne vrednosti. Pravljenje ovih rečnika je inspirisano postojećim rečnicima na drugim jezicima i zasniva se na tehnikama i modelima veštačke inteligencije, odnosno mašinskog učenja, sa ciljem što preciznije kategorizacije reči u emocionalne i moralne kategorije. Razvoj emocionalnog rečnika na srpskom jeziku se oslanja na EmoLeks (eng. EmoLex) rečnik engleskih reči i termina sa pridruženim emocionalnim kategorijama na engleskom jeziku. Rečnik je najpre preveden sa engleskog na srpski jezik korišćenjem alata za prevođenje Gugl Prevodilac (eng. Google Translator), pri čemu su nepreciznosti u rečniku dobijenom na ovaj način rešene i prilagođene srpskom jeziku korišćenjem naprednih modela veštačke inteligencije, konkretno Čet-GPT (eng. Chat-GPT) modela, i njihove sposobnosti da razlikuju tipove reči, naprave sinonime ili potvrde prisustvo određene emocionalne kategorije u posmatranoj reči. Napravljeni emocionalni rečnik sadrži 8150 reči iz srpskog jezika označenih na pristustvo emocionalnog afekta. Sa druge strane, za izgradnju rečnika moralnih vrednosti na srpskom jeziku koriste se razvijene tehnike za obradu prirodnih jezika kojima se iz označenih korpusa izdvajanjem karakterističnih reči, rečnik pravi na automatski način. Ovaj pristup značajno ubrzava proces izrade rečnika, istovremeno povećavajući njegovu preciznost. Korišćene tehnike za srpski jezik obuhvataju velike jezičke modele za označavanje korpusa u moralne kategorije, modele du okog učenja za određivanje tipa reči i lematizaciju, napredne algoritme za utvrđivanje intenziteta sentimenta u tekstu, kao i različite matematičke metode za pronalaženje najznačajnijih reči za svaku predefinisanu kategoriju iz označenog tekstualnog korpusa. Preliminarni rezultati ukazuju da je tačnost prepoznavanja emocionalnih kategorija u tekstu na osnovu rečnika koji je izgrađen na ovaj način unapređena u proseku za 4.2% u odnosu na rečnik koji je doijen korišćenjem alata za automatsko prevođenje. Uporednim testovima naj oljih rečnika na srpskom i engleskom jeziku nad paralelnim korpusom tekstova označenih na prisustvo emocionalnosti, naj olja verzija srpskog rečnika je u proseku za 5.2% uspešnija u tačnom prepoznavanju emocionalnih kategorija u odnosu na rečnik za engleski jezik.
URI:	https://research.matf.bg.ac.rs/handle/123456789/3222
Appears in Collections:	Research outputs

Show full item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM