Please use this identifier to cite or link to this item:
https://research.matf.bg.ac.rs/handle/123456789/3222| Title: | Svrstavanje srpskih reči u emocionalne i moralne kategorije | Authors: | Šošić, Milena Graovac, Jelena |
Affiliations: | Informatics and Computer Science | Keywords: | emocionalnost;moralnost;rečnik;srpski jezik;veliki jezički modeli;obrada prirodnih jezika | Issue Date: | 2023 | Rank: | M34 | Publisher: | Beograd : Srpska akademija nauka i umetnosti ; Matematički institut SANU | Related Publication(s): | 1. Konferencija Veštačka inteligencija 2023: Knjiga apstrakata = 1st Artificial Intelligence Conference 2023: Book of Abstracts | Conference: | Artificial Intelligence Conference (1 ; 2023 ; Beograd) | Abstract: | U okviru ove prezentacije biće predstavljene naše aktivnosti na pravljenju rečnika na srpskom jeziku koji reči svrstava u predefinisane kategorije prema prisustvu emocionalnog afekta ili moralne vrednosti. Pravljenje ovih rečnika je inspirisano postojećim rečnicima na drugim jezicima i zasniva se na tehnikama i modelima veštačke inteligencije, odnosno mašinskog učenja, sa ciljem što preciznije kategorizacije reči u emocionalne i moralne kategorije. Razvoj emocionalnog rečnika na srpskom jeziku se oslanja na EmoLeks (eng. EmoLex) rečnik engleskih reči i termina sa pridruženim emocionalnim kategorijama na engleskom jeziku. Rečnik je najpre preveden sa engleskog na srpski jezik korišćenjem alata za prevođenje Gugl Prevodilac (eng. Google Translator), pri čemu su nepreciznosti u rečniku dobijenom na ovaj način rešene i prilagođene srpskom jeziku korišćenjem naprednih modela veštačke inteligencije, konkretno Čet-GPT (eng. Chat-GPT) modela, i njihove sposobnosti da razlikuju tipove reči, naprave sinonime ili potvrde prisustvo određene emocionalne kategorije u posmatranoj reči. Napravljeni emocionalni rečnik sadrži 8150 reči iz srpskog jezika označenih na pristustvo emocionalnog afekta. Sa druge strane, za izgradnju rečnika moralnih vrednosti na srpskom jeziku koriste se razvijene tehnike za obradu prirodnih jezika kojima se iz označenih korpusa izdvajanjem karakterističnih reči, rečnik pravi na automatski način. Ovaj pristup značajno ubrzava proces izrade rečnika, istovremeno povećavajući njegovu preciznost. Korišćene tehnike za srpski jezik obuhvataju velike jezičke modele za označavanje korpusa u moralne kategorije, modele du okog učenja za određivanje tipa reči i lematizaciju, napredne algoritme za utvrđivanje intenziteta sentimenta u tekstu, kao i različite matematičke metode za pronalaženje najznačajnijih reči za svaku predefinisanu kategoriju iz označenog tekstualnog korpusa. Preliminarni rezultati ukazuju da je tačnost prepoznavanja emocionalnih kategorija u tekstu na osnovu rečnika koji je izgrađen na ovaj način unapređena u proseku za 4.2% u odnosu na rečnik koji je doijen korišćenjem alata za automatsko prevođenje. Uporednim testovima naj oljih rečnika na srpskom i engleskom jeziku nad paralelnim korpusom tekstova označenih na prisustvo emocionalnosti, naj olja verzija srpskog rečnika je u proseku za 5.2% uspešnija u tačnom prepoznavanju emocionalnih kategorija u odnosu na rečnik za engleski jezik. |
URI: | https://research.matf.bg.ac.rs/handle/123456789/3222 |
| Appears in Collections: | Research outputs |
Show full item record
Google ScholarTM
Check
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.