Page 111 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 111
oljšanje zaznave sovražnega in zlonamernega govora s
pomocˇ jo slovarja besed

Saˇso Kolac Aljaˇz Soderˇznik Simon Slemenˇsek
Fakulteta za elektrotehniko, Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,
raˇcunalniˇstvo in informatiko raˇcunalniˇstvo in informatiko raˇcunalniˇstvo in informatiko

Inˇstitut za raˇcunalniˇstvo Inˇstitut za raˇcunalniˇstvo Inˇstitut za raˇcunalniˇstvo
Koroˇska cesta 46, Koroˇska cesta 46, Koroˇska cesta 46,

2000 Maribor, Slovenija 2000 Maribor, Slovenija 2000 Maribor, Slovenija
saso.kolac@student.um.si aljaz.soderznik@student.um.si simon.slemensek1@student.um.si

Borko Boˇskovi´c
Fakulteta za elektrotehniko,
raˇcunalniˇstvo in informatiko

Inˇstitut za raˇcunalniˇstvo
Koroˇska cesta 46,

2000 Maribor, Slovenija
borko.boskovic@um.si

POVZETEK poniˇzevalna ali takˇsna, da spodbujajo nasilje [9]. Njegov cilj
je razˇcloveˇciti tiste, proti katerim je namenjen. Prepozna-
V ˇclanku je predstavljena metoda, ki temelji na optimizaciji vanje takˇsnih besedil na spletu je dandanes zelo pomembno,
predprocesiranja besedil z namenom izboljˇsati natanˇcnost saj imajo socialni mediji [6, 8] zelo velik vpliv na ˇcloveˇsko
klasifikacije sovraˇznega govora z uporabo algoritmov stroj- psiho.
nega uˇcenja. Zˇaljive kratice in zaznamke nadomestimo z
ˇzetonom , s ˇcimer algoritmi laˇzje klasificirajo Druˇzbena omreˇzja in razne platforme za objavljanje sple-
sovraˇzni in zlonamerni govor. V ˇclanku so primerjani re- tnih videoposnetkov v svojih pravilih prepovedujejo ˇsirjenje
zultati klasifikacij z in brez naˇse metode algoritmov naivni sovraˇstva proti druˇzbenim skupinam, posameznicam in po-
bayes, logistiˇcne regresije, podporni vektorji, nakljuˇcni goz- sameznikom. Prepovedujejo tudi groˇznje in nadlegovanje
dovi, gradiento pospeˇsevanje regresijskih gozdov, nevronske ter omejujejo objavljanje vsebin, ki niso primerne za mla-
mreˇze in ”Bagging”klasifikator. Testna besedila smo dobili doletne. Facebook, Twitter, YouTube, Microsoft, Google+,
iz socialnega omreˇzja Twitter. Instagram in Snapchat so se s podpisom posebnega kode-
ksa zavezali, da bodo veˇcino upraviˇcenih prijav nezakoni-
Kjucˇne besede tega sovraˇznega govora pregledali v roku 24 ur in onemogo-
ˇcili dostop do teh vsebin ob upoˇstevanju lokalne in evropske
jezikovne tehnologije, klasifikacija, sovraˇzni govor, strojno zakonodaje.
uˇcenje, zlonamerni govor
Problem na katerega naletimo je preveliko ˇstevilo besedil
1. UVOD oz. objav, da bi lahko ljudje roˇcno preverjali, ˇce se besedilo
dejansko uvrˇsˇca pod sovraˇzni govor. Eden izmed naˇcinov
Svoboda izraˇzanja je temeljna ˇclovekova pravica in predpo- za sooˇcanje s tem problemom so algoritmi strojnega uˇcenja
goj za obstoj demokratiˇcne druˇzbe. Kot vse pravice, tudi [1, 7, 10], ki omogoˇcajo dokaj uspeˇsno zaznavo sovraˇznega
svobode izraˇzanja ni dopustno izrabljati na ˇskodo drugih in govora.
je zamejena s ˇclovekovim dostojanstvom in z naˇcelom va-
rovanja javnega reda in miru. Nekatere oblike izraˇzanja so V tem delu smo se osredotoˇcili na predprocesiranje besedila
zato zakonsko prepovedane ali veljajo za druˇzbeno nespreje- v tvitih, tako da smo s pomoˇcjo slovarja ˇzaljivih besed zame-
mljive, na primer groˇznje, ˇzalitve, komunikacija z namenom njali vse ˇzaljive besede, ki so se pojavile v besedilih tvitoh
preslepitve in sovraˇzni govor. z ˇzetonom . Nad predprocesiranim besedilom
smo nato uporabili algoritme razliˇcnih vej strojnega uˇcenja v
Sovraˇzni in zlonamerni govor se navezujeta na besedila, ki programskem jeziku Python in medsebojno primerjali rezul-
so do posameznikov ali skupine ljudi ˇzaljiva, prestraˇsujoˇca, tate z in brez modifikacije pri predprocesiranju. Podatkovno
bazo s pribliˇzno 100.000 tviti smo pridobili iz repozitorija [3].

V priˇcujoˇcem poglavju bomo predstavili ugotovitve sorodnih
del. Sledi poglavje, ki opisuje predstavljeno metodo, ter po-
tek eksperimenta z analizo rezultatov. Temu poglavju sledi
poglavje, ki govori o naˇsi razlagi rezultatov. Nazadnje sledi
ˇse zakljuˇcek, ki povzema kljuˇcne ugotovitve naˇsega dela.

StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference DOI: https://doi.org/10.26493/978-961-7055-82-5.111-114 111
Koper, Slovenia, 10 October
   106   107   108   109   110   111   112   113   114   115   116