Page 113 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019
P. 113
aljivih in zlonamernih tvitov od takrat, ko je bila baza z Slika 1: Primerjava uspeˇsnosti metod za zaznavo so-
IDji tvitov objavljena ˇze uspeˇsno odstranili. Izvajanje uˇcnih vraznega govora
algoritmov je implementirano v programskem jeziku Python
po zgledu ˇclanka [5]. Slika 2: Primerjava uspeˇsnosti metod za zaznavo zlo-
namernega govora
3.2.2 Predprocesiranje
metod. Z modificiranim predprocesiranjem se je mera F1 ˇse
Gre za klasiˇcno predprocesiranje besedila, kot je odstrani- dodatno poslabˇsala na 33 % (MLP) in 34 % (BC).
tev posebnih znakov, ”hash tags”, spletne povezav in po- Pri zaznavi zlonamernega govora sta se metodi MLP in BC
dobnih elementov z uporabo regularnih izrazov. Podatke odrezali malce bolje, ˇse vedno pa nista bili med najnatanˇc-
razdelimo na 10 nakljuˇcnih preˇcnih preverjanj (ang. folds). nejˇsimi. Brez uporabe slovarja pri predprocesiranju si je
Z naˇso metodo, ˇse v objavah iz Twitterja zamenjamo ˇzaljive metoda BC delila ˇcetrto mesto z metodo RF, obe sta imeli
besede z ˇzetonom za nadaljno boljˇse uˇcenje mero F1 85 %. Medtem, ko si je metoda MLP delila zadnje
algoritmov. Kot ˇzaljive besede smo smatrali vse besede, mesto z metodo NB z mero F1 83 %. Ko smo vkljuˇcili ˇse
ki so se pojavile na seznamu Googlovih prepovedanih be- predprocesiranje s slovarjem je metoda BC skupaj z meto-
sed (vir: https://www.freewebheaders.com/full-list-of-bad- dama GBT in RF celo kazala najslabˇso mero F1 izmed vseh
words-banned-by-google/). metod 80 %, metoda MLP pa je bila le mesto nad njimi z
mero F1 81 %.
3.2.3 Implementiranje dodatnih ucˇnih algoritmov Pri vseh metodah smo uporabili optimalne parametre, ka-
teri so bili izraˇcunani s pomoˇzno funkcijo. Tako smo dobili
Zraven naˇstetim uˇcnim algoritmom ˇclanka [5] v poglavju 2 za SVM parameter Alpha vrednost 0.0001, izguba je bila
smo ˇse implementirali nevronsko mreˇzo MLP in tradicionalni logaritmiˇcna s kaznijo 12, L1 razmerje 0.15, ter moˇc T pa-
model ”Bagging”klasifikator. Nevronsko mreˇzo smo izbrali rametra 0.5. Pri metodi NB smo dobili parameter Alpha z
zaradi dobrih rezultatov v sorodnih ˇclankih. Za izbran tra- vrednostjo 1 in omogoˇcili uˇcenje z zgodovino. Pri LR me-
dicionalni model pa je znano, da dobro deluje kadar nimajo todi smo uporabili logaritem Lbgfs s kaznijo 12 ter omejili
besede zelo podobnih pomenov. iteracije na 100. Za GBT metodo smo omejili globino na
1 in uporabili ˇstevilo pribliˇzkov na 100 ter stopnjo uˇcenja
3.2.4 Ucˇenje in evaluacija algoritmov 0.1. Metoda RF je bila najmanj omejena, saj nismo ome-
jevali globine in ˇsirine, uporabili pa smo kriterijsko metodo
Po predprocesiranju smo algoritme uˇcili 2 krat. Enkrat z
naˇso metodo optimizacije in enkrat brez. Po konˇcanem uˇce-
njo smo ˇse naredili evulacijo pridobljenih uˇcnih modelov.
Najveˇcjo pomembnost smo namenili meri F1 - enaˇcba (1),
ki predstavlja harmoniˇcno povpreˇcje med senzitivnstjo in
preciznostjo. Najboljˇso vrednost doseˇze pri 1 (popolna pre-
ciznost in senzitivnost), najslabˇso pa pri ˇstevilu 0.

F1 = 2 · preciznost · senzitivnost (1)
preciznost + senzitivnost

3.3 Analiza rezultatov

Pri vsaki metodi smo naredili deset poskusov z nakljuˇcno
izbranimi podatki. Uporabljali smo mero F1, preciznost,
senzitivnost, mikro, makro ter uteˇzeno povpreˇcje. Primer-
java rezultatov je narejena glede na povpreˇcje vseh poskusov
z uporabo mere F1, kot je razvidno na slikah 1 in 2.

Slika 1 prikazuje mero F1 posameznih metod brez in z naˇso
modifikacijo pri predprocesiranju besedila v tvitih. Pri so-
vraˇznem govoru nam je uspelo metodo SVM v povpreˇcju
izboljˇsati za 7 %, medtem ko so metode NB, LR, RF in
MLP ostale primerljivo dobre. Obˇcutno poslabˇsali pa sta se
metodi GBT in BC (za 9 % oziroma 8 %).

Kot je razvidno iz slike 2 nam pri zaznavanju zlonamernega
govora z modifikacijo pri predprocesiranju ni uspelo doseˇci
boljˇse mere F1 pri nobeni metodi . Najslabˇse rezultate smo
dosegli pri metodah GBT in BC (7 % oziroma 5 % poslab-
ˇsanje s predprocesiranjem). Zakaj menimo, da je temu tako,
smo opisali v naslednjem poglavju.

Pri zaznavi sovraˇznega govora sta nam metodi, ki smo ju
dodatno implementirali (MLP in BC) prinesli najslabˇse re-
zultate mere F1 (37 % in 42 %) od vseh sedmih preizkuˇsenih

StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 113
Koper, Slovenia, 10 October
   108   109   110   111   112   113   114   115   116   117   118