Page 114 - Fister jr., Iztok, Andrej Brodnik, Matjaž Krnc and Iztok Fister (eds.). StuCoSReC. Proceedings of the 2019 6th Student Computer Science Research Conference. Koper: University of Primorska Press, 2019

P. 114

i. Pri metodi MLP smo uporabili skrite nivoje velikosti vse ˇzaljive besede preslikale v enak vektor. To pa je algo-
100, parameter Alpha z vrednostjo 0.0001, ˇstevilo iteracij ritmu omogoˇcilo laˇzje dolo´canje hiperravnine, zaradi manj-
smo omejili na 200 in uporabljali algoritem Adam. Za BC ˇsega ˇsuma v podatkih.
metodo smo uporabili 5 pribliˇzkov z neomejenim ˇstevilom
opravil, vsi pribliˇzki so imeli tudi namestnike po funkciji Literatura
Bootstrap.
[1] Sasha Uritsky Stan Matwin Amir H. Razavi,
4. DISKUSIJA Diana Inkpen. Oﬀensive language detection using
multi-level classiﬁcation. Canadian AI 2010: Advances
S pomoˇcjo predlaganega predprocesiranja smo poenotili ˇza- in Artiﬁcial Intelligence, Berlin, Heidelberg, 2010.
ljive besede. To pa je algoritmu SVM omogoˇcilo, da je do-
segel boljˇse rezultate. Razlog temu bi lahko bil ta, da so se [2] Jeremy Blackburn Emiliano De Cristofaro Gianluca
vse ˇzaljive besede preslikale v isti vektor. To pa je algoritmu Stringhini Athena Vakali Despoina Chatzakou,
omogoˇcilo laˇzje doloˇcanje hiperravnin zaradi manjˇsega ˇsuma Nicolas Kourtellis. Mean birds: Detecting aggression
v podatkih. and bullying on twitter. WebSci ’17, Troy, NY, USA,
2017.
Pri predprocesiranju smo v slovarju imeli tako zlonamerne,
kot tudi sovraˇzne besede. Ko smo te besede zamenjali z ena- [3] Antigoni-Maria Founta, Constantinos Djouvas,
kim ˇzetonom, smo posploˇsili klasiﬁkacijo in zmanjˇsali razlike Despoina Chatzakou, Ilias Leontiadis, Jeremy
med vrstami besedil. Blackburn, Gianluca Stringhini, Athena Vakali,
Michael Sirivianos, and Nicolas Kourtellis. Large scale
V prihodnosti bi lahko predprocesiranje izboljˇsali z veˇcjim crowdsourcing and characterization of twitter abusive
in boljˇsim slovarjem. Lahko bi loˇcili besede slovarja za vsak behavior. In 11th International Conference on Web
razred klasiﬁkacije. Lahko bi v slovar vkljuˇcili besedne zveze and Social Media, ICWSM 2018. AAAI Press, 2018.
in fraze.
[4] Pascale Fung Ji Ho Park. One-step and twostep
Natanˇcnost klasiﬁkacij, bi lahko izboljˇsali z bolj podrobnim classiﬁcation for abusive language detection on
deljenjem ˇzaljivih besed na veˇc razliˇcnih ˇzetonov (v tem po- twitter. Proceedings of the First Workshop on Abusive
skusu je samo 1 tip ˇzetona). Nadalje bi jo izboljˇsali z raz- Language Online, Vancouver, BC, Canada, 2017.
ˇsirjanjem slovarja ˇzaljivih besed.
[5] Younghun Lee, Seunghyun Yoon, and Kyomin Jung.
Lahko bi uporabili razliˇcni korpus za zlonamerni in sovraˇzni Comparative studies of detecting abusive language on
govor. S tem bi dosegli bolj robustno in podrobno zaznavo twitter. Proceedings of the Second Workshop on
ˇzaljivega govora. Po primerjanju rezultatov, bi ˇse lahko po- Abusive Language Online (ALW2), Brussels, Belgium,
skusili zgraditi nove hibridne in amsambelske metode uˇcenja 2018.
iz najboljˇsih testiranih algoritmov.
[6] Chikashi Nobata, Joel Tetreault, Achint Thomas,
5. ZAKLJUCˇ EK Yashar Mehdad, and Yi Chang. Abusive language
detection in online user content. WWW ’16
Na spletu je veliko razliˇcnih primerkov sovraˇznega in zlo- Proceedings of the 25th International Conference on
namernega govora. Pri prepoznavi je eden izmed problemov World Wide Web, Montr´eal, Qu´ebec, Canada, 2016.
moˇzne variacije ˇzaljivih besed, ki imajo podoben pomen. Re-
zultati naˇsega dela so pokazali, da lahko naredimo majhno [7] Manish Gupta Vasudeva Varma Pinkesh Badjatiya,
izboljˇsavo klasiﬁkacij sovraˇznega govora takih primerov pri Shashank Gupta. Deep learning for hate speech
algoritmu SVM, ˇce zmanjˇsamo raznolikost ˇzaljivih besed s detection in tweets. WWW ’17 Companion
slovarjem ˇzaljvih besed, ki te besede zamenja z ˇzetonom. Proceedings of the 26th International Conference on
World Wide Web Companion, Perth, Australia, 2017.
Uspeˇsnost naˇsih metod smo ocenili z mero F1. Strokovnjaki
so dosegli z njihovo najboljˇso izkazano metodo SVM pri so- [8] Sara Sood, Judd Antin, and Elizabeth Churchill.
vraˇznem govoru mero F1 z vrednostjo 78 %, z naˇso metodo Profanity use in online communities. CHI ’12
slovarja ˇzaljivih besed pa smo dosegli vrednost 85 %. Za zlo- Proceedings of the SIGCHI Conference on Human
namerni govor so s to metodo dosegli vrednost mere F1 87 Factors in Computing Systems, Austin, Texas, USA,
%, z naˇso metodo pa smo dosegli le 83 %. Pri ostalih rezul- 2012.
tatih smo glede na mero F1 za sovraˇzni in zlonamerni govor
dosegli slabˇse rezultate pri metodah naivni bayes, linearna [9] William Warner and Julia Hirschberg. Detecting hate
regresija, gradient boosting dreves in nakljuˇcni gozd. speech on the world wide web. Proceedings of the
Second Workshop on Language in Social Media,
Prav tako je do razlik v rezultatih enakih testiranih uˇcnih Montr´eal, Canada, 2012.
metod kot v ˇclanku [5], priˇslo zaradi tega, ker nismo mogli
pridobiti vseh tvitov iz baze, ker so upravljalci Twitterja [10] Guang Xiang, Bin Fan, Ling Wang, Jason Hong, and
med tem ˇze izbrisali nekatere zlonamerne in sovraˇzne tvite. Carolyn Rose. Detecting oﬀensive tweets via topical
feature discovery over a large scale twitter corpus.
S pomoˇcjo predlaganega predprocesiranja smo poenotili ˇza- CIKM ’12 Proceedings of the 21st ACM international
ljive besede. To pa je algoritmu SVM omogoˇcilo, da je do- conference on Information and knowledge
segel boljˇse rezultate. Razog temu bi lahko bil to, da so se management, Maui, Hawaii, USA, 2012.

StuCoSReC Proceedings of the 2019 6th Student Computer Science Research Conference 114
Koper, Slovenia, 10 October

109 110 111 112 113 114 115 116 117 118