Klasifikasi Artikel Ilmiah Dengan Berbagai Skenario Preprocessing
Abstract
Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. Tahap-tahap preprocessing yang akan diterapkan terdiri dari case folding, stemming, stopwords removal, transformasi VSM (Vector Space Model), dan SMOTE. Namun, pengamatan tiap skenario berfokus pada stemming dan dua teknik stopwords removal, yaitu stopwords removal berbasis kamus, dan berbasis document frequency setelah melewati proses transformasi ke dalam bentuk VSM dengan pembobotan TF-IDF (Term Trequency–Inverse Document Frequency). Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan confusion matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai dengan persentase accuracy sebesar 72.91% dan precision mencapai 73,36%.
Keywords
Full Text:
PDFReferences
Adriani, M., Nazief, B., Asian, J., & Williams, H. E. (2007). Stemming Indonesian: A confix-stripping approach. ACM Transactions on Asian Language Information Processing, 6(4). https://doi.org/10.1145/1316457.1316459
Agus, F., Hatta, H. R., & Mahyudin. (2017). Pengklasifikasian Dokumen Berbahasa Arab Menggunakan K-Nearest Neighbor. JSM STMIK Mikroskil, 18(1), 43–56.
Agusta, L. (2009). Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Babahasa Indonesia. 196–201.
Amrizal, V. (2019). Penerapan Metode Term Frequency Inverse Document Frequency (Tf-Idf) Dan Cosine Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui Syarah Hadits Berbasis Web (Studi Kasus: Hadits Shahih Bukhari-Muslim). Jurnal Teknik Informatika, 11(2), 149–164. https://doi.org/10.15408/jti.v11i2.8623
Barro, R. A., Sulvianti, I. D., & Afendi, F. M. (2013). Penerapan Synthetic Minority Oversampling Technique (Smote) Terhadap Data Tidak Seimbang Pada Pembuatan Model Komposisi Jamu. Xplore: Journal of Statistics, 1(1).
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16(January), 321–357. https://doi.org/10.1613/jair.953
Crone, S. F., Lessmann, S., & Stahlbock, R. (2006). The impact of preprocessing on data mining: An evaluation of classifier sensitivity in direct marketing. European Journal of Operational Research, 173(3), 781–800. https://doi.org/10.1016/j.ejor.2005.07.023
Librian, A. (2017). High quality stemmer library for Indonesian Language (Bahasa). Retrieved from https://github.com/sastrawi/sastrawi
Maarif, A. A. (2015). Penerapan Algoritma TF-IDF untuk Pencarian Karya Ilmiah. Universitas Dian Nuswantoro Semarang, (5), 4. Retrieved from mahasiswa.dinus.ac.id/docs/skripsi/jurnal/15309.pdf
Nurfadila, P. D. (2019). Klasifikasi Jurnal Menggunakan Metode Cosine Similarity dengan Pengurangan Konten pada Judul dan Abstrak Berbasis Frequency.
Qaiser, S., & Ali, R. (2018). Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents. International Journal of Computer Applications, 181(1), 25–29. https://doi.org/10.5120/ijca2018917395
Rahutomo, F., Kitasuka, T., & Aritsugi, M. (2012). Semantic Cosine Similarity. Semantic Scholar, 2(4), 4–5.
Refaeilzadeh, P., Tang, L., & Liu, H. (2011). Cross-Validation. In Advances in Oto-Rhino-Laryngology (Vol. 71). https://doi.org/10.1159/000323569
Sun, W., Cai, Z., Li, Y., Liu, F., Fang, S., & Wang, G. (2018). Data Processing and Text Mining Technologies on Electronic Medical Records: A Review. Journal of Healthcare Engineering, 2018, 1–9. https://doi.org/10.1155/2018/4302425
Suyanto. (2018). Machine Learning Tingkat Dasar dan Lanjut (1st ed.). Bandung: Informatika Bandung.
Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. M.Sc. Thesis, Appendix D, pp, 39–46.
Tan, P.-N., Steinbach, M., & Vipin, K. (2006). Introduction to data mining. In Library of Congress. https://doi.org/10.1016/0022-4405(81)90007-8
Wahyuni, R. T., Prastiyanto, D., & Supraptono, E. (2017). Jurnal Teknik Elektro. Jurnal Teknik Elektro, 9(1), 18–23. Retrieved from https://journal.unnes.ac.id/nju/index.php/jte/article/view/10955/6659
DOI: http://dx.doi.org/10.30872/jsakti.v2i2.2681
Refbacks
- There are currently no refbacks.
Copyright (c) 2020 Sains, Aplikasi, Komputasi dan Teknologi Informasi
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
2nd Floor, Faculty of Computer Science and Information Technology
Jl. Panajam Kampus Gn. Kelua Universitas Mulawarman Samarinda-Kalimantan Timur 75123
Phone: +62 813 31112002 (Haviluddin) +62 811 8207777 (Reza)
E-Mail: jurnal.sakti.fkti@gmail.com; sakti@unmul.ac.id
Sains, Aplikasi, Komputasi dan Teknologi Informasi by http://e-journals.unmul.ac.id/index.php/jsakti eISSN: 2684-8473 is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.