Peningkatan Akurasi Named Entity Recognition (NER) Dengan Fine-Tuning BERT Pada Dataset Bahasa Indonesia

Authors

  • Aji Fatih Muhammad Universitas Islam Negeri Sumatera Utara
  • Muhammad Siddik Hasibuan Universitas Islam Negeri Sumatera Utara

DOI:

https://doi.org/10.24114/cess.v10i2.67219

Keywords:

BERT, Fine-Tuning, IndoBERT, Named Entity Recognition, NLP, Dataset NERGRIT, Bahasa Indonesia

Abstract

Named Entity Recognition (NER) merupakan salah satu tugas utama dalam bidang Natural Language Processing (NLP) yang bertujuan untuk mengenali dan mengklasifikasikan entitas seperti nama orang, organisasi, lokasi, dan tanggal di dalam teks. Meskipun banyak penelitian telah dilakukan untuk bahasa sumber daya tinggi seperti bahasa Inggris, bahasa Indonesia masih menghadapi keterbatasan, baik dari segi dataset maupun kompleksitas linguistik. Penelitian ini bertujuan untuk meningkatkan akurasi sistem NER berbahasa Indonesia dengan melakukan fine-tuning pada model BERT pra-latih, khususnya IndoBERT, menggunakan dataset NERGRIT yang telah dianotasi. Proses penelitian mencakup tahap pra-pemrosesan data, tokenisasi, pelatihan model, dan evaluasi kinerja menggunakan metrik precision, recall, dan F1-score. Model yang telah di-fine-tune diuji dengan berbagai kalimat dan menunjukkan peningkatan akurasi yang signifikan dibandingkan model dasar. Namun demikian, masih ditemukan beberapa permasalahan seperti prediksi berlebihan dan ketidaksesuaian pelabelan entitas. Hasil penelitian ini membuktikan bahwa fine-tuning BERT dapat secara signifikan meningkatkan performa NER dalam teks berbahasa Indonesia. Penelitian ini memberikan kontribusi terhadap pengembangan teknologi NLP bahasa Indonesia serta membuka peluang penerapan pada chatbot cerdas, sistem pemrosesan dokumen, dan analisis opini publik. Penelitian ini menunjukkan pendekatan yang berbeda dibandingkan studi terdahulu dengan mengadopsi dataset NERGRIT, yang mencakup 2.090 kalimat dan 41.871 token, serta mencakup 8 kategori entitas utama, seperti PER, ORG, LOC, DATE, MONEY, PRODUCT, EVENT, dan LAW. Dataset ini belum banyak digunakan dalam publikasi ilmiah, sehingga memberikan kontribusi orisinal dalam eksperimen pengembangan sistem NER untuk Bahasa Indonesia. Penelitian ini juga menggunakan model IndoBERT yang telah di-fine-tune sebelumnya pada dataset serupa, yaitu model hendri/nergrit, namun dilakukan pelatihan ulang (re-fine-tuning) guna meningkatkan kinerja pada konteks lokal dan sintaksis khas Bahasa Indonesia. Secara kuantitatif, penelitian ini berhasil meningkatkan performa model secara signifikan. Sebelum dilakukan fine-tuning, model dasar menghasilkan skor F1 sebesar 72,38%. Setelah melalui proses fine-tuning menggunakan dataset NERGRIT, model mencapai nilai F1-score sebesar 83,67%, dengan nilai precision sebesar 85,12% dan recall sebesar 82,24%. Peningkatan sebesar lebih dari 11 poin F1-score ini menunjukkan efektivitas pendekatan fine-tuning pada model BERT untuk NER Bahasa Indonesia. Selain evaluasi metrik klasik, penelitian ini juga menyertakan analisis kesalahan (error analysis) untuk mengevaluasi fenomena over- prediction dan ketidaksesuaian label entitas pada token umum. Analisis ini mengungkap bahwa meskipun model berhasil mengenali entitas seperti nama orang dan lokasi dengan confidence tinggi, masih terdapat kesalahan pada token non-entitas yang ikut dilabeli secara tidak akurat. Penambahan analisis kualitatif ini menjadi poin keunggulan yang jarang ditemui pada penelitian sejenis. Dengan demikian, kontribusi penelitian ini tidak hanya terletak pada pencapaian performa, tetapi juga pada pendekatan evaluatif yang menyeluruh, serta pemanfaatan dataset dan model yang relatif baru dalam lingkup NLP Bahasa Indonesia.

References

[1] A. A. Mudding, “Mengungkap Opini Publik: Pendekatan BERT-based-caused untuk Analisis Sentimen pada Komentar Film,” J. Syst. Comput. Eng., vol. 5, no. 1, pp. 36–43, 2024, doi: 10.61628/jsce.v5i1.1060.

[2] D. B. Arianto, “Pengembangan Model Named Entity Recognition Untuk Pengenalan Entitas Pada Data Obat Indonesia,” p. 89, 2023, [Online]. Available: https://dspace.uii.ac.id/handle/123456789/42503%0Ahttps://dspace.uii.ac.id/bitstre am/handle/123456789/42503/18917109.pdf?sequence=1&isAllowed=y

[3] F. Saputro, “Named Entity Recognition Pada Resep Makanan Dengan Metode Bidirectional Long Short-Term Memory Dan Bidirectional Encoders Representations From Transformers,” 2021, [Online]. Available: https://dspace.uii.ac.id/handle/123456789/38796%0Ahttps://dspace.uii.ac.id/bitstre am/handle/123456789/38796/17523165.pdf?sequence=1

[4] A. R. Hanum et al., “Mendeteksi Berita Hoaks Performance Analysis of the Bert Text Classification Algorithm,” vol. 11, no. 3, pp. 537–546, 2024, doi: 10.25126/jtiik938093.

[5] M. S. Hasibuan, Y. R. Nasution, I. Komputer, U. Islam, and N. Sumatera, “Optimasi

Model Semi-Supervised Learning Dengan SVM,” vol. 9, no. 2, pp. 231–239, 2024.

[6] P. Chen, M. Zhang, X. Yu, and S. Li, “Named entity recognition of Chinese electronic medical records based on a hybrid neural network and medical MC-BERT,” BMC Med. Inform. Decis. Mak., vol. 22, no. 1, pp. 5263–5279, 2022, doi: 10.1186/s12911-022-

02059-2.

[7] P. Bayu, “Kombinasi Pembelajaran Mesin Untuk Ekstraksi Lokasi Pada Teks Berbahasa Indonesia Bayu Prasetiyo Utomo, Widyawan, S.T., M.Sc., Ph.D.;Muhammad Nur Rizal, S.T., M.Eng., Ph.D.,” pp. 80–81, 2023.

[8] Z. T. Apriliana and T. E. Sutanto, “Penerapan BERT untuk Klasifikasi Aspek dalam Media Massa Otomotif Indonesia,” vol. 2024, no. Senada, pp. 708–722, 2024.

[9] M. A. Aulia and M. S. Hasibuan, “Analysis of the Corpus with Naïve Bayes in Determining Sentiment Labeling,” J. La Multiapp, vol. 5, no. 4, pp. 355–370, 2024, doi: 10.37899/journallamultiapp.v5i4.1465.

[10] A. C. S and Aputra, “7.+Saputra_Perbandingan+Nilai+Akurasi+DistilBERT++Dan+BERT+Pada+Dataset+Anal isis+Sentimen+Lembaga+Kursus,” vol. 18, no. 2, pp. 160–171, 2024.

[11] S. O. Khairunnisa, Z. Chen, and M. Komachi, “Improving Domain-Specific NER in the

Indonesian Language Through Domain Transfer and Data Augmentation,” J. Adv. Comput. Intell. Intell. Informatics, vol. 28, no. 6, pp. 1299–1312, 2024, doi: 10.20965/jaciii.2024.p1299.

[12] A. Kamaruddin, “Terdapat Di Kabupaten Karo Skripsi Oleh : Fakultas Teknik Universitas Medan Area Medan Skripsi Diajukan Sebagai salah satu Syarat Untuk Memperoleh Gelar Sarjana ( S1 ) di Fakultas Teknik Prodi Informatika Universitas Medan Area Oleh : Abdul Kamaruddin Sit,” 2024.

[13] M. Amien, G. Frendi Gunawan, and K. Kunci, “ELANG: Journal of Interdisciplinary Research BERT dan Bahasa Indonesia: Studi tentang Efektivitas Model NLP Berbasis Transformer,” ELANG J. Interdiscip. Res., 2024, [Online]. Available: https://jurnal.stiki.ac.id/elang/article/view/1152

[14] M. S. Hasibuan and A. Serdano, “Analisis Sentimen Kebijakan Pembelajaran Tatap Muka Menggunakan Support Vector Machine dan Naive Bayes,” JRST (Jurnal Ris. Sains dan Teknol., vol. 6, no. 2, p. 199, 2022, doi: 10.30595/jrst.v6i2.15145.

[15] J. & Martin, “Named Entity Recognition (NER) Pada Teks Berbahasa Indonesia Dengan Fine-Tuning Indobert,” 2024.

Downloads

Published

2025-08-01

How to Cite

Fatih Muhammad, A., & Hasibuan, M. S. (2025). Peningkatan Akurasi Named Entity Recognition (NER) Dengan Fine-Tuning BERT Pada Dataset Bahasa Indonesia. CESS (Journal of Computer Engineering, System and Science), 10(2), 702–713. https://doi.org/10.24114/cess.v10i2.67219

Issue

Section

Articles

Similar Articles

> >> 

You may also start an advanced similarity search for this article.