Stemming Information Retrieval in Bahasa Indonesia

A Study of Stemming Effects on Information
Retrieval in Bahasa Indonesia
Fadillah Z Tala
0086975
Master of Logic Project
Institute for Logic, Language and Computation
Universiteit van Amsterdam
The NetherlandsContents
1 Introduction 1
2 A Purely Rule-based Stemmer for Bahasa Indonesia 3
2.1 Morphological Structure of Bahasa Indonesia Words . . . . . . . . . . . . . . . . . 3
2.2 The Porter Stemming Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Porter Stemmer for Bahasa Indonesia . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.1 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Evaluation of the Stemming Algorithm 11
3.1 Stemmer Quality Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1 The Paice Evaluation Method . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1.2 The Paice Experimental Results . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Error Analysis . . . . . . . … Stemming Information Retrieval in Bahasa Indonesia

PERBANDINGAN ALGORITMA STEMMING PORTER / NAZIEF & ADRIANI STEMMING DOKUMEN TEKS BAHASA INDONESIA

Konferensi Nasional Sistem dan Informatika 2009; Bali, November 14, 2009  KNS&I09-036
196
PERBANDINGAN  ALGORITMA STEMMING PORTER DENGAN
ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS
BAHASA INDONESIA
Ledy Agusta
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
ledyagusta@gmail.com
ABSTRACT
Information Retrieval (IR) is a process to retrieve relevant documents from set of documents in a database. Increasing
amount of text documents on internet is followed by the increase of the need for effective and efficient IR tools. Search
Engine is an application of IR system that depends on indexing and query expansion tools’s support. Stemming is a
process to transform all words in text document to their rootword form. Rootword then will be saved as index. Stemming
is also used for query expansion. The appropriate algorithm will give best performance to IR system, indexing and query
expansion. This research compares two Indonesian stemmers, Porter and  Nazief &… PERBANDINGAN ALGORITMA STEMMING PORTER / NAZIEF & ADRIANI STEMMING DOKUMEN TEKS BAHASA INDONESIA

Script PHP PostgreSQL Database Stemming Input Kata Ke Dalam Database

Dalam tugas akhir yang saya kerjakan untuk menyelesaikan perkuliahan, terdapat proses stemming bahasa indonesia. Stemming adalah proses mencari bentuk kata dasar sesuai aturan dan kaidah bahasa Indonesia yang baku. Stemming merupakan bagian yang tidak terpisahkan dalam Information Retrieval (IR). Algoritma yang saya gunakan dalam proses stemming tersebut adalah algoritma Nazief & Adriani. Algoritma stemming untuk teks berbahasa Indonesia yang memiliki kemampuan prosentase keakuratan (presisi) lebih baik dari algoritma lainnya. Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani sangat dibutuhkan dan menentukan dalam proses IR dalam dokumen Indonesia.

Proses stemming tersebut sangat bergantung pada kamus kata dasar yang kita miliki. Oleh karena itu, saya melakukan pencarian mengenai kata dasar yang cocok dan lengkap untuk penelitian tersebut. Setelah melalang buana ke server satu ke server lainnya maka saya mendapatkan situs yang bagus yaitu: http://bahtera.org/. Bahtera ada… Script PHP PostgreSQL Database Stemming Input Kata Ke Dalam Database