Kamis, 07 April 2011

Representasi Pengetahuan - Bahasa Natural


REPRESENTASI PENGETAHUAN
BAHASA NATURAL

Disusun oleh:
Khabib Mustofa - J2F008112


PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN MATEMATIKA FAKULTAS MIPA
UNIVERSITAS DIPONEGORO
SEMARANG
2011



A. Pengertian Pengolahan Bahasa Alami

Mengubah informasi yang diekspresikan dalam bahasa pembicaraan dan tertulis dari manusia menjadi masukan untuk komputer lewat perangkat lunak yang telah dikhususkan. Natural language processing adalah ujung tombak dari usaha untuk memindahkan beban pada komunikasi manusia-komputer yang efektif ke komputer. Perintah-perintahnya merupakan bahasa sehari-hari.
Natural Language Processing atau Pemrosesan Bahasa Alami merupakan salah satu tujuan jangka panjang dari Artficial Intelegence (kecerdasan buatan) yaitu pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia.
Pada prinsipnya bahasa alami adalah suatu bentuk representasi dari suatu pesan yang ingin dikomunikasikan antar manusia. Bentuk utama representasinya adalah berupa suara/ucapan (spoken language), tetapi sering pula dinyatakan dalam bentuk tulisan.
Tujuannya adalah untuk melakukan proses pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu interaksi antara manusia dan computer dengan perantara bahasa alami. Model komputasi ini dapat berguna untuk pengetahuan ilmiah.
Inti dari pemrosesan bahasa alami adalah penguraian kalimat atau sering disebut dengan parser. Parser berfungsi untuk membaca kalimat, kata demi kata dan menentukan jenis kata apa saja yang boleh mengikuti kata tersebut. Dalam pemahaman suatu bahasa ada beberapa bidang yang harus disertakan yaitu morfologi, sintaksis, semantik, pragmatik, fonologi, dan pengetahuan tentang dunia sekitar.

B. Komponen Utama Bahasa Alami

Pengolahan bahasa alami terdiri dari dua bagian utama, yaitu: parser, sistem representasi pengetahuan dan pengolahan output.
  1. Parser. Suatu sistem yang mengambil kalimat input bahasa alami dan menguraikannya ke dalam beberapa bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain).
  2. Sistem Representasi Pengetahuan. Suatu sistem yang menganalisis output parser untuk menentukan maknanya.
  3. Output Translator. Suatu terjemahan yang merepresentasikan sistem pengetahuan dan melakukan langkah- langkah yang bisa berupa jawaban atas bahasa alami atau output khusus yang sesuai dengan program komputer lainnya.

C. Kategori Aplikasi Pengolahan Bahasa Alami

Teknologi Natural Language Processing (NLP) atau Pemrosesan Bahasa Alami adalah teknologi yang memungkinkan untuk melakukan berbagai macam pemrosesan terhadap bahasa alami yang biasa digunakan oleh manusia. Sistem ini biasanya mempunyai masukan dan keluaram berupa bahasa tulisan (teks). NLP mempunyai aplikasi yang sangat luas. Beberapa diantara berbagai kategori aplikasi NLP adalah sebagai berikut:
  1. Natural Language Translator, yaitu translator dari satu bahasa alami ke bahasa alami lainnya, misalnya translator bahasa Inggris ke bahasa Indonesia, Bahasa Indonesia ke Bahasa Jawa dan sebagainya. Translator bahasa alami bukan hanya kamus yang menerjemahkan kata per kata, tetapi harus juga mentranslasikan sintaks dari bahasa asal ke bahasa tujuannya.
  2. Translator bahasa alami ke bahasa buatan, yaitu translator yang mengubah perintah-perintah dalam bahasa alami menjadi bahasa buatan yang dapat dieksekusi oleh mesin atau komputer. Sebagai contoh, translator yang memungkinkan kita memberikan perintah bahasa alami kepada komputer. Dengansistem seperti ini, pengguna sistem dapat memberikan perintah dengan bahasa sehari-hari, misalnya, untuk menghapus semua file, pengguna cukup memberikan perintah ”komputer, tolong hapus semua file !” Translator akan mentranslasikan perintah bahasa alami tersebut menjadi perintah bahasa formal yang dipahami oleh komputer, yaitu ”dir *.* ”.  
  3. Text Summarization, yaitu suatu sistem yang dapat ”membuat ringkasan” hal-hal yang penting dari suatu wacana yang diberikan.
Dalam dunia kecerdasan buatan pengolahan bahasa alami merupakan aplikasi terbesar setelah sistem pakar. Banyak para ahli Artificial Intelligence berpendapat bahwa bidang yang penting yang dapat dipecahkan oleh Artificial Intelligence adalah Natural Language Processing (Pengolahan Bahasa Alami). 

D. Bidang Pengetahuan pada Pengolahan Bahasa Alami

Ada beberapa tingkat pengolahan pada pengolahan bahasa alami, yaitu dibagi dalam beberapa bidang pengetahuan seperti:
  1. Fonetik dan Fonologi. Berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang ini menjadi penting dalam proses aplikasi yang memakai metode speech based system.
  2. Morfologi. Pengetahuan tentang kata dan bentuknya dimanfaatkan untuk membedakan satu kata dengan yang lainnya. Pada tingkat ini jg dapat dipisahkan antara kata dan elemen lain seperti tanda baca. Contoh: kata going -> going (word), do (root), ing (suffix). Kata understand -> understand (word), under (prefix), stand (root).
  3. Sintaksis. Pemahaman urutan kata dalam pembentukkan kalimat dan hubungan antara kata tersebut dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis. Meliputi proses pengaturan tata letak suatu kata dalam kalimat yang akan membentuk kalimat yang dapat dikenali. Selain itu, dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat yang lebih besar. Sebagai contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP).
  4. Semantik. Pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung struktur kalimat. Dalam tingkatan ini belum mencakup konteks dari kalimat tersebut.
  5. Pragmatik. Pengetahuan pada tingkatan ini berhubungan dengan konteks yang berbeda-beda tergantung pada situasi dan tujuan pembuatan system.
  6. Discourse Knowledge. Melakukan suatu pengenalan apakah suatu kalimat yang sudah dibaca atau dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini penting diketahui untuk melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi.
  7. World Knowledge. Mencakup arti sebuah kata secara umum dan apakah ada arti khusus pada suatu kata dalam percakapan dengan konteks tertentu.
Definisi ini tidaklah bersifat kaku, dan untuk setiap bentuk bahasa alami yang ada biasanya ada pendefinisian lagi yang lebih spesifik sesuai dengan karakter bahasa tersebut. Pada beberapa masalah mungkin hanya mengambil beberapa dari pendekatan tersebut, bahkan mungkin ada yang melakukan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dari sistem yang dibentuk.
Selain yang sudah disebutkan diatas, masih ada lagi satu lagi satu masalah yang cukup menantang dalam Natural Language yaitu ambiguitas atas makna ganda dari suatu kata atau kalimat. Dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda dan masing-masing dapat bernilai benar tergantung pada keperluan pemakai. Hal ini dapat terjadi pada hampir semua tingkatan pendekatan di atas. 

E. Aplikasi pada Bidang Pengolahan Bahasa Alami

Ada dua jenis aplikasi yang dapat dibuat pada bidang ini yaitu: text-based application dan dialogue-based application. Pada text-based application mencakup segala macam applikasi yang melakukan proses terhadap teks tertulis, seperti misalnya buku, berita di surat kabar, e-mail, dan sebagainya. Contoh penggunaan dari text-based application adalah:
  1. Mencari topik tertentu dari buku di perpustakaan
  2. Mencari isi dari surat atau e-mail
  3. Menterjemahkan dokumen dari satu bahasa ke bahasa lainnya
Akan tetapi tidak semua sistem yang dapat melakukan hal-hal seperti di atas menggunakan pendekatan Natural Language, karena seperti misalnya contoh pencairan topik dari sebuah buku di perpustakaan dapat didekati dengan sistem database yang cukup lengkap. Tetapi jika dihadapkan pada pertanyaan yang cukup kompleks dengan bahasa alami yang ada maka akan dirasakan bahwa pendekatan dengan Natural Language lebih efisien. Salah satu bentuk yang cukup menarik adalah apabila sistem diminta untuk mencari isi dari suatu berita atau artikel, untuk hal ini pendekatan yang dilakukan hampir serupa dengan pendekatan yang dilakukan manusia apabila menghadapi suatu tes reading and comprehension.
Bentuk selanjutnya yaitu dialogue-based application. Idealnya pendekatan ini melibatkan bahasa lisan dan pengenalan suara, akan tetapi pendekatan ini juga memasukkan interaksi dengan cara memasukkan teks pertanyaan melalui keyboard. Aplikasi yang sering ditemui dalam bidang ini antara lain:
  1. Sistem tanya jawab, dimana natural language digunakan untuk mendapatkan informasi pada database.
  2. Sistem otomatis pelayanan melalui telepon.
  3. Kontrol suara pada peralatan elektronik.
  4. Sistem problem-solving yang membatu pada pemecahan masalah yang umum yang dihadapai dalam suatu pekerjaan.
Sebelumnya perlu diberikan batasan bahwa untuk sistem yang dapat melakukan interaksi melalui bahasa lisan masuk ke dalam bagian terpisah, yaitu speech recognition yang terpisah dari natural language.

F. Gramatika

Grammar suatu bahasa dapat dilihat sebagai suatu aturan yang menentukan apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut. Grammar dari Chomsky Hierarchy yaitu Context Free Grammar memiliki sifat lebih mudah dipahami perilakunya dan pengolahannya serta masih dapat diolah dalam bentuk program yang terstruktur. Suatu bahasa L dapat dijelaskan sebagai set dari string, dimana string dibentuk dari bagian terkecil yang disebut symbol. Kelompok tertentu v dari symbol biasa dikenal sebagai alfabet atau perbendaharaan kata. Sebuah kalimat yang dapat dikenali dibentuk dengan berdasarkan aturan-aturan yang ada yang biasa disebut grammar. Sebuah grammar G dapat dibentuk dari 4 tuple yaitu: simbol non terminal, simbol terminal, simbol awal, dan aturan penulisan atau (rules). Definisinya adalah sebagai berikut: 


Suatu kalimat tersebut apabila dicari pembentukannya melalui grammar G dapat dikatakan benar akan tetapi harus diingat bahwa kalimat dengan grammar yang benar hanya berarti benar secara struktural bukan berarti selalu benar dalam makna. Seperti kalimat ketika yang benar apabila berada dalam konteks “orang memakai alat” misalnya pesawat terbang. Sedangkan kalimat keempat justru sama sekali tidak mungkin dapat dimengerti maknanya, selain hanya akan menimbulkan tanda tanya bagi orang yang membaca. Dari grammar dapat mempelajari bahasa dari segi struktur dan bukan dari segi makna bahasa itu sendiri.

G. Chomsky Hierarchy of Generative Grammar

Noam Chomsky menyusun grammar dalam urutan yang dia sebut tipe 0, 1, 2, 3, dan seterusnya. Tipe 0 adalah bentuk yang paling bebas dan paling sulit dikenali, dapat disebut recursively enumerable set, untuk mengenali bentuk ini biasa dipakai Turing Machine. Berikutnya adalah tipe 1 yang disebut context sensitive grammar. Tipe 2 dari grammar yaitu context free grammar dinyatakan dengan aturan umum yaitu: <symboll> → <symboll>...<symboll> dengan k ≥ 1 dan bagian kiri dari rule adalah single non terminal symbol. Grammar tipe 3 bernama finite state atau reguler grammar, tipe ini paling sederhana dan mudah dipahami sifatnya. 
Secara umum dikatakan bahwa pemakaian context free grammar secara murni (tanpa tambahan metode tertentu) adalah tidak cukup untuk pengolahan bahasa alami. Akan tetapi karena bentuk context free dan reguler grammar tersebut yang paling banyak dipahami perilaku dan pengolahannya, maka beberapa cara telah dikembangkan untuk dapat melakukan pengolahan bahasa alami dengan bentuk grammar tersebut. 

H. Parsing

Parsing merupakan suatu proses menganalisa suatu kumpulan kata dengan memisahkan kata tersebut dan menentukan struktur sintaksis dari tiap kata tersebut. Gramatika yang dipakai juga sangat berkaitan dengan proses parsing apa yang digunakan. Pada Bottom-Up Parsing gramatika yang dipakai akan lebih banyak bercabang ke arah simbol non-terminal. Hal lain yang juga berkaitan erat dengan proses parsing adalah kamus atau leksikon yang digunakan. Dalam leksikon disimpan daftar kita yang akan dapat dikenali sebagai simbol terminal dalam grammar dan informasi yang diperlukan untuk tiap kata tersebut untuk proses parsing yang bersangkutan. 
Dari pendekatan dalam mengenali struktur suatu kalimat, proses parsing dapat dibagi menjadi dua bagian besar yaitu Top Down Parsing dan Bottom Up Parsing. Top Down Parser memulai pemeriksaan dari simbol awal S dan mencoba untuk mencari bentuk simbol terminal berikutnya yang sesuai dengan jenis kata dari kalimat masukan. Cara sebaliknya diterapkan untuk Bottom Up Parser
yaitu mencari dari simbol-simbol terminal menuju ke arah pembentukan simbol awal S.

I. Semantik

Semantic analyzer mempunyai himpunan rule dalam basis pengetahuan untuk menginterprestasikan sebuah kalimat.
 

Kalimat “A plane flew home” men-trigger rule 1 yang mengidentifikasi plane sebagai subyek, lalu rule 2 menjelaskan bahwa plane flew. Rule 3 dan 4 mengidentifikasikan home sebagai obyek. 
Natural language processing dapat dipakai sebagai front (bagian depan) pada sistem AI, dimana data dilewatkan secara verbal. Pendekatan yang dipakai adalah pendekatan Semantic Grammar yang dipadukan dengan Directory tambahan dan Template Grammar. Semantic grammar sebagai grammar utama dipilih dengan alasan dalam grammar ini sudah terkandung unsur semantic yang dapat membantu pembentukan semantic dari kalimat. Selain itu juga karena format dari kalimat sudah dibatasi pada bentuk tertentu (representasi dari tabel) maka grammar ini dapat diandalkan terutama untuk bentuk-bentuk tanya dan perintah. 
Mendefinisikan semantic dan arti sebenarnya adalah proses yang sulit karena hal ini tergantung pada maksud dalam kalimat dan juga adanya kemungkinan arti lain dalam kalimat. Seperti misalnya “makan hati” dapat diartikan makan dengan lauk hati atau perasaan sedih yang ada pada hati seseorang, tergantung pada letaknya dalam kalimat. Apabila terdapat pada kalimat; karena baru mendapat rezeki anak itu makan hati di restoran; maka artinya adalah yang pertama tetapi jika pada kalimat; dia makan hati karena ditinggal pergi pacarnya; berarti yang kedua.

J. Semantic Grammar

Pada semantic grammar, dipakai sekumpulan rule yang bukan hanya bersifat sintaksis, akan tetapi juga bersifat semantris dan pragmatis. Hasil dari proses parsing dengan menggunakan grammar tersebut adalah langsung berupa representasi semantris dari kalimat yang diolah. Dapat dilihat pada contoh dengan domain sistem jadwal penerbangan pesawat udara:


Grammar untuk sistem ini pada umumnya dikenal sebagai:



Tetapi perlu diingat bahwa grammar tersebut masih bersifat umum, masih memungkinkan terjadi kesalahan karena luasnya jangkauan grammar seperti:


Untuk itu maka dilakukan pembatasan dengan jalan memberikan kategori leksikal baru pada suatu kata yang berdasarkan pada keperluan semantris. Dapat kita gambarkan bahwa pada:


Dengan demikian kita sudah melakukan pembatasan bahawa yang mungkin dibentuk untuk benda dari suatu sistem adalah “the flight” dan “flight” tidak untuk yang lain. Peru diingat perubahan iini juga akan merubah kata yang lain misalnya “Chicago” dari NP menjadi CITY-NAME. Secara lengkap maka grammar diatas tadi berubah menjadi:


Dari grammar dasar diatas dapat dibentuk grammar tambahan misalnya untuk pertanyaan:


Dengan pendekatan ini, interprestasi dari rule yang bersangkutan menjadi lebih mudah karena sebagian besar dari informasi semantik yang diperlukan dapat dilihat dari rule yang digunakan. Kekurangan dari pendekatan ini adalah domain sistem yang tidak begitu besar, dimana domain yang baru akan memerlukan aturan yang baru yang sesuai. Selain itu juga terjadi pengbengkakan jumlah rule yang diperlukan, hal ini karena dengan langsung mengacu ke semantic maka banyak generalisasi linguistik yang harus diperinci lebih jauh. Seperti pada contoh diatas kita harus memisahkan antara NP untuk “flight” dan “Chicago” menjadi FLIGHT-NP dan CITY-NAME.

K. Daftar Pustaka

Anonim, 2010, “Bab 3 Pengolahan Bahasa Alami”, diakses dari http://lecturer.eepis-its.edu/~kangedi/materi%20kuliah/Kecerdasan%20Buatan/Bab%205%20Natural%20Language%20Processing.pdf, pada tanggal 6 April 2011, pukul 22.42 WIB.
Kurnianti, Ria, 2010, “Tugas Kecerdasan Buatan – Komponen Utama pada AI”, diakses dari http://www.scribd.com/doc/45930012/tugas-1, pada tanggal 6 April 2011, pukul 22.32 WIB.
Pmatsub09, Nurmanita Prima, 2010, “Natural Language Prcessing (NLP)”, diakses dari http://blog.math.uny.ac.id/nurmanita/2010/01/15/natural-language-processing/, pada tanggal 6 April 2011, pukul 22.34 WIB.



0 komentar: