Beberapa waktu lalu mendapat tugas dari salah satu mata kuliah yang saya ambil semester ini yaitu software testing. Tugas ini bertujuan untuk memastikan kehandalan software sebelum digunakan oleh pengguna. Sebagai objek software untuk di test, saya memutuskan menggunakan module sentiment analysis yang sempat saya buat awal tahun 2017 ini yaitu sentiment analysis bahasa Indonesia berbasis web dengan metode Naive Bayes.
Sentiment analysis merupakan salah satu bidang dalam text mining yang bertugas untuk klasifikasi sentimen sebuah data text. Sentimen dalam hal ini adalah kecenderungan sebuah data text berbicara hal positif, netral atau negatif mengenai suatu hal.
Penggunaan sentiment analysis, khususnya bagi negara dengan pengguna social media yang besar seperti Indonesia sangat penting karna dapat mempengaruhi berbagai keputusan. Dengan menggunakan sentiment analysis, organisasi bisnis misalnya dapat mengetahui produk mana yang disukai dan tidak disukai konsumen. Dalam bidang politik, sentiment dapat membantu dalam prediksi pemenang Pemilu dari data text social media yang dianalisis.
Aplikasi sentiment analysis yang dikembangkan merupakan module sentiment analysis yang dimodifikasi dari project phpInsight. Aplikasi ini menggunakan metode probabilitas Naive Bayes sebagai classifier. Secara sederhana metode Naive Bayes merupakan metode klasifikasi dengan perhitungan probabilitas sederhana dengan mengaplikasikan Teorema Bayes dengan asumsi yang kuat (naif) bahwa setiap kejadian independen atau tidak tergantung dengan kejadian lain.
Github: https://github.com/yasirutomo/php-sentianalysis-id
Artikel ini tidak membahas proses perhitungan Naive Bayes yang dapat ditemukan dengan mudah diberbagai artikel, ataupun proses coding secara step-by-step. Walau demikian, proses ini dapat dimengerti dengan sangat mudah karna menggunakan bahasa PHP yang sudah umum dengan struktur yang rapi. Bagi yang tertarik untuk mempelajari prosesnya atau memodifiaksi algoritmanya, penentuan hasil sentiment dilakukan pada file /lib/PHPInsight/Sentiment.php pada project Github php-sentianalysis-id yang telah saya upload.
Untuk Modifikasi
Saat ini, hasil prediksi sentimen analysis aplikasi ini sangat bergantung pada dataset dan data yang diuji. Dataset yang digunakan merupakan kumpulan kata yang sesuai dengan ejaan baku bahasa Indonesia sehingga cocok untuk data uji dengan ejaan baku juga. Penyesuaian selanjutnya dapat dilakukan dengan melakukan perubahan dataset yang terdapat pada directory lib/PHPInsight/.