Jakarta (ANTARA) - Saat ini internet khususnya media sosial, menjadi alternatif yang sangat menarik sebagai media bebas bagi banyak orang yang tidak dapat mengekspresikan diri melalui media konvensional (koran, televisi dan radio).
Terlepas dari banyaknya informasi yang tidak baik (kebohongan/hoaks, cacian, makian), sebenarnya banyak juga informasi yang tersaring dan teraudit dengan baik dari media-media daring (online).
Pertanyaan sederhana sering ditanyakan dalam dunia usaha yaitu: Apa pendapat masyarakat tentang produk yang dibuat?, Siapa saja kompetitor di bidang usaha yang kita lakukan?, Apakah merek/brand kita cukup dominan di masyarakat?
Untuk menjawab pertanyaan di atas secara presisi, kita perlu mengambil semua berita maupun Twitt yang ada di internet dan menghitungnya secara statistik untuk memperoleh gambaran yang benar dan menyeluruh.
Banyak teknik-teknik untuk dapat mengekstrak berbagai informasi yang ada di internet untuk sebuah topik tertentu, dan melihat hubungannya dengan berbagai kata kunci (keyword) yang terkait dengan topik tersebut.
Sebuah buku berjudul Text Mining: Analisis Medsos, Kekuatan Brand dan Intelejen di Internet mengulas secara lengkap dan praktis untuk melakukan penambangan Teks (Text Mining) dengan menggunakan bahasa pemrograman Python.
Buku tersebut hasil pemikiran dari seorang pakar di bidang teknologi informasi yaitu Onno W. Purbo, pria yang lahir di Bandung, Jawa Barat, pada 17 Agustus 1962. Bermula dari keinginan Onno untuk menganalisis apa yang terjadi dalam Pilkada DKI 2017 dengan mengambil data dari media sosial dan mengolahnya menggunakan Python.
Kepakaran Onno W.Purbo tidak perlu diragukan lagi dengan banyaknya buku dan tulisan yang dihasilkan serta berbagai penghargaan telah diraihnya di bidang teknologi informasi. Tahun 2017, ia menerima penghargaan "MASTEL Award" kategori Community Development, dari Masyarakat Telematika (MASTEL), seperti yang dikutip dari laman http://onnocenter.or.id.
Apa itu Text Mining?
Text mining adalah proses untuk memperoleh informasi berkualitas tinggi dari sekumpulan besar teks dokumen menggunakan beberapa metodologi dan perangkat pendukung (tools) untuk menemukan (discovering), memvisualisasikan (presenting) dan mengevaluasi pengetahuan.
Informasi berkualitas tinggi biasanya diperoleh dengan memperhatikan pola dan tren yang dihasilkan dari pengolahan teks menggunakan metode statistik.
Analisis teks melibatkan pencarian informasi, analisis leksikal untuk mempelajari distribusi frekuensi kata, pengenalan pola, penandaan (tagging) dan ekstraksi informasi melalui aplikasi Natural Language Processing (NLP) dan metode analisis.
Text Mining digunakan oleh perusahaan-perusahaan media besar (antaranews.com) untuk mengklarifikasi informasi dan memfasilitasi pembaca dengan pencarian yang lebih baik, yang pada akhirnya akan meningkatkan loyalitas pembaca “stickiness” portal, dengan demikian dapat berdampak kepada pendapatan portal tersebut.
Aplikasi-aplikasi turunan yang memanfaatkan Text Mining sebagai proses utama mulai berkembang, seperti aplikasi untuk bisnis dan pemasaran, aplikasi analisis sentimen, aplikasi akademik dan lain-lain.
Dari beberapa tujuan yang ingin dicapai dari Teks Mining, dapat dikelompokkan menjadi 4 (empat) kelompok yaitu estimasi (estimation), Prediksi (Prediction), Klasifikasi (Classification), pengelompokkan (Clustering) dan Asosiasi (Association).
Apa itu Bahasa Python?
Phyhon adalah bahasa pemrograman tingkat tinggi (high-level programming language) untuk berbagai tujuan (general purpose), di mana desain Python menitik beratkan pada code readability dan syntax yang memungkinkan programmer untuk mengekspresikan konsepnya dengan kode yang lebih sedikit dari bahasa program lainnya.
Python dapat dijalankan di berbagai platform sistem operasi (Linux/Unix, Windows, Mac OS X, Java Virtual Machine, OS/2). Python didistribusikan dengan beberapa lisensi yang berbeda dari beberapa versi, namun pada prinsipnya Python dapat diperoleh dan dipergunakan secara bebas, bahkan untuk kepentingan komersial.
Lisensi Python tidak bertentangan baik menurut definisi Open Source maupun General Public License (GPL).
Sementara itu, analisis keterhubungan jaringan (network) dan visualisasi menjadi hal yang penting bagi peneliti untuk melihat data dari sudut yang lain. Hasil analisis berupa grafik vektor juga disajikan menggunakan Gephi, sebagai ilustrasi dan perbandingan bagi yang akan mencoba listing program ada di dalam buku ini.
Gephi telah digunakan dalam sejumlah proyek penelitian di bidang akademis, jurnalisme, memvisualisasikan konektivitas global konten dan memeriksa lalu lintas jaringan Twitter.
Tentang Buku
Dalam buku ini dijelaskan secara lengkap dan rinci, setiap tahapan pemrograman dengan Python dengan menggunakan studi kasus Pilkada DKI 2017, sehingga programmer pemula pun dapat mengikuti dengan sangat mudah.
Buku yang diterbitkan oleh Penerbit Andi Yogyakarta tahun 2017 ini sangat praktis dengan jumlah halaman 148 dibagi dalam 10 bab, menjelaskan dari konsep umum sampai dengan teknis pemrograman.
Tahapan-tahapan pemrograman dari awal sampai akhir dijelaskan secara rinci dan mudah, namun saat ini grafik-grafik yang disajikan hanya monokrom. Akan sangat menarik lagi jika semua gambar berwarna, sehingga pembaca langsung bisa membedakan keterkaitan yang kuat dengan yang lemah.
Dalam penyajian kode program (coding) hanya dibedakan dengan jenis huruf saja (font name), akan lebih baik jika ditambahkan pula nomer baris program, sehingga mudah menelusuri dalam pembuatan program.
Dengan demikian harapan penulis, buku ini dapat membantu pembaca untuk memahami internet dengan baik dan dapat memanfaatkannya untuk dunia usaha dalam hal menganalisis kompetitor, mencari ide-ide baru, mencari kebutuhan masyarakat, serta hal-hal yang berbau Merah Putih seperti melakukan kerja-kerja intelijen dalam rangka untuk mempertahankan NKRI.
*) Darwito adalah Magister Ilmu Komputer dari Sekolah Tinggi Manajemen Informatika & Komputer (STMIK) Nusa Mandiri Jakarta