Secara luas, Big Data dapat dikategorikan berdasarkan sumbernya, yakni:
Adapun MGD atau data yang dihasilkan mesin, adalah sumber Big Data terbesar. Sebagai contohnya, kamu dapat melihat pada saat pesawat Boeing maupun AirBus menghasilkan data.
Sensor-sensor, kamera, hingga satelit di pesawat tersebut terus menghasilkan data dari terabyte hingga pentabyte per detiknya secara konstan. Jika data sebesar itu tidak dikelola dengan alat dan kemampuan yang mumpuni, hal ini dapat sangat membahayakan penumpang pesawat.
Jika sensor-sensor di pesawat merupakan contoh MGD di tingkat industri, salah satu MGD di tingkat pribadi yang terdapat di sekeliling kita adalah ponsel cerdas yang kita miliki. Di dalamnya, kerap kali terdapat pelacak aktivitas (activity tracker) yang sebenarnya merupakan contoh lain dari Big Data yang dihasilkan oleh mesin.
Pelacak aktivitas akan merekam suhu tubuh, total langkah yang kita ambil hari ini, detak jantung, hingga kualitas tidur kita. Jika semua orang menggunakan pelacak aktivitas, itu akan menghasilkan sejumlah besar data yang dipersonalisasi.
Kedua, People Generated Data (PGD) atau data yang dihasilkan manusia. Saat ini, hampir semua orang aktif di media sosial. Orang-orang menghasilkan sejumlah besar data di media sosial seperti Facebook, Twitter, dan LinkedIn.
Data juga dapat diambil saat manusia berbagi tulisan melalui situs blog, surat elektronik, dan pesan teks. Terjadi pula bila manusia berbagi foto di Instagram dan Pinterest hingga berbagi video melalui YouTube dan TikTok.
PGD memiliki karakter berupa penuh dengan teks, tidak terstruktur, tidak sesuai dengan mode yang sudah ada (memiliki kolom dan baris seperti MGD), format yang terlalu bervariasi (pdf, ppt, xml, dsb). Oleh karena itulah PGD disebut sebagai data tidak terstruktur.
Baca juga: Manfaat Big Data bagi Perusahaan
PGD juga memiliki beberapa tantangan, yakni memiliki data yang tidak dapat dibaca oleh mesin. Contohnya, data-data yang memuat bahasa slang, gambar-gambar yang belum pernah dipelajari mesin sebelumnya, dan lain sebagainya.
Meski begitu, terdapat banyak sekali insight yang bernilai dalam PGD, menjadikan PGD tidak boleh diabaikan. Hadoop dan NoSQL dapat membantu kita dalam memahami PGD. NoSQL contohnya, yang menyimpan data melalui teks, bukan melalui kolom dan baris.
Untuk Hadoop, karena tidak afdal rasanya jika kita membicarakan Big Data tanpa menyebutkan Hadoop, maka mengenai Hadoop akan kita bahas di bagian setelah Organization Generated Data (OGD) ini.
OGD atau sumber Big Data yang ketiga, dapat dilihat pada perusahaan taksi yang telah beradaptasi ke layanan daring sebagai contohnya, bahkan berkolaborasi dengan platform daring lainnya.
Data yang dihasilkan organisasi sifatnya sangat terstruktur dan dapat dipercaya. Dari data transaksi penjualan hingga pola produk yang terdigitalisasi, kita akan mengetahui apakah terdapat ketidak transparan atau penipuan.
Pada praktiknya, kita kerap kali akan menemui dua atau lebih perusahaan yang bekerja sama dan mengkombinasikan OGD yang mereka miliki untuk menciptakan nilai (value). Big Data memungkinkan kita untuk mengintegrasikan data yang beragam.
Jika dulu sebuah perusahaan hanya mempertahankan data internal, sekarang dapat dikolaborasikan dengan data eksternal.