Hal pertama yang sering kita dengar tentang perbedaan Big Data dengan Data Warehouse (DWH) adalah Big Data untuk data tak terstruktur seperti percakapan di twitter sedangkan DWH untuk data terstruktur seperti record rekening bank Anda. Pernyataan ini sebenarnya tidak sepenuhnya benar karena Big Data juga bisa menangani data terstruktur sedangkan DWH juga bisa diinput dengan data tak terstruktur (seperti BLOB). Untuk lebih lengkapnya, berikut perbandingan Big Data dan DWH:
- Big Data teroptimasi untuk mengolah data tak terstruktur. File dalam HDFS atau hadoop secara sederhana seperti file yang kita miliki dalam folder windows explorer atau handphone. Kita bisa menaruh file apapun di dalamnya seperti file foto, video, dan lain-lain. Itulah maksudnya teroptimasi untuk data tak terstruktur. Dilain pihak, DWH justru teroptimasi untuk data terstruktur seperti tabel. Pada data terstruktur, tipe data terdefinisi dengan jelas misalnya nama orang bertipe varchar dengan ukuran 50 karakter. Selain itu secara default terdapat primary key untuk menjaga keunikan seluruh data.
- Schema on the fly atau sederhananya "schema tabel belakangan saja". Ketika kita melakukan memasukkan data dan memanipulasinya di RDBMS, kita harus mempertimbangkan schema data dari awal. Misalnya apakah nomor kartu kredit disimpan sebagai bilangan integer atau karakter string. Keputusan pemilihan ini harus konsisten untuk setiap table karena berpengaruh ketika analysis memerlukan operasi join beberapa tabel. Hal tersebut tidak berlaku pada Big Data. Schema dapat diset dan diubah belakangan
Bagaimana dengan ukuran data? Perbedaannya adalah bagaimana teknologi Big Data (Hadoop related) menangani data berukuran besar. Big Data memang dari awal didesain untuk bisa menangani data berukuran besar dengan mendistribusikan data tersebut ke banyak server. Ketika server-server tersebut penuh, kita bisa menambahkan server baru (node) untuk menambah kapasitasnya. Pada DWH hal tersebut tidak dimungkinkan, ketika server melebihi kapasitasnya, kita diharuskan untuk membeli server yang baru yang lebih besar.
![]() |
| Menambahkan Node Baru di Cloudera hanya dengan menggunakan wizard. Node baru bisa digunakan untuk menambah kapasitas Big Data |

makasih
ReplyDelete