Deduplikasi adalah metode memangkas data yang berlebihan dari kumpulan data. Dalam proses deduplikasi data yang aman, alat penilaian deduplikasi mengidentifikasi salinan data tambahan dan menghapusnya, sehingga hanya satu data yang tersimpan.

Software deduplikasi umumnya menganalisis data untuk mengidentifikasi pola yang terduplikat atau ganda. Dengan cara ini, software deduplikasi memastikan pola tunggal dan valid, kemudian menggunakan tersebut sebagai referensi. Permintaan lebih lanjut untuk menyimpan pola yang sama akan menghasilkan pointer tambahan ke pola yang disimpan sebelumnya.

Deduplikasi data memungkinkan pengguna untuk mengurangi data yang berlebihan dan mengelola aktivitas pencadangan dengan lebih efektif, hemat biaya, dan beban lebih ringan.

 

Apa Itu Deduplikasi Data? 

Ada lebih dari satu jenis deduplikasi data. Pada dasarnya, proses tersebut terjadi pada file tunggal,lalu menghilangkan file yang serupa. Ini juga disebut Single Instance Storage (SIS) atau deduplikasi bertingkat. 

Pada tingkat berikutnya, deduplikasi mengidentifikasi dan menghilangkan segmen data serupa yang berlebihan, bahkan ketika file tempat data berada tidak sepenuhnya identik. Ini disebut deduplikasi tingkat blok atau deduplikasi sub-file, dan akan mengosongkan ruang penyimpanan. 

Kebanyakan orang berasumsi bahwa deduplikasi berada pada tingkat blok. Jika mereka mengacu pada deduplikasi tingkat file, biasanya akan merubahnya.

Sebagian besar deduplikasi tingkat blok terjadi pada batas blok tetap, tetapi ada juga deduplikasi panjang atau deduplikasi blok variabel, di mana data dipisahkan pada batas blok yang tidak tetap. Setelah dataset telah dipecah menjadi serangkaian potongan data kecil, disebut sebagai potongan atau pecahan, biasanya sisa tetap sama.

Sistem deduplikasi menjalankan setiap pecahan melalui algoritme hashing, seperti SHA-1, SHA-2, atau SHA-256, yang membuat alfa-numerik kriptografi (disebut sebagai hash) untuk pecahan. 

Nilai hash pada tabel kemudian diproses atau database hash untuk melihat apakah itu pernah terbaca sebelumnya atau tidak. Jika belum pernah terlihat sebelumnya, pecahan baru ditulis ke penyimpanan dan hash ditambahkan ke tabel/database hash; jika tidak, akan dihapus.

 

Manfaat dari deduplikasi?

Bayangkan berapa kali Anda membuat perubahan kecil pada dokumen. Pencadangan tambahan akan mencadangkan seluruh file, meskipun Anda mungkin hanya mengubah sedikit. Setiap aset bisnis penting memiliki potensi untuk menyimpan data duplikat. Di banyak organisasi, hingga 80 persen data perusahaan adalah duplikat.

Pelanggan yang menggunakan deduplikasi target (juga disebut deduplikasi sisi target), di mana proses deduplikasi berjalan di dalam sistem penyimpanan setelah data asli disimpan di sana, dapat menghemat banyak biaya, pendinginan server, ruang lantai, dan pemeliharaan. 

Baca juga: 5 Tips Memilih Server untuk Bisnis Anda di Tahun 2021

Seseorang yang menggunakan deduplikasi source (juga disebut deduplikasi sisi sumber, atau deduplikasi sisi klien), di mana redundan diidentifikasi pada sumbernya sebelum dikirim melalui jaringan, dapat menghemat biaya baik pada penyimpanan maupun bandwidth jaringan. Karena segmen data yang berlebihan diidentifikasi terlebih dahulu sebelum dikirim.

Source deduplication atau deduplikasi sumber, mampu berjalan baik dengan penyimpanan cloud dan dapat meningkatkan kecepatan pencadangan. Mengurangi jumlah permintaan proses pencadangan data dan bandwidth jaringan, deduplikasi menyederhanakan proses pencadangan dan pemulihan. Untuk memutuskan kapan menggunakan deduplikasi, pertimbangkan apakah bisnis Anda dapat memperoleh manfaat dari peningkatan ini.

 

Contoh Deduplikasi

Sebagai contoh, seorang manjaer mengirimkan 500 salinan file 1 MB yang sama, laporan prospek keuangan dengan grafik, ke seluruh tim. Server perusahaan mampu menyimpan semua 500 salinan file itu. 

Jika semua kotak masuk kemudian menggunakan sistem pencadangan data, semua 500 salinan disimpan, menghabiskan 500 MB ruang server. Namun, dengan sistem duplikasi data tingkat hanya akan menyimpan satu contoh laporan. Setiap contoh lain hanya merujuk kembali ke salinan tunggal yang disimpan itu. Ini berarti bandwidth akhir dan beban penyimpanan di server hanya 1 MB dari data unik.

Contoh lain adalah apa yang terjadi ketika perusahaan melakukan pencadangan file tambahan file lengkap, di mana hanya beberapa yang diubah, dan kadang-kadang melakukan pencadangan penuh karena menggunanakn pola lama dalam sistem pencadangan. 

Server file 10 TB akan membuat 800 TB cadangan untuk delapan minggu, dan mungkin 8 TB atau lebih cadangan tambahan selama jumlah waktu yang sama. Sistem deduplikasi yang baik dapat mengurangi 808 TB ini hingga kurang dari 100 TB – tanpa menurunkan kecepatan pemulihan.

 

 

Kelayakan Deduplikasi

Rasio deduplikasi mengacu pada rasio jumlah data yang akan dikirim atau disimpan tanpa deduplikasi, vs jumlah yang disimpan dengan deduplikasi. 

Deduplikasi dapat berdampak besar pada ukuran cadangan, menguranginya hingga 25:1 dalam pengaturan pencadangan perusahaan standar. Ini tergantung pada seberapa banyak data duplikat yang ada dan seberapa efisien algoritma deduplikasi file.

 

Post-process Deduplication

Post-process Deduplication (PPD) mencirikan sistem di mana perangkat lunak deduplikasi mengidentifikasi dan menghapus data yang berlebihan hanya setelah berada dalam sistem penyimpanan data deduplikasi target. 

Teknik ini mungkin diperlukan jika tidak memungkinkan atau tidak efisien untuk menghapus data duplikat selama transfer atau sebelumnya. Kadang disebut sebagai deduplikasi asinkron, karena proses dedupe sering dilakukan saat pencadangan, tetapi setiap segmen hanya dideduplikasi setelah pertama kali disimpan

 

Penerapan Deduplikasi

Cara terbaik untuk menerapkan teknologi deduplikasi data akan berubah tergantung pada tujuan perlindungan data pengguna, vendor deduplikasi data yang digunakan, dan jenis aplikasi deduplikasi yang dimaksud. 

Misalnya, alat deduplikasi cadangan atau solusi penyimpanan sering kali menyertakan teknologi deduplikasi.

Namun, teknologi deduplikasi dokumen umumnya digunakan untuk semua kalangan bisnis. Perbedaan di sini tidak hanya menyangkut di mana, tetapi kapan — sebelum penyimpanan di sistem cadangan atau setelah data sudah ada di sana — proses deduplikasi berlangsung.

 

Hubungan Antara Enkripsi dan Deduplikasi

Ada hubungan yang erat antara deduplikasi dan enkripsi karena hanya dapat mendeteksi data duplikat dan menghapusnya jika dapat membaca data tersebut. Dapat dikatakan bahwa enkripsi apa pun harus selalu terjadi setelah proses deduplikasi. Jika itu terjadi sebelum proses deduplikasi, tidak ada data duplikat yang akan ditemukan.