Sekilas teknologi DeepSort, mesin pengolahan data tercepat di dunia


Samsung Electronics kemarin mengumumkan bahwa software sorting engine miliknya, DeepSort, telah memecahkan rekor dunia dalam kompetisi sort benchmark, dengan keberhasilannya menganalisa dan mereorganisasi 3,7TB data dalam 60 detik, lebih dari dua kali lipat rekor sebelumnya yang hanya 1,5TB dalam MinuteSort benchmark, tolok ukur industri pada jumlah sistem data yang dapat dipilah-pilah dalam satu menit.

DeepSort secara signifikan meningkatkan efisiensi kinerja dan pemanfaatan sumber daya pengolahan data di data center berskala besar. Lebih mengesankan lagi adalah fakta bahwa ini semua dilakukan dengan penerapan dan efisiensi biaya, dimana Samsung tidak membangun sebuah sistem raksasa baru hanya untuk ikut kompetisi ini, namun itu menggunakan hanya 384 server komoditas dengan HDD. Dengan berfokus pada software, tim pengembangan datang dengan sistem yang scalable hingga setidaknya 1.000 server dengan ruang untuk perbaikan lebih lanjut dengan hardware yang lebih baik (seperti SSD).

DeepSort adalah distribusi mesin sortasi umum yang dioptimalkan agar memenuhi unsur scalable dan efisien. DeepSort memungkinkan aliran data lancar yang membagi ruang memori yang terbatas dan meminimalkan pergerakan data, yang membuatnya menjadi sangat efisien dalam skala besar.

Pada dasarnya, hal tersebut akan memaksimalkan utilitas kemampuan hardware dengan menghilangkan bottlenecks antara prosesor/memori/storage (penyimpanan) dalam server (mengoptimalkan algoritma sorting), dan pada hubungan antara server (optimalisasi jaringan).


Zheng Li, Cloud Research Lab, Samsung Research America Silicon Valley, dan Juhan Lee, Vice President, Intelligence Solution Team, Samsung Software R&D Center, orang-orang di belakang DeepSort, menggambarkan desain keseluruhan dari DeepSort melalui DeepSort: Sorting Scalable dengan Efisiensi Tinggi:

"Record pertama diambil dari source disk ke memori, disorting (diurutkan), dan didistribusikan ke node tujuan, bergabung dengan record lain berdasarkan pesanan, dan akhirnya ditulis ke disk tujuan. Ketika jumlah data lebih besar dari kapasitas agregat memori, beberapa round dari sorting intermediate akan dieksekusi. Round final menggabungkan data intermediate yang tumpah dari tahapan sebelumnya. Input dari record yang belum disorting akan didistribusikan secara merata di seluruh node, dan output juga didistribusikan berdasarkan partisi utama."

Penjelasan lebih rinci bisa dibaca melalui slide PDF berikut ini.




DeepSort mengatur record menggunakan 384 node server untuk Sort Benchmark Competition 2014 dengan masing-masing server memiliki spesifikasi CPU: prosesor 6-core 2.1GHz Intel Xeon, memori 64GB, 8 HDD 7200 RPM HDD, 10Gbps Ethernet Port dan CentOS 6.4/ext4 file system. Seperti dibahas di atas, DeepSort akan mengeluarkan sebuah kinerja yang lebih baik dengan lebih banyak server atau hardware yang lebih baik, tapi itu bukan poin utamanya. Bagaimanapun, dengan DeepSort, Samsung menemukan keseimbangan yang optimal dari algoritma, jaringan, dan server yang secara efisien lebih cepat dan pengolahan data yang efisien, yang menarik bagi banyak orang.

Teknologi di balik DeepSort tidak benar-benar mudah untuk dipahami sepenuhnya, tapi mengetahui bagaimana hal itu bekerja tentunya adalah sesuatu yang menarik. Dengan DeepSort, Samsung menekankan bahwa ia ingin membangun dasar yang kokoh untuk Internet of Things (IoT), terutama untuk berbagai produk dan aplikasi yang terkait dengan platform Tizen, Smart Home dan IoT.

Pengolahan data tidak hanya untuk mesin pencari situs web (search engines websites). Pengolahan data merupakan bagian penting dari meningkatkan kualitas aplikasi atau layanan yang kita gunakan sehari-hari. Sebagai contoh, Samsung Smart TV dan aplikasi Milk Music mengandalkan pengolahan data untuk merekomendasikan acara TV atau musik berdasarkan pada preferensi dan history Anda. Banyak aplikasi yang terhubung internet atau layanan yang menyediakan pengguna dengan informasi yang diinginkan dimungkinkan karena adanya pengolahan data yang cepat dan akurat. Dan karena kita menghadapi era IoT yang tak terelakkan, pengolahan data telah menjadi sesuatu yang lebih relevan daripada sebelumnya. Jadi, pengolahan data telah menjadi hal besar di dunia teknologi dan informasi.


Via Samsung Tomorrow


Comments