हडूप (HADOOP) भाग - ३

बिग डाटा ( Big Data)

 सध्या सर्व उद्योग व्यवसाय आपल्या उत्पादित वस्तू वा सेवा यांच्या वाढीसाठी जनतेतील मतप्रवाह, आवडीनिवडी यांचा अभ्यास करण्यासाठी प्रयत्न करीत असतात. जगात विविध साधनांद्वारे निर्माण होणार्‍या माहितीचा आवाका किती मोठा आहे याचा अंदाज आला तर त्याचे विश्लेषण करण्यासाठी वापल्या जाणार्‍या  हडूपच्या कार्यप्रणालीचे महत्व लक्षात येईल.  

 

माहिती निर्मितीची साधने

१. वेबसाईटवरील माहिती-

इंटरनेटवरील माहितीसाठा प्रचंड वेगाने वाढत आहे. माहितीचे स्वरूपही टेक्स्ट, चित्रे, फोटो, ध्वनीफीत, व्हिडीओ अशा विविध प्रकारचे आहे. आताच्या घडीला एकूण किती वेबसाईट आहेत हे पहायचे असेल तर खालील लिंक उघडा.

http://www.internetlivestats.com/watch/websites/

 हा लेख लिहिताना मला मिळालेला आकडा 1,030,309,613 हा होता. त्यात दर सेकंदाला वाढ होत आहे. या  वेबसाईटवर एकूण पाने व मजकूर किती आहे याची मोजदाद याच्या कितीतरीपट अधिक असेल. शिवाय वेबसाईट पाहणार्‍यांचे अभिप्राय व ते घालत असलेली इतर विविध प्रकारची माहिती क्षणोक्षणी वाढत आहे.

२. सर्व मालाची विक्री होत असताना होणारा चलन विनियम ( रोख पैसे, चेक, क्रेडिट व डेबिट कार्ड) तसेच ग्राहकाचे फेसबुक, ट्विटर वा अन्य सोशल मिडीयावर येणारे अभिप्राय.

३. विविध प्रकारच्या इलेक्ट्रॉनिक सेन्सॉरद्वारे प्रसारित केलेले संदेश

४. टेलिफोन, स्मार्टफोन इत्यादी साधनांद्वारे होणारे संभाषण

 

 साहजिकच शोधप्रणालीच्या कार्यपद्धतीत हा साठा कॉम्प्युटरवर साठवून ठेवण्यासाठी लागणारी मेमरीची गरजही कल्पनातीत वाढली आहे. अशा मोठ्या माहिती साठ्याला बिग डाटा असे म्हटले जाते.

 

एका A4 आकाराच्या कागदावर लिहिला मजकूर साठवून ठेवण्यासाठी २ केबी मेमरी पुरेशी होते. मात्र चित्र फोटोसाठी २० पासून २००० केबी एवढी मेमरी लागू शकते. आवाज साठविण्यासाठी दर मिनिटाला १००० केबी ( १ एम्.बी) मेमरी लागते तर व्हिडीओसाठी याच्या दहापट मेमरीची आवश्यकता असते. वर नमूद केल्याप्रमाणे जगातील सार्‍या वेबसाईटवरील एकूण माहितीची मोजदाद करण्यासाठी मेमरी मोजण्याचे परिमाणही बदलावे लागते.

 

एक अक्षर म्हणजे एक बाईट, १००० अक्षरे म्हणजे १केबी ( द्विमान पद्धतीप्रंमाणे अचूक म्हणजे १०२४ बाईट) , १००० केबी म्हणजे १ एमबी, १००० एमबी म्हणजे १ जीबी ( गीगाबाईट), १००० जीबी म्हणजे १ टीबी ( टेराबाईट) येथपर्यंत मेमरीची परिमाणॆ आपल्या परिचयाची असतील. याच प्रकारे अधिक मोठी परिमाणे पेटाबाईट ( १००० टीबी), एक्झाबाईट (१००० पेटाबाईट), झेटाबाईट(१००० एक्झाबाईट) व योटाबाईट (१००० झेटाबाईट) अशी परिमाणे वापरण्याची वेळ आता आली आहे.

 

 सुदैवाने मेमरी साठविण्याच्या साधनांमध्येही सुधारणा होऊन प्रचंड मेमरी साठा करू शकणार्‍या हार्ड डीस्क व माहिती विश्लेषण करणार्‍या  फ्लॅश  मेमरी चिप विकसित झाल्या असून त्यांच्या किंमतीही कमी होत आहेत.

बिग डाटा हा शब्दप्रयोग केवळ माहितीच्या स्थाय़ी साठ्यासंबंधी वापरला जात नसून माहितीवहनाचे आकारमान व वेग तसेच त्यात होणारे फेरबदल यांचाही बिग डाटामध्ये समावेश केला जातो. कारण माहितीचे विश्लेषण करताना या गोष्टीही अत्यंत महवाच्या असतात.

 

हडूप कार्यप्रणाली अशा महाकाय व सतत बदलत असणार्‍या माहितीप्रवाहावर कार्य करून आवश्यक ते निष्कर्ष अहवाल  तयार करू शकते.