हडूप (HADOOP) भाग - ४

एचडीएफएस - हडूप डिस्ट्रिब्युटेड फाईल सिस्टीम - म्हणजे  माहितीची साठवण करण्यासाठी एकूण माहितीचे  अनेक छोट्या माहितीसंचांच्या स्वरुपात भाग करून सुरक्षेसाठी त्यांच्या अनेक प्रती विविध ठिकाणी ठेवण्याची व त्यावर आवश्यक ती प्रक्रिया करण्याची सुविधा. एचडीएफएस प्रणालीचे डिझाईन जावा प्रोग्रॅममध्ये केलेले असते.

 

 या योजनेत माहितीचे परिशीलन, विश्लेषण वा गणिती प्रक्रिया करण्याची कामे ( जॉब ) नियंत्रित करण्यासाठी कार्यनियंत्रकाची ( जॉब ट्रॅकर) व्यवस्था असते. माहिती साठ्यासाठी वा विश्लेषणासाठी जे कॉम्पुटर्स वापरले असतील त्यांचा एक समूह ( क्लस्टर) करून त्यावरील माहिती व प्रक्रिया नियंत्रणाचे कार्य एका जॉब ट्रॅकरद्वारे केले जाते. यामध्ये प्रत्येक माहितीसंच वा कार्य निश्चित कोणत्या हार्ड्डिस्कवर कोठे  आहे (नेटवर्क स्विच)  त्याची नोंद जॉब ट्रॅकर ठेवतो व अशा कोणत्याही ठिकाणी हार्डवेअरमधील बिघाडामुळे व्यत्यय आला तर त्याजागी दुसरीकडील त्याची प्रत कार्यान्वित करण्याचे व त्यात समन्वय राखण्याचे कार्य जॉब ट्रॅकरद्वारे केले जाते. तसेच माहितीच्या आकारमानाप्रमाणे समूहात असणार्‍या कॉम्प्युटर्सची संख्या बदलण्याची क्षमता या जॉब ट्रॅकर प्रणालीत असते.

 

 छोट्या हडूप क्लस्टरमध्ये (कॉम्पुटर्सचा समूह) एक मुख्य नियंत्रक म्हणून तर इतर माहिती साठाविणारे व विश्लेषक म्हणून कार्य करतात. नियंत्रकामध्ये जॉब ट्रॅकर( संपूर्ण कामाचे नियोजन), टास्क ट्रॅकर(छोट्या कार्य घटकाचे नियोजन), नेमनोड आणि डाटा नोड ( नेम नोड म्हणजे माहितीसंचाच्या  संदर्भ क्रमांकांची नोंद   नाव तर  डाटा नोड म्हणजे प्रत्यक्ष माहितीसंच)   असे चार भाग असतात.

 

जॉब ट्रॅकर एका संपूर्ण कामाचे अनेक छोट्या स्वतंत्र टास्कमध्ये मॅपिंग करतो व माहिती स्थानाच्या संदर्भासहीत ते कार्य  टास्क ट्रॅकरकडे सुपूर्त करतो. टास्क ट्रॅकर माहितीस्थानाचा शोध घेऊन इप्सित कार्य (टास्क)  पूर्ण करतो व नियंत्रण पुन: जॉब ट्रॅकरकडे देतो.

 

 मोठ्या हडूप क्लस्टरमध्ये एक मुख्य नेमनोडमध्ये सर्व कामांची यादी असते तर दुय्यम नेमनोडमध्ये  प्रत्येक कामाचा आढावा (स्नॅपशॉट) असणारी यादी असते. याशिवाय जॉब ट्रॅकरचे काम करण्यासाठी स्वतंत्र कॉम्प्युटरची योजना केलेली असते. अशा हडूप प्रणालीमध्ये गीगाबाईट ते टेराबाईट इतक्या आकारमानाच्या मोठ्या  माहिती संचांचे काम होऊ शकते.

 

 हडुप प्रणालीमध्ये प्रत्येक काम अनेक कॉम्प्युटर्समध्ये विभागून समांतर पद्धतीने केले जात असल्याने माहिती संकलन वा विश्लेषण यांच्या कार्यक्षमतेवर माहितीचे आकारमान, गती वा त्यातील फेरबदल यांचा परिणाम होत नाही. शिवाय सर्व साधन सुविधांचा वापर आवश्यकतेप्रमाणे होत असल्याने खर्चात बचत होते.