हडूप (HADOOP) भाग - ६

हडूप कार्यपद्धतीची ओळख होण्यासाठी एक छोटे उदाहरण घेऊ या.

 

 समजा तीन कॉम्प्युटर्सचा एक समूह माहिती साठविण्यासाठी वापरला आहे व त्यावरील हार्डडिस्क्मध्ये माहिती साठविण्यासाठी २०० ते ३००, ५०० ते ६०० आणि ८०० ते ९०० असे स्मृतीकोष आहेत.

 

आता Dnyandeep Education & Research Foundation या माहिती संचातील अक्षरांची संख्या आपल्याला काढायची आहे. सर्वप्रथम HDFS तर्फे या माहिती संचाचे तुकडे करून त्याच्या तीन प्रती विविध ठिकाणी तीनही  कॉम्प्युटर्सच्या हार्डडिस्कमध्ये साठविल्या जातील. समजा त्यांची स्थाने खालीलप्रमाणे आहेत.

 

१. Dnyandeep -२३५,५७६,८१३

२. Education  - २५४,५४१,८३७

३. & - २७९, ५१०,८७५

४. Research - २४९,५९१,८९४

५. Foundation - २६८, ५२९, ८५३

 आता इनपुट यादीतील की व डाटा व्हॅल्यु खालीलप्रमाणे असतील

  

Key - Data value

Key - Data value

Key - Data value

२३५ ->Dnyandeep

 

२५४->Education

 

२७९->&

 

२४९->Research

 

२६८->Foundation

 ५७६ ->Dnyandeep

 

५४१->Education

 

५१०->&

 

५९१->Research

 

५२९->Foundation

८१३ ->Dnyandeep

 

८३७->Education

 

८७५->&

 

८९४->Research

 

८५३->Foundation

 

 

मॅपिंग प्रणालीतर्फे या कॉम्प्युटर्स वरील माहिती संचातील अक्षरांची संख्या प्रत्येक बाबतीत वेगवेगळी काढली जाईल (प्रत्येक शब्दातील अक्षरांची संख्या काढणे हे एक टास्क असेल.)

१) २३५-९, २५४-१०,२७९-१,२४९-८,२६८-१०

२) ५७६-९,५४१-१०,५१०-१,५९१-८,५२९-१०

३) ८१३-९,८३७-१०,८७५-१,८९४-८,८५३-१०

या झाल्या आऊटपुट याद्या

 

आता रिड्यूस प्रणालीतर्फे  कॉम्प्युटरवरील माहिती संचांतील अक्षरांच्या संख्यांची बेरीज करून नवी निष्कर्ष यादी तयार करेल.

 

पहिल्या कॉम्प्युटरचे संख्यांची बेरीज करण्याचे कार्य चालू असताना २५४ या स्थानावर असलेली आउतपुट यादीतील माहिती वाचण्यात अडथळा आला तर ५४१ या स्थानावरील दुसर्‍या प्रतीचा वा ८३७ वरील तिसर्‍या प्रतीचा उपयोग केला जाईल. हीच क्रिया सर्व शब्द वाचून पूर्ण होईपर्यंत केली जाईल व शेवटी उत्तर ३८ हे वेगळ्या स्थानावर साठविले जाईल.

 

सूचना - वरील उदाहरणात मी मला समजलेल्या हडूपच्या कार्यपद्धतीचे वर्णन केले आहे यात चूक असण्याची शक्यता आहे. तज्ज्ञांनी याबाबतीत काही बदल हवा असल्यास अवश्य कळवावे. म्हणजे वरील उदाहरणात योग्य तो बदल करता येईल.