हडूप (HADOOP) भाग - ६
हडूप कार्यपद्धतीची ओळख होण्यासाठी एक छोटे उदाहरण घेऊ या.
समजा तीन कॉम्प्युटर्सचा एक समूह माहिती साठविण्यासाठी वापरला आहे व त्यावरील हार्डडिस्क्मध्ये माहिती साठविण्यासाठी २०० ते ३००, ५०० ते ६०० आणि ८०० ते ९०० असे स्मृतीकोष आहेत.
आता Dnyandeep Education & Research Foundation या माहिती संचातील अक्षरांची संख्या आपल्याला काढायची आहे. सर्वप्रथम HDFS तर्फे या माहिती संचाचे तुकडे करून त्याच्या तीन प्रती विविध ठिकाणी तीनही कॉम्प्युटर्सच्या हार्डडिस्कमध्ये साठविल्या जातील. समजा त्यांची स्थाने खालीलप्रमाणे आहेत.
१. Dnyandeep -२३५,५७६,८१३
२. Education - २५४,५४१,८३७
३. & - २७९, ५१०,८७५
४. Research - २४९,५९१,८९४
५. Foundation - २६८, ५२९, ८५३
आता इनपुट यादीतील की व डाटा व्हॅल्यु खालीलप्रमाणे असतील
Key - Data value |
Key - Data value |
Key - Data value |
२३५ ->Dnyandeep
२५४->Education
२७९->&
२४९->Research
२६८->Foundation |
५७६ ->Dnyandeep
५४१->Education
५१०->&
५९१->Research
५२९->Foundation |
८१३ ->Dnyandeep
८३७->Education
८७५->&
८९४->Research
८५३->Foundation |
मॅपिंग प्रणालीतर्फे या कॉम्प्युटर्स वरील माहिती संचातील अक्षरांची संख्या प्रत्येक बाबतीत वेगवेगळी काढली जाईल (प्रत्येक शब्दातील अक्षरांची संख्या काढणे हे एक टास्क असेल.)
१) २३५-९, २५४-१०,२७९-१,२४९-८,२६८-१०
२) ५७६-९,५४१-१०,५१०-१,५९१-८,५२९-१०
३) ८१३-९,८३७-१०,८७५-१,८९४-८,८५३-१०
या झाल्या आऊटपुट याद्या
आता रिड्यूस प्रणालीतर्फे कॉम्प्युटरवरील माहिती संचांतील अक्षरांच्या संख्यांची बेरीज करून नवी निष्कर्ष यादी तयार करेल.
पहिल्या कॉम्प्युटरचे संख्यांची बेरीज करण्याचे कार्य चालू असताना २५४ या स्थानावर असलेली आउतपुट यादीतील माहिती वाचण्यात अडथळा आला तर ५४१ या स्थानावरील दुसर्या प्रतीचा वा ८३७ वरील तिसर्या प्रतीचा उपयोग केला जाईल. हीच क्रिया सर्व शब्द वाचून पूर्ण होईपर्यंत केली जाईल व शेवटी उत्तर ३८ हे वेगळ्या स्थानावर साठविले जाईल.
सूचना - वरील उदाहरणात मी मला समजलेल्या हडूपच्या कार्यपद्धतीचे वर्णन केले आहे यात चूक असण्याची शक्यता आहे. तज्ज्ञांनी याबाबतीत काही बदल हवा असल्यास अवश्य कळवावे. म्हणजे वरील उदाहरणात योग्य तो बदल करता येईल.