வீடு போக்குகள் ஹடூப் பற்றி தெரிந்து கொள்ள வேண்டிய 7 விஷயங்கள்

ஹடூப் பற்றி தெரிந்து கொள்ள வேண்டிய 7 விஷயங்கள்

பொருளடக்கம்:

Anonim

ஹடூப் என்றால் என்ன? இது ஒரு மஞ்சள் பொம்மை யானை. நீங்கள் எதிர்பார்த்தது அல்லவா? இது எப்படி: டக் கட்டிங் - இந்த திறந்த மூல மென்பொருள் திட்டத்தின் இணை உருவாக்கியவர் - தனது பொம்மை யானை ஹடூப் என்று அழைக்கப்பட்ட தனது மகனிடமிருந்து பெயரைக் கடன் வாங்கினார். சுருக்கமாக, ஹடூப் என்பது அப்பாச்சி மென்பொருள் அறக்கட்டளையால் உருவாக்கப்பட்ட ஒரு மென்பொருள் கட்டமைப்பாகும், இது தரவு-தீவிரமான, விநியோகிக்கப்பட்ட கம்ப்யூட்டிங்கை உருவாக்க பயன்படுகிறது. மற்றொரு கடவுச்சொல் வாசகர்களில் இது ஒரு முக்கிய அங்கமாகும், இது ஒருபோதும் போதுமானதாகத் தெரியவில்லை: பெரிய தரவு. இந்த தனித்துவமான, இலவசமாக உரிமம் பெற்ற மென்பொருளைப் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டிய ஏழு விஷயங்கள் இங்கே.

ஹடூப் அதன் தொடக்கத்தை எவ்வாறு பெற்றார்?

பன்னிரண்டு ஆண்டுகளுக்கு முன்பு, கூகிள் அது சேகரிக்கும் தரவுகளை கையாள ஒரு தளத்தை உருவாக்கியது. நிறுவனம் பெரும்பாலும் செய்வது போலவே, கூகிள் அதன் வடிவமைப்பை இரண்டு ஆவணங்களின் வடிவத்தில் மக்களுக்கு வழங்கியது: கூகிள் கோப்பு முறைமை மற்றும் மேப்ரூட்யூஸ்.


அதே நேரத்தில், டக் கட்டிங் மற்றும் மைக் கஃபரெல்லா ஆகியோர் புதிய தேடுபொறியான நட்சில் பணிபுரிந்து வந்தனர். பெரிய அளவிலான தரவை எவ்வாறு கையாள்வது என்பதில் இருவரும் சிரமப்பட்டுக் கொண்டிருந்தனர். பின்னர் இரண்டு ஆராய்ச்சியாளர்களும் கூகிளின் ஆவணங்களின் காற்றைப் பெற்றனர். கட்டிங் மற்றும் கஃபரெல்லாவை ஒரு சிறந்த கோப்பு முறைமை மற்றும் தரவைக் கண்காணிக்கும் ஒரு வழியாக அறிமுகப்படுத்துவதன் மூலம் அந்த அதிர்ஷ்டமான குறுக்குவெட்டு எல்லாவற்றையும் மாற்றியது, இறுதியில் ஹடூப்பை உருவாக்க வழிவகுத்தது.

ஹடூப்பைப் பற்றி என்ன முக்கியம்?

இன்று, தரவுகளை சேகரிப்பது முன்னெப்போதையும் விட எளிதானது. இந்த எல்லா தரவையும் வைத்திருப்பது பல வாய்ப்புகளை அளிக்கிறது, ஆனால் சவால்களும் உள்ளன:

  • அதிக அளவு தரவு செயலாக்கத்திற்கு புதிய முறைகள் தேவை.
  • கைப்பற்றப்பட்ட தரவு கட்டமைக்கப்படாத வடிவத்தில் உள்ளது.
கட்டமைக்கப்படாத தரவின் அளவைக் கையாளுவதற்கான சவால்களை சமாளிக்க, கட்டிங் மற்றும் கஃபரெல்லா இரண்டு பகுதி தீர்வைக் கொண்டு வந்தன. தரவு-அளவு சிக்கலைத் தீர்க்க, ஹடூப் ஒரு விநியோகிக்கப்பட்ட சூழலைப் பயன்படுத்துகிறது - பண்ட சேவையகங்களின் பிணையம் - ஒரு இணையான செயலாக்கக் கிளஸ்டரை உருவாக்குகிறது, இது ஒதுக்கப்பட்ட பணியைத் தாங்க அதிக செயலாக்க சக்தியைக் கொண்டுவருகிறது.


அடுத்து, நிலையான தொடர்புடைய தரவுத்தள அமைப்புகளால் கையாள முடியாத வடிவங்களில் கட்டமைக்கப்படாத தரவு அல்லது தரவை அவர்கள் சமாளிக்க வேண்டியிருந்தது. கட்டிங் மற்றும் கஃபரெல்லா எந்தவொரு தரவையும் கொண்டு செயல்பட ஹடூப்பை வடிவமைத்தன: கட்டமைக்கப்பட்ட, கட்டமைக்கப்படாத, படங்கள், ஆடியோ கோப்புகள், உரை கூட. இது ஏன் முக்கியமானது என்பதை இந்த கிளவுட்ரா (ஹடூப் ஒருங்கிணைப்பாளர்) வெள்ளை அறிக்கை விளக்குகிறது:

    "உங்கள் தரவுத்தளங்களில் உள்ளவை மட்டுமல்லாமல், உங்கள் எல்லா தரவையும் பயன்படுத்தக்கூடியதாக மாற்றுவதன் மூலம், மறைக்கப்பட்ட உறவுகளை வெளிக்கொணர ஹடூப் உங்களை அனுமதிக்கிறது, மேலும் எப்போதும் எட்டாத பதில்களை வெளிப்படுத்துகிறது. மாதிரிகள் மற்றும் சுருக்கங்கள் மட்டுமின்றி முழுமையான தரவுத் தொகுப்புகளில். "

படிக்கும்போது ஸ்கீமா என்றால் என்ன?

முன்னர் குறிப்பிட்டபடி, ஹடூப்பின் நன்மைகளில் ஒன்று கட்டமைக்கப்படாத தரவைக் கையாளும் திறன் ஆகும். ஒரு விதத்தில், அது "சாலையில் கேனை உதைப்பது." இறுதியில் தரவு பகுப்பாய்வு செய்ய ஒருவித கட்டமைப்பு தேவைப்படுகிறது.


அங்குதான் வாசிப்புத் திட்டம் நடைமுறைக்கு வருகிறது. தரவு எந்த வடிவத்தில் உள்ளது, தரவை எங்கே கண்டுபிடிப்பது (தரவு பல சேவையகங்களில் சிதறிக்கிடக்கிறது என்பதை நினைவில் கொள்ளுங்கள்), மற்றும் தரவுக்கு என்ன செய்ய வேண்டும் - ஒரு எளிய பணி அல்ல. ஒரு ஹடூப் அமைப்பில் தரவைக் கையாளுவதற்கு வணிக ஆய்வாளர், புள்ளிவிவர நிபுணர் மற்றும் ஜாவா புரோகிராமர் ஆகியோரின் திறன்கள் தேவை என்று கூறப்படுகிறது. துரதிர்ஷ்டவசமாக, அந்த தகுதிகளுடன் பலர் இல்லை.

ஹைவ் என்றால் என்ன?

ஹடூப் வெற்றிபெறப் போகிறதென்றால், தரவுகளுடன் பணிபுரிவது எளிமைப்படுத்தப்பட வேண்டும். எனவே, திறந்த மூல கூட்டம் வேலைக்கு வந்து ஹைவ் உருவாக்கியது:

    "ஹைவ் இந்த தரவுகளில் கட்டமைப்பைத் திட்டமிடுவதற்கும், ஹைவ் க்யூல் எனப்படும் SQL போன்ற மொழியைப் பயன்படுத்தி தரவை வினவுவதற்கும் ஒரு பொறிமுறையை ஹைவ் வழங்குகிறது. அதே நேரத்தில் இந்த மொழி பாரம்பரிய வரைபடத்தை அனுமதிக்கிறது / புரோகிராமர்களை தங்கள் தனிப்பயன் மேப்பர்கள் மற்றும் குறைப்பாளர்களை சிரமத்திற்குள்ளாக்கும்போது செருக அனுமதிக்கிறது. இந்த தர்க்கத்தை HiveQL இல் வெளிப்படுத்த இயலாது. "

ஹைவ் இரு உலகங்களிலும் சிறந்ததை செயல்படுத்துகிறது: SQL கட்டளைகளை நன்கு அறிந்த தரவுத்தள பணியாளர்கள் தரவை கையாள முடியும், மேலும் வாசிப்பு செயல்பாட்டில் ஸ்கீமாவை அறிந்த டெவலப்பர்கள் தனிப்பயனாக்கப்பட்ட வினவல்களை இன்னும் உருவாக்க முடியும்.

ஹடூப் எந்த வகையான தரவை பகுப்பாய்வு செய்கிறார்?

வலைத்தளங்களை மேம்படுத்துவதற்காக வலை பதிவுகள் மற்றும் வலை போக்குவரத்தை பகுப்பாய்வு செய்வது, வலை பகுப்பாய்வு என்பது முதலில் நினைவுக்கு வருகிறது. எடுத்துக்காட்டாக, பேஸ்புக் நிச்சயமாக வலை பகுப்பாய்வுகளில் உள்ளது, நிறுவனம் குவிக்கும் தரவின் டெராபைட்டுகளின் மூலம் வரிசைப்படுத்த ஹடூப்பைப் பயன்படுத்துகிறது.


நிறுவனங்கள் ஆபத்து பகுப்பாய்வு, மோசடி கண்டறிதல் மற்றும் வாடிக்கையாளர் தளப் பிரிவு ஆகியவற்றைச் செய்ய ஹடூப் கிளஸ்டர்களைப் பயன்படுத்துகின்றன. பயன்பாட்டு நிறுவனங்கள் தங்கள் மின் கட்டத்திலிருந்து சென்சார் தரவை பகுப்பாய்வு செய்ய ஹடூப்பைப் பயன்படுத்துகின்றன, மேலும் அவை மின்சார உற்பத்தியை மேம்படுத்த அனுமதிக்கின்றன. இலக்கு, 3 எம் மற்றும் மெட்ரானிக்ஸ் போன்ற ஒரு பெரிய நிறுவனங்கள் தயாரிப்பு விநியோகம், வணிக இடர் மதிப்பீடுகள் மற்றும் வாடிக்கையாளர்-அடிப்படை பிரிவு ஆகியவற்றை மேம்படுத்த ஹடூப்பைப் பயன்படுத்துகின்றன.


ஹடூப்பிலும் பல்கலைக்கழகங்கள் முதலீடு செய்யப்படுகின்றன. மென்பொருளில் உள்ள செயின்ட் தாமஸ் பட்டதாரி திட்டங்களின் இணை பேராசிரியரான பிராட் ரூபின், தனது ஹடூப் நிபுணத்துவம் பல்கலைக்கழகத்தின் ஆராய்ச்சி குழுக்களால் தொகுக்கப்பட்ட ஏராளமான தரவுகளை வரிசைப்படுத்த உதவுகிறது என்று குறிப்பிட்டார்.

ஹடூப்பின் நிஜ உலக உதாரணத்தை நீங்கள் கொடுக்க முடியுமா?

சிறந்த அறியப்பட்ட எடுத்துக்காட்டுகளில் ஒன்று டைம்ஸ்மச்சின். நியூயார்க் டைம்ஸ் முழு பக்க செய்தித்தாள் TIFF படங்கள், தொடர்புடைய மெட்டாடேட்டா மற்றும் கட்டுரை உரை 1851 முதல் 1922 வரை டெராபைட் தரவுகளின் தொகுப்பைக் கொண்டுள்ளது. NYT இன் டெரெக் கோட்ஃப்ரிட், EC2 / S3 / Hadoop அமைப்பு மற்றும் சிறப்பு குறியீட்டைப் பயன்படுத்தி, :

    "405, 000 மிகப் பெரிய டிஐஎஃப்எஃப் படங்கள், எஸ்ஜிஎம்எல்லில் 3.3 மில்லியன் கட்டுரைகள் மற்றும் டிஐஎஃப்எப்களில் செவ்வக பகுதிகளுக்கு கட்டுரைகளை மேப்பிங் செய்யும் 405, 000 எக்ஸ்எம்எல் கோப்புகள். இந்தத் தரவு மிகவும் வலை நட்பு 810, 000 பிஎன்ஜி படங்கள் (சிறு உருவங்கள் மற்றும் முழு படங்கள்) மற்றும் 405, 000 ஜாவாஸ்கிரிப்ட் கோப்புகளாக மாற்றப்பட்டது. "

அமேசான் வலை சேவைகள் கிளவுட்டில் சேவையகங்களைப் பயன்படுத்தி, கோட்ஸ்ஃப்ரிட் டைம்ஸ்மச்சினுக்குத் தேவையான எல்லா தரவையும் 36 மணி நேரத்திற்குள் செயலாக்க முடிந்தது என்று குறிப்பிட்டார்.

ஹடூப் ஏற்கனவே வழக்கற்றுப் போய்விட்டதா அல்லது மார்பிங் செய்கிறாரா?

ஹடூப் இப்போது ஒரு தசாப்தத்திற்கும் மேலாக உள்ளது. அது வழக்கற்றுப் போய்விட்டது என்று பலர் கூறுகிறார்கள். ஒரு நிபுணர், டாக்டர் டேவிட் ரிக்கோ, "ஐடி தயாரிப்புகள் குறுகிய காலம். நாய் ஆண்டுகளில், கூகிளின் தயாரிப்புகள் சுமார் 70, ஹடூப் 56 ஆகும்."


ரிக்கோ சொல்வதில் சில உண்மை இருக்கலாம். ஹடூப் ஒரு பெரிய மாற்றத்தை மேற்கொள்கிறார் என்று தெரிகிறது. இதைப் பற்றி மேலும் அறிய, ரூபின் என்னை ஒரு இரட்டை நகரங்களின் ஹடூப் பயனர் குழு கூட்டத்திற்கு அழைத்தார், மேலும் விவாதத்தின் தலைப்பு YARN அறிமுகம்:

    "அப்பாச்சி ஹடூப் 2 ஒரு புதிய மேப்ரூட் எஞ்சினை உள்ளடக்கியது, இது முந்தைய செயல்படுத்தலை விட சிறந்த அளவிடுதல் மற்றும் வள பயன்பாடு உள்ளிட்ட பல நன்மைகளைக் கொண்டுள்ளது. புதிய செயல்படுத்தல் YARN எனப்படும் விநியோகிக்கப்பட்ட பயன்பாடுகளை இயக்குவதற்கான பொது வள மேலாண்மை அமைப்பில் கட்டப்பட்டுள்ளது."
தரவுத்தளம் மற்றும் உள்ளடக்க மேலாண்மை வட்டங்களில் ஹடூப் நிறைய சலசலப்புகளைப் பெறுகிறார், ஆனால் அதைச் சுற்றி இன்னும் பல கேள்விகள் உள்ளன, அதை எவ்வாறு சிறப்பாகப் பயன்படுத்தலாம். இவை ஒரு சில. உங்களிடம் இன்னும் இருந்தால், அவர்களுக்கு எங்கள் வழியை அனுப்புங்கள். Techopedia.com இல் சிறந்தவற்றுக்கு நாங்கள் பதிலளிப்போம்.

ஹடூப் பற்றி தெரிந்து கொள்ள வேண்டிய 7 விஷயங்கள்