வீடு அது-தொழில் தரவு, பெரியது மற்றும் சிறியது: உண்மையான மதிப்பு எங்கே?

தரவு, பெரியது மற்றும் சிறியது: உண்மையான மதிப்பு எங்கே?

பொருளடக்கம்:

Anonim

பெரிய தரவு என்பது பெரிய அளவிலான தரவைக் கையாளுவதைக் குறிக்கப் பயன்படுத்தப்படும் ஒரு போர்வை வார்த்தையாகும். தரவின் பெரிய அளவு, மிகவும் சிக்கலானது என்பதை நாம் அனைவரும் புரிந்துகொள்கிறோம். பாரம்பரிய தரவுத்தள தீர்வுகள் பெரும்பாலும் அவற்றின் சிக்கலான தன்மை மற்றும் அளவு காரணமாக பெரிய அளவிலான தரவை சரியாக நிர்வகிக்கத் தவறிவிடுகின்றன. எனவே, பெரிய அளவிலான தரவை நிர்வகிப்பது மற்றும் உண்மையான நுண்ணறிவைப் பெறுவது ஒரு சவாலான பணியாகும். அதே "மதிப்பு" கருத்து சிறிய தரவுகளுக்கும் பொருந்தும்.

எவ்வளவு பெரிய தரவு பயன்படுத்தப்படுகிறது

RDBMS கருத்தை அடிப்படையாகக் கொண்ட வழக்கமான தரவுத்தள தீர்வுகள் பரிவர்த்தனை தரவை நன்றாக நிர்வகிக்க முடியும் மற்றும் அவை வெவ்வேறு பயன்பாடுகளில் பரவலாகப் பயன்படுத்தப்படுகின்றன. ஆனால் ஒரு பெரிய தரவைக் கையாளும் போது (காப்பகப்படுத்தப்பட்ட மற்றும் டெராபைட்டுகள் அல்லது பெட்டாபைட்டுகளில் உள்ள தரவு), இந்த தரவுத்தள தீர்வுகள் பெரும்பாலும் தோல்வியடைகின்றன. இந்த தரவுத் தொகுப்புகள் மிகப் பெரியவை மற்றும் பெரும்பாலான நேரங்களில் அவை பாரம்பரிய தரவுத்தளங்களின் கட்டமைப்பிற்கு பொருந்தாது. இந்த நாட்களில், பெரிய தரவு பெரிய தொகுப்புகளைக் கையாள்வதற்கான செலவு குறைந்த அணுகுமுறையாக மாறியுள்ளது. ஒரு நிறுவன பார்வையில், பெரிய தரவின் பயன்பாட்டை பின்வரும் வகைகளாக உடைக்கலாம், இதில் பெரிய தரவின் உண்மையான மதிப்பு உள்ளது:

  • பகுப்பாய்வு பயன்பாடு

    பெரிய தரவுகளின் ஆய்வாளர்கள் தரவின் பல முக்கியமான மறைக்கப்பட்ட அம்சங்களை வெளிப்படுத்தியுள்ளனர், அவை செயலாக்க மிகவும் விலை உயர்ந்தவை. எடுத்துக்காட்டாக, ஒரு குறிப்பிட்ட புதிய தலைப்பில் மாணவர்களின் போக்கு ஆர்வத்தை நாம் சரிபார்க்க வேண்டியிருந்தால், தினசரி வருகை பதிவுகள் மற்றும் பிற சமூக மற்றும் புவியியல் உண்மைகளை பகுப்பாய்வு செய்வதன் மூலம் இதைச் செய்யலாம். இந்த உண்மைகள் தரவுத்தளத்தில் பிடிக்கப்படுகின்றன. இந்தத் தரவை திறம்பட அணுக முடியாவிட்டால், முடிவுகளை எங்களால் பார்க்க முடியாது.

  • புதிய தயாரிப்புகளை இயக்கு

    சமீப காலங்களில், பேஸ்புக் போன்ற புதிய வலை நிறுவனங்கள் நிறைய புதிய தயாரிப்புகளைத் தொடங்க பெரிய தரவை ஒரு தீர்வாகப் பயன்படுத்தத் தொடங்கியுள்ளன. பேஸ்புக் எவ்வளவு பிரபலமானது என்பதை நாம் அனைவரும் அறிவோம் - இது பெரிய தரவைப் பயன்படுத்தி உயர் செயல்திறன் கொண்ட பயனர் அனுபவத்தை வெற்றிகரமாக தயாரித்துள்ளது.

உண்மையான மதிப்பு எங்கே?

வெவ்வேறு பெரிய தரவுத் தீர்வுகள் அவை தரவைச் சேமிக்கும் அணுகுமுறையில் வேறுபடுகின்றன, ஆனால் இறுதியில், அவை அனைத்தும் ஒரு தட்டையான கோப்பு கட்டமைப்பில் தரவைச் சேமிக்கின்றன. பொதுவாக, ஹடூப் கோப்பு முறைமை மற்றும் சில இயக்க முறைமை-நிலை தரவு சுருக்கங்களைக் கொண்டுள்ளது. இதில் MapReduce இயந்திரம் மற்றும் ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை (HDFS) ஆகியவை அடங்கும். ஒரு எளிய ஹடூப் கிளஸ்டரில் ஒரு முதன்மை முனை மற்றும் பல பணியாளர் முனைகள் உள்ளன. முதன்மை முனை பின்வருவனவற்றைக் கொண்டுள்ளது:

  • பணி கண்காணிப்பாளர்
  • வேலை டிராக்கர்
  • பெயர் முனை
  • தரவு முனை
தொழிலாளர் முனை பின்வருவனவற்றைக் கொண்டுள்ளது:
  • பணி கண்காணிப்பாளர்
  • தரவு முனை

சில செயலாக்கங்களில் தரவு முனை மட்டுமே உள்ளது. தரவு முனை என்பது தரவு இருக்கும் உண்மையான பகுதி. எச்டிஎஃப்எஸ் பல இயந்திரங்களில் விநியோகிக்கப்பட்ட பெரிய கோப்புகளை (டெராபைட்டுகள் முதல் பெட்டாபைட்டுகள் வரை) சேமிக்கிறது. ஒவ்வொரு முனையிலும் தரவின் நம்பகத்தன்மை அனைத்து ஹோஸ்ட்களிலும் தரவைப் பிரதிபலிப்பதன் மூலம் அடையப்படுகிறது. இதனால், முனைகளில் ஒன்று கீழே இருக்கும்போது கூட தரவு கிடைக்கும். வினவல்களுக்கு எதிராக விரைவான பதிலை அடைய இது உதவுகிறது. பேஸ்புக் போன்ற மிகப்பெரிய பயன்பாடுகளின் விஷயத்தில் இந்த கருத்து மிகவும் பயனுள்ளதாக இருக்கும். ஒரு பயனராக, எங்கள் அரட்டை கோரிக்கைக்கு ஒரு பதிலைப் பெறுகிறோம், எடுத்துக்காட்டாக, உடனடியாக. ஒரு பயனர் அரட்டையடிக்கும்போது நீண்ட நேரம் காத்திருக்க வேண்டிய ஒரு காட்சியைக் கவனியுங்கள். செய்தியும் அடுத்தடுத்த பதிலும் உடனடியாக வழங்கப்படாவிட்டால், இந்த அரட்டை கருவிகளை எத்தனை பேர் உண்மையில் பயன்படுத்துவார்கள்?

பேஸ்புக் செயலாக்கத்திற்குச் செல்வது, கொத்துகள் முழுவதும் தரவு நகலெடுக்கப்படாவிட்டால், ஈர்க்கக்கூடிய செயலாக்கத்தைக் கொண்டிருக்க முடியாது. ஹடூப் ஒரு பெரிய கிளஸ்டரில் கணினிகள் முழுவதும் தரவை விநியோகிக்கிறது, மேலும் கோப்புகளை தொகுதிகளின் வரிசையாக சேமிக்கிறது. இந்த தொகுதிகள் கடைசி தொகுதி தவிர ஒரே மாதிரியானவை. தொகுதி மற்றும் பிரதி காரணி அளவு தேவைக்கேற்ப தனிப்பயனாக்கலாம். HDFS இல் உள்ள கோப்புகள் எழுதும் முறை அணுகுமுறையை கண்டிப்பாக பின்பற்றுகின்றன, எனவே ஒரு நேரத்தில் ஒரு பயனரால் மட்டுமே எழுதவோ திருத்தவோ முடியும். தொகுதிகள் நகலெடுப்பது தொடர்பான முடிவுகள் பெயர் முனை மூலம் எடுக்கப்படுகின்றன. பெயர் முனை ஒவ்வொரு தரவு முனைகளிலிருந்தும் அறிக்கைகள் மற்றும் துடிப்பு பதில்களைப் பெறுகிறது. துடிப்பு பதில்கள் தொடர்புடைய தரவு முனை கிடைப்பதை உறுதி செய்கிறது. தரவு முனையில் உள்ள தொகுதிகளின் விவரங்கள் அறிக்கையில் உள்ளன.


மற்றொரு பெரிய தரவு செயலாக்கமான கசாண்ட்ராவும் இதேபோன்ற விநியோகக் கருத்தைப் பயன்படுத்துகிறது. கசாண்ட்ரா புவியியல் இருப்பிடத்தின் அடிப்படையில் தரவை விநியோகிக்கிறார். எனவே, கசாண்ட்ராவில், தரவு பயன்பாட்டின் புவியியல் இருப்பிடத்தின் அடிப்படையில் தரவு பிரிக்கப்பட்டுள்ளது.

சில நேரங்களில் சிறிய தரவு பெரிய (மற்றும் குறைந்த விலையுயர்ந்த) தாக்கத்தை ஏற்படுத்துகிறது

திறந்த அறிவு அறக்கட்டளையின் ரூஃபஸ் பொல்லாக் கருத்துப்படி, பெரிய தரவுகளைச் சுற்றி மிகைப்படுத்தலை உருவாக்குவதில் எந்த அர்த்தமும் இல்லை, அதே நேரத்தில் சிறிய தரவு உண்மையான மதிப்பு இருக்கும் இடமாக உள்ளது.


பெயர் குறிப்பிடுவது போல, சிறிய தரவு என்பது ஒரு பெரிய தரவுகளிலிருந்து குறிவைக்கப்பட்ட தரவுகளின் தொகுப்பாகும். சிறிய தரவு தரவு பயன்பாட்டிலிருந்து கவனத்தை மாற்ற விரும்புகிறது, மேலும் இது பெரிய தரவை நோக்கி நகரும் போக்கை எதிர்ப்பதையும் நோக்கமாகக் கொண்டுள்ளது. சிறிய தரவு அணுகுமுறை குறைந்த முயற்சியைப் பயன்படுத்தி குறிப்பிட்ட தேவைகளின் அடிப்படையில் தரவை சேகரிக்க உதவுகிறது. இதன் விளைவாக, வணிக நுண்ணறிவை செயல்படுத்தும்போது இது மிகவும் திறமையான வணிக நடைமுறை.


அதன் மையத்தில், சிறிய தரவுகளின் கருத்து வணிகங்களைச் சுற்றி வருகிறது, அவை கூடுதல் நடவடிக்கைகள் தேவைப்படும் முடிவுகள் தேவைப்படுகின்றன. இந்த முடிவுகளை விரைவாகப் பெற வேண்டும், அடுத்தடுத்த செயலும் உடனடியாக செயல்படுத்தப்பட வேண்டும். எனவே, பெரிய தரவு பகுப்பாய்வுகளில் பொதுவாகப் பயன்படுத்தப்படும் அமைப்புகளின் வகைகளை நாம் அகற்றலாம்.


பொதுவாக, பெரிய தரவு கையகப்படுத்துதலுக்குத் தேவையான சில குறிப்பிட்ட அமைப்புகளை நாங்கள் கருத்தில் கொண்டால், ஒரு நிறுவனம் நிறைய சேவையக சேமிப்பகங்களை அமைப்பதில் முதலீடு செய்யலாம், அதிநவீன உயர்நிலை சேவையகங்களையும் சமீபத்திய தரவு சுரங்க பயன்பாடுகளையும் வெவ்வேறு பிட் தரவைக் கையாள பயன்படுத்தலாம் பயனர் செயல்களின் தேதிகள் மற்றும் நேரங்கள், புள்ளிவிவர தகவல்கள் மற்றும் பிற தகவல்கள் உட்பட. இந்த முழு தரவுத் தொகுப்பும் ஒரு மைய தரவுக் கிடங்கிற்கு நகர்கிறது, அங்கு சிக்கலான வழிமுறைகள் விரிவான அறிக்கைகளின் வடிவத்தில் காண்பிக்க தரவை வரிசைப்படுத்தவும் செயலாக்கவும் பயன்படுத்தப்படுகின்றன.


இந்த தீர்வுகள் அளவிடுதல் மற்றும் கிடைக்கும் தன்மை ஆகியவற்றின் அடிப்படையில் பல வணிகங்களுக்கு பயனளித்துள்ளன என்பதை நாம் அனைவரும் அறிவோம்; இந்த அணுகுமுறைகளை பின்பற்றுவதற்கு கணிசமான முயற்சி தேவை என்று கண்டறியும் நிறுவனங்கள் உள்ளன. சில சந்தர்ப்பங்களில், குறைவான வலுவான தரவு சுரங்க மூலோபாயத்தைப் பயன்படுத்தி இதே போன்ற முடிவுகள் அடையப்படுகின்றன என்பதும் உண்மை.


சிறிய தரவு நிறுவனங்கள் அதிநவீன வணிக செயல்முறைகளை ஆதரிக்கும் சமீபத்திய மற்றும் புதிய தொழில்நுட்பங்களுடனான ஆர்வத்திலிருந்து பின்வாங்குவதற்கான வழியை வழங்குகிறது. சிறிய தரவை ஊக்குவிக்கும் நிறுவனங்கள் தங்கள் வளங்களை திறமையான முறையில் பயன்படுத்துவது வணிகக் கண்ணோட்டத்தில் முக்கியமானது என்று வாதிடுகின்றனர், இதனால் தொழில்நுட்பத்தின் மீது அதிக செலவு செய்வது ஒரு குறிப்பிட்ட அளவிற்கு தவிர்க்கப்படலாம்.


பெரிய தரவு மற்றும் சிறிய தரவு யதார்த்தங்களைப் பற்றி நாங்கள் அதிகம் விவாதித்தோம், ஆனால் சரியான பயன்பாட்டிற்கு சரியான தளத்தை (பெரிய தரவு அல்லது சிறிய தரவு) தேர்ந்தெடுப்பது முழு உடற்பயிற்சியின் மிக முக்கியமான பகுதியாகும் என்பதை நாம் புரிந்து கொள்ள வேண்டும். உண்மை என்னவென்றால், பெரிய தரவு நிறைய நன்மைகளை வழங்க முடியும், அது எப்போதும் சிறந்ததல்ல.

தரவு, பெரியது மற்றும் சிறியது: உண்மையான மதிப்பு எங்கே?