![]() |
|---|
| தரவுகளை வரையறுத்தல் - Sketchnote by @nitya |
தரவு என்பது உண்மைகள், தகவல்கள், கவனிப்புகள் மற்றும் அளவீடுகள் ஆகும், இது கண்டுபிடிப்புகளை செய்யவும், அறிவார்ந்த முடிவுகளை ஆதரிக்கவும் பயன்படுத்தப்படுகிறது. ஒரு தரவுப் புள்ளி என்பது ஒரு தரவுத்தொகுப்பில் உள்ள ஒரு தனித்துவமான தரவின் அலகாகும், இது பல தரவுப் புள்ளிகளின் தொகுப்பாகும். தரவுத்தொகுப்புகள் பல்வேறு வடிவங்களில் மற்றும் அமைப்புகளில் வரலாம், மேலும் பொதுவாக அதன் மூலத்தை அல்லது தரவு எங்கிருந்து வந்தது என்பதை அடிப்படையாகக் கொண்டிருக்கும். உதாரணமாக, ஒரு நிறுவனத்தின் மாதாந்திர வருமானம் ஒரு ஸ்பிரெட்ஷீட்டில் இருக்கலாம், ஆனால் ஸ்மார்ட்வாட்சிலிருந்து வரும் மணிநேர இதய துடிப்பு தரவு JSON வடிவத்தில் இருக்கலாம். ஒரு தரவியல் விஞ்ஞானி ஒரு தரவுத்தொகுப்பில் பல்வேறு வகையான தரவுகளுடன் வேலை செய்வது பொதுவானது.
இந்த பாடம் தரவின் பண்புகள் மற்றும் அதன் மூலங்களை அடிப்படையாகக் கொண்டு அதை அடையாளம் காணவும் வகைப்படுத்தவும் கவனம் செலுத்துகிறது.
மூலதரவு என்பது அதன் மூலத்திலிருந்து அதன் ஆரம்ப நிலையில் வந்த தரவாகும், மேலும் இது பகுப்பாய்வு செய்யப்படவில்லை அல்லது ஒழுங்குபடுத்தப்படவில்லை. ஒரு தரவுத்தொகுப்பில் என்ன நடக்கிறது என்பதைப் புரிந்துகொள்ள, அதை மனிதர்களால் புரிந்துகொள்ளக்கூடிய வடிவமாகவும், மேலும் அதை மேலும் பகுப்பாய்வு செய்ய பயன்படுத்தக்கூடிய தொழில்நுட்பத்தால் புரிந்துகொள்ளக்கூடியதாகவும் ஒழுங்குபடுத்த வேண்டும். ஒரு தரவுத்தொகுப்பின் அமைப்பு அது எப்படி ஒழுங்குபடுத்தப்பட்டுள்ளது என்பதை விவரிக்கிறது மற்றும் அமைப்புக்கூடானது, அமைப்பில்லாதது மற்றும் பகுதி அமைப்புக்கூடானது என வகைப்படுத்தப்படலாம். இந்த அமைப்பின் வகைகள் மூலத்தைப் பொறுத்து மாறுபடும், ஆனால் இறுதியில் இந்த மூன்று வகைகளில் ஒன்றில் பொருந்தும்.
அளவீட்டு தரவு என்பது ஒரு தரவுத்தொகுப்பில் உள்ள எண் சார்ந்த கவனிப்புகள் ஆகும், மேலும் பொதுவாக பகுப்பாய்வு செய்ய, அளவிட மற்றும் கணித ரீதியாக பயன்படுத்த முடியும். அளவீட்டு தரவின் சில உதாரணங்கள்: ஒரு நாட்டின் மக்கள் தொகை, ஒரு நபரின் உயரம் அல்லது ஒரு நிறுவனத்தின் காலாண்டு வருமானம். கூடுதல் பகுப்பாய்வுடன், அளவீட்டு தரவை காற்று தரம் குறியீட்டின் (AQI) பருவ நிலை போக்குகளை கண்டறிய அல்லது ஒரு சாதாரண வேலை நாளில் பிஸியான நேர போக்குவரத்தின் சாத்தியத்தை மதிப்பீடு செய்ய பயன்படுத்தலாம்.
தரத்தின் தரவு, அல்லது வகை தரவு என அழைக்கப்படும், அளவீட்டு தரவின் கவனிப்புகளைப் போல 객ப்பாக அளவிட முடியாத தரவாகும். இது பொதுவாக ஒரு பொருள் அல்லது செயல்முறை பற்றிய தரத்தைப் பதிவு செய்யும் பல்வேறு வடிவங்களில் உள்ள சுப்ஜெக்டிவ் தரவாகும். சில நேரங்களில், தரத்தின் தரவு எண் வடிவத்தில் இருக்கும், ஆனால் பொதுவாக கணித ரீதியாக பயன்படுத்தப்படாது, உதாரணமாக தொலைபேசி எண்கள் அல்லது நேர முத்திரைகள். தரத்தின் தரவின் சில உதாரணங்கள்: வீடியோ கருத்துகள், ஒரு கார் மாடல் மற்றும் வகை அல்லது உங்கள் நெருங்கிய நண்பர்களின் பிடித்த நிறம். தரத்தின் தரவை நுகர்வோர் எந்த தயாரிப்புகளை மிகவும் விரும்புகிறார்கள் என்பதைப் புரிந்துகொள்ள அல்லது வேலை விண்ணப்ப ரெஸ்யூம்களில் பிரபலமான முக்கிய வார்த்தைகளை அடையாளம் காண பயன்படுத்தலாம்.
அமைப்புக்கூடான தரவு என்பது வரிசைகள் மற்றும் நெடுவரிசைகளில் ஒழுங்குபடுத்தப்பட்ட தரவாகும், இதில் ஒவ்வொரு வரிசையும் ஒரே தொகுப்பின் நெடுவரிசைகளைக் கொண்டிருக்கும். நெடுவரிசைகள் ஒரு குறிப்பிட்ட வகையின் மதிப்பை பிரதிநிதித்துவப்படுத்தும், மேலும் மதிப்பு எதை பிரதிநிதித்துவப்படுத்துகிறது என்பதை விவரிக்கும் பெயருடன் அடையாளம் காணப்படும், அதே நேரத்தில் வரிசைகள் உண்மையான மதிப்புகளை கொண்டிருக்கும். நெடுவரிசைகள் பொதுவாக மதிப்புகள் சரியாக நெடுவரிசையை பிரதிநிதித்துவப்படுத்துவதை உறுதிப்படுத்துவதற்கான குறிப்பிட்ட விதிகள் அல்லது கட்டுப்பாடுகளை கொண்டிருக்கும். உதாரணமாக, ஒவ்வொரு வரிசையும் ஒரு தொலைபேசி எண்ணைக் கொண்டிருக்கும் மற்றும் தொலைபேசி எண்களில் எழுத்துக்கள் இருக்காது என ஒரு வாடிக்கையாளர் ஸ்பிரெட்ஷீட்டை கற்பனை செய்யுங்கள். தொலைபேசி எண் நெடுவரிசையில் விதிகள் பொருத்தப்பட்டிருக்கலாம், இது வெறுமையாக இருக்கக்கூடாது மற்றும் எண்களை மட்டுமே கொண்டிருக்க வேண்டும்.
அமைப்புக்கூடான தரவின் ஒரு நன்மை என்னவென்றால், இது மற்ற அமைப்புக்கூடான தரவுடன் தொடர்பு கொள்ளும் வகையில் ஒழுங்குபடுத்தப்படலாம். ஆனால், தரவு ஒரு குறிப்பிட்ட முறையில் ஒழுங்குபடுத்தப்படுவதால், அதன் ஒட்டுமொத்த அமைப்பில் மாற்றங்களைச் செய்ய அதிக முயற்சியை எடுத்துக்கொள்ள வேண்டும். உதாரணமாக, வாடிக்கையாளர் ஸ்பிரெட்ஷீட்டில் ஒரு மின்னஞ்சல் நெடுவரிசையைச் சேர்ப்பது, இது வெறுமையாக இருக்கக்கூடாது, நீங்கள் இந்த மதிப்புகளை தரவுத்தொகுப்பில் உள்ள வாடிக்கையாளர்களின் தற்போதைய வரிசைகளுக்கு எப்படி சேர்ப்பீர்கள் என்பதை கண்டுபிடிக்க வேண்டும்.
அமைப்புக்கூடான தரவின் உதாரணங்கள்: ஸ்பிரெட்ஷீட்டுகள், தொடர்புடைய தரவுத்தொகுப்புகள், தொலைபேசி எண்கள், வங்கி அறிக்கைகள்
அமைப்பில்லாத தரவை பொதுவாக வரிசைகள் அல்லது நெடுவரிசைகளில் வகைப்படுத்த முடியாது, மேலும் இது ஒரு வடிவம் அல்லது பின்பற்ற வேண்டிய விதிகளை கொண்டிருக்காது. அமைப்பில்லாத தரவின் அமைப்பில் குறைவான கட்டுப்பாடுகள் உள்ளதால், ஒரு அமைப்புக்கூடான தரவுத்தொகுப்புடன் ஒப்பிடும்போது புதிய தகவல்களைச் சேர்ப்பது எளிதாக இருக்கும். ஒரு சென்சார் ஒவ்வொரு 2 நிமிடத்திற்கும் மழைமண்டல அழுத்தத்தைப் பதிவு செய்யும் தரவைப் பெறுகிறது, மேலும் இது வெப்பநிலையை அளவிட மற்றும் பதிவு செய்ய அனுமதிக்கும் புதுப்பிப்பைப் பெற்றுள்ளது, இது அமைப்பில்லாதது என்றால், உள்ளமைந்த தரவை மாற்ற தேவையில்லை. ஆனால், இந்த வகையான தரத்தை பகுப்பாய்வு அல்லது ஆராய்வது அதிக நேரம் எடுத்துக்கொள்ளலாம். உதாரணமாக, சென்சார் தரவிலிருந்து கடந்த மாதத்தின் சராசரி வெப்பநிலையை கண்டறிய விரும்பும் ஒரு விஞ்ஞானி, ஆனால் சென்சார் சில தரவுகளில் "e" ஐ பதிவு செய்தது, இது முற்றிலும் எண் அல்ல, சென்சார் பழுதடைந்தது என்பதை குறிக்கிறது, எனவே தரவு முழுமையாக இல்லை.
அமைப்பில்லாத தரவின் உதாரணங்கள்: உரை கோப்புகள், உரை செய்திகள், வீடியோ கோப்புகள்
பகுதி அமைப்புக்கூடான தரவின் அம்சங்கள், அமைப்புக்கூடான மற்றும் அமைப்பில்லாத தரவின் கலவையாக இருக்கும். இது பொதுவாக வரிசைகள் மற்றும் நெடுவரிசைகளின் வடிவத்திற்குப் பொருந்தாது, ஆனால் அமைப்புக்கூடானதாகக் கருதப்படும் வகையில் ஒழுங்குபடுத்தப்பட்டுள்ளது மற்றும் ஒரு நிலையான வடிவம் அல்லது விதிகளை பின்பற்றலாம். அமைப்பு மூலங்களைப் பொறுத்து மாறுபடும், உதாரணமாக, நன்கு வரையறுக்கப்பட்ட மரபு அல்லது புதிய தகவல்களை எளிதாக ஒருங்கிணைக்க அனுமதிக்கும் ஒரு நெகிழ்வான அமைப்பு. மெட்டாடேட்டா என்பது தரவை எப்படி ஒழுங்குபடுத்தி சேமிக்க வேண்டும் என்பதை முடிவு செய்ய உதவும் குறிகாட்டிகள் ஆகும், மேலும் தரவின் வகையைப் பொறுத்து பல்வேறு பெயர்களைக் கொண்டிருக்கும். மெட்டாடேட்டாவின் சில பொதுவான பெயர்கள்: குறிச்சொற்கள், கூறுகள், அமைப்புகள் மற்றும் பண்புகள். உதாரணமாக, ஒரு சாதாரண மின்னஞ்சல் செய்தியில் ஒரு தலைப்பு, உடல் மற்றும் ஒரு தொகுப்பு பெறுநர்கள் இருக்கும், மேலும் இது யார் அல்லது எப்போது அனுப்பப்பட்டது என்பதைப் பொறுத்து ஒழுங்குபடுத்தப்படலாம்.
பகுதி அமைப்புக்கூடான தரவின் உதாரணங்கள்: HTML, CSV கோப்புகள், JavaScript Object Notation (JSON)
தரவின் மூலமானது தரவு உருவாக்கப்பட்ட ஆரம்ப இடமாகும், அல்லது அது "வாழும்" இடமாகும், மேலும் இது எப்போது மற்றும் எப்படி சேகரிக்கப்பட்டது என்பதைப் பொறுத்து மாறுபடும். அதன் பயனர்(கள்) மூலம் உருவாக்கப்பட்ட தரவை முதன்மை தரவாக அழைக்கப்படுகிறது, ஆனால் பொதுவாக பயன்படுத்த சேகரிக்கப்பட்ட தரவின் மூலத்திலிருந்து வரும் தரவை இரண்டாம் நிலை தரவாக அழைக்கப்படுகிறது. உதாரணமாக, ஒரு குழு விஞ்ஞானிகள் மழைக்காடுகளில் கவனிப்புகளைச் சேகரிக்கிறார்கள் என்றால், இது முதன்மை தரவாகக் கருதப்படும், மேலும் அவர்கள் அதை மற்ற விஞ்ஞானிகளுடன் பகிர முடிவு செய்தால், அதை பயன்படுத்தும் அவர்களுக்கு இது இரண்டாம் நிலை தரவாகக் கருதப்படும்.
தரவுத்தொகுப்புகள் ஒரு பொதுவான மூலமாகும், மேலும் தரவை ஹோஸ்ட் மற்றும் பராமரிக்க தரவுத்தொகுப்பு மேலாண்மை அமைப்பை நம்புகின்றன, இதில் பயனர்கள் கேள்விகள் எனப்படும் கட்டளைகளைப் பயன்படுத்தி தரவை ஆராய்கிறார்கள். கோப்புகள் தரவின் மூலமாக இருக்கலாம், இது ஆடியோ, படங்கள் மற்றும் வீடியோ கோப்புகள் மற்றும் Excel போன்ற ஸ்பிரெட்ஷீட்டுகளாக இருக்கலாம். இணைய மூலங்கள் தரவை ஹோஸ்ட் செய்ய பொதுவான இடமாகும், இதில் தரவுத்தொகுப்புகள் மற்றும் கோப்புகள் காணப்படலாம். பயன்பாட்டு நிரலாக்க இடைமுகங்கள், APIகள் என அழைக்கப்படும், இணையத்தின் மூலம் வெளிப்புற பயனர்களுடன் தரவைப் பகிர வழிகளை உருவாக்க நிரலாக்கர்களுக்கு அனுமதிக்கின்றன, அதே நேரத்தில் வலைத் தேடல் ஒரு வலைப்பக்கத்திலிருந்து தரவை எடுக்கிறது. தரவுடன் வேலை செய்வது பற்றிய பாடங்கள் பல்வேறு தரவின் மூலங்களை எப்படி பயன்படுத்துவது என்பதை மையமாகக் கொண்டுள்ளது.
இந்த பாடத்தில் நாம் கற்றுக்கொண்டது:
- தரவு என்ன
- தரவை எப்படி விவரிக்கலாம்
- தரவை எப்படி வகைப்படுத்தி பிரிக்கலாம்
- தரவை எங்கு கண்டுபிடிக்கலாம்
Kaggle என்பது திறந்த தரவுத்தொகுப்புகளுக்கான சிறந்த மூலமாகும். தரவுத்தொகுப்பு தேடல் கருவி ஐப் பயன்படுத்தி சில 흥மையான தரவுத்தொகுப்புகளை கண்டறிந்து, இந்த அளவுகோலுடன் 3-5 தரவுத்தொகுப்புகளை வகைப்படுத்துங்கள்:
- தரவு அளவீட்டு (Quantitative) அல்லது தரத்தின் தரவா (Qualitative)?
- தரவு அமைப்புக்கூடானது, அமைப்பில்லாதது அல்லது பகுதி அமைப்புக்கூடானதா?
- Microsoft Learn யூனிட், உங்கள் தரவை வகைப்படுத்துங்கள் என்ற தலைப்பில் அமைப்புக்கூடான, பகுதி அமைப்புக்கூடான மற்றும் அமைப்பில்லாத தரவின் விரிவான பிரிவைக் கொண்டுள்ளது.
தரவுத்தொகுப்புகளை வகைப்படுத்துதல்
குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்கக்கூடும் என்பதை கவனத்தில் கொள்ளவும். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.
