பக்கங்கள்

இந்திய குடிமைப் பணித்தேர்வு - தமிழ் - 2 - (UPSC EXAM TAMIL)

செவ்வாய், 19 அக்டோபர், 2021

தேடுபொறிகளும் செயற்கை நுண்ணறிவுத் தமிழும்


மனிதர்களின் அறிவை இயற்கையான அறிவு, செயற்கையான அறிவு என வகைப்படுத்த இயலும். குலவித்தை கற்றுப் பாதி, கல்லாமற் பாதி என் பழமொழி கூட இக்கருத்தையே எடுத்துரைக்கிறது. இதையே வழக்கில் தன்னறிவு, சொல்லறிவு எனவும் கூறுவதுண்டு. மனிதர்களுக்கு எப்படி கல்வி என்ற முறை செயற்கையாக தம் அறிவை வளர்த்துக்கொள்ள உதவுகிறதோ அதுபோல,  கணினி  அல்லது  இயந்திரங்கள்  ஆகியவற்றை வைத்துக்கொண்டு அவற்றுக்குக் கற்பித்தல் வழியாக நுண்ணறிவை உருவாக்குகின்ற முறையே செயற்கை நுண்ணறிவுத்திறன் (Artificial Intelligence) என்று அழைக்கப்படுகிறது. பல்வேறு துறைகளிலும் இன்று செயற்கை நுண்ணறிவுத் திறன் வளர்ந்து வருகிறது. தேடுபொறிகளுக்குத் தேவையான தமிழ் செயற்கை நுண்ணறிவுக் கூறுகளை எடுத்தியம்புவதாக இக்கட்டுரை அமைகிறது.


தேடுபொறிகளின் வகைகள்

மக்களின் பயன்பாட்டு அடிப்படையிலும் தேடல் முறை அடிப்படையிலும் தேடுபொறிகளைப் பலவகைப்படுத்த இயலும். சான்றாக, கூகுள், பிங், யாகூ, டக்டக்கோ, ஏ.ஓ.எல், ஆஸ்க்,1 ஆகிய தேடுபொறிகளைக் குறிப்பிடலாம்.

இத்தேடுபொறிகளை, விரைந்து தேடுதல், சரியான பரிந்துரை, தொடர்புடைய செய்திகளுக்கான பரிந்துரைத்தல், நம்பகத் தன்மையுள்ள செய்திகளை வழங்குதல் என்ற அடிப்படையிலும், மெதுவாகத் தேடுதல், தவறான பரிந்துரை, தொடர்பற்ற செய்திகளுக்கான பரிந்துரைத்தல், நம்பகத்தன்மையற்ற செய்திகளை வழங்குதல்  எனவும் வகைப்படுத்த இயலும்.

தேடலின் முறைகள்

    தேடுபொறிகளில் தேடுவதில் பல்வேறு முறைகள் பின்பற்றப்படுகின்றன. எழுத்துகளை வழங்கித் தேடுதல், குரல்வழியாகத் தேடுதல், நிழற்படங்களை வழங்கித்தேடுதல், குறிப்பிட்ட வகைக் கோப்புகளைத் தேடுதல் எனத் தேடுதல் முறைகள் பல உள்ளன.    

     சான்றாக, திருக்குறள் நூல் என ஒருவர் தேடினால் அது மின்னூலா, அச்சு நூலா, மூல நூலா, உரை நூலா, ஆய்வு நூலா, ஒலி நூலா, காணொலிப் பதிவா என பல கேள்விகள் தேடுபொறிகளுக்குத் தோன்றும். மேலும் தேடுபவர் தமிழிலும் தேடலாம், ஆங்கிலத்திலும் தேடலாம், தமிங்கிலத்திலும் தேடலாம். இவ்வாறு தேடுவதில் பல முறைகள் கடைபிடிக்கப்படுகின்றன.

தேடுபொறிகளின் தமிழ் மொழித்திறன்

தேடுபொறிகளில் தற்போது ஒருங்குறி வடிவில் உள்ள எழுத்துகளை மட்டுமே தேடிப் பெறமுடிகிறது. நிழற்பட வடிவில் உள்ள தமிழ் எழுத்துகளை தேடுபொறிகளால் வாசிக்க இயலவில்லை. பழந்தமிழறிஞர்களின் நாட்டுடைமையாக்கப்பட்ட பல நூல்கள் நிழற்பட வடிவில் உள்ளன என்பதை நாம் நினைவுகொள்ள வேண்டும். ஒளி எழுத்துணரி (Optical character recognition) என்ற நுட்பத்தின் வழியாக பல அரிய நூல்களை ஒருங்குறி எழுத்துவடிவில் மாற்றி அதைத் திருத்தி வலைப்பதிவு, இணையதளம் எனப்  பல்வேறு தளங்களில் உள்ளீடு செய்யவேண்டும். சான்றாக விக்கி மூலத்தைக்2 குறிப்பிடலாம். அதில் பலரும் பங்கேற்று தமிழை வளப்படுத்தலாம். அவ்வாறு செய்வதால் தமிழுக்கான தரவுத்தளம் பெரிதாகும். தேடுபொறிகளும் செய்திகளை துல்லியமாகவும் மிகுதியாகவும் பரிந்துரை செய்ய இயலும்.

பழைய தமிழ் எழுத்துருக்களை தேடுபொறிகளால் வாசிக்க இயலவில்லை. வலைப்பதிவுகள், இணையதளங்கள் என பல இணையத்தமிழ் உள்ளடக்கங்கள்  பழைய எழுத்துருக்களுடனேயே உள்ளன. பழைய எழுத்துருக்களை மாற்றுவதற்காக நாம் பயன்படுத்தும் எழுத்துரு மாற்றிகளுக்கான நுட்பத்தைத் தேடுபொறிகளுக்கு வழங்கினால் தேடுபொறிகளால் பழைய எழுத்துருக்களையும் அறிந்துகொள்ளமுடியும்.

ஒரு மனிதன் காணொளியைப் பார்த்தால் புரிந்துகொள்வான். ஒலிவடிவில் கேட்டால் புரிந்துகொள்வான். ஆனால் மனிதன் அளவுக்கு தேடுபொறிகளால் புரிந்துகொள்ள இயலாது என்றாலும் ஒரு காணொலியையோ, ஒலிப் பதிவையோ யூடியூப்பில் பதிவேற்றம் செய்கிறோம் என்றால் அதில் இடம்பெறும் வார்த்தைகளையும் அதன் உச்சரிப்புகளுக்குக் கீழே வழங்கலாம் மேலும், அந்த காணொலி பற்றிய விளக்கம் மற்றும் குறிச்சொற்ளை மிகச் சரியாக வழங்குவதாலும் தேடுபொறிகளால் காணொலியில் இடம்பெறும் சொற்களை இனம்காண முடியும்.

இவ்வாறு தேடுபொறிகளின் தமிழ் மொழித்திறன் தற்போது குறைவாகத்தான் உள்ளது. அதை மேம்படுத்துவது நமது அன்றாட இணையப் பயன்பாடுகளிலும் மின் உள்ளடக்கங்களை உள்ளீடு செய்வதிலும் உள்ளது.

தேடுபொறிகளின் அறிவுத்திறன்

    தேடுபொறிகளின் அறிவுத்திறன் என்பது குறிச்சொற்களை எவ்வாறு புரிந்துகொள்கின்றன, எத்தகைய பரிந்துரைகளை அல்லது தேடல் முடிவுகளை வழங்குகின்றன என்பதாக அமைகிறது. மனிதர்களின் அறிவை, தன்னறிவு, சொல்லறிவு, கல்வியறிவு, கேள்வியறிவு, அனுபவ அறிவு, உலகியல் அறிவு என பலவகைப்படுத்தலாம். மனிதர்களை தசாவதானி, அஷ்டாவதானி, சதாவதானி என அவர்களின் திறனைக் கொண்டு பாகுபடுத்துவதும் உண்டு. மனிதர்களைப் போன்றே தேடுபொறிகளும் அறிவைப் பல வழிகளில் பெறுகின்றன. எழுத்து, ஒலி, காணொலி, நிழற்படம் என பல்வேறு கோப்புகளையும் தேடுவோரின் குறிச்சொற்களைக் கொண்டு நினைவில் வைத்துக்கொள்கின்றன. தேடுபொறிகளுக்குத் தமிழறிவு குறைவாகவே உள்ளது. அதற்குக் காரணம் தமிழ்ச் செய்திகளைத் தேடும் பலரும் ஆங்கிலத்திலோ, தமிங்கிலத்திலோ தேடுகின்றனர். தமிழ்ச்சொற்களால் தேடும்போது தேடு பொறிகளின் தமிழறிவு மேம்படும் என்பதை உணரவேண்டும்.

தேடுபொறிகளின் கற்றல் திறன்

முதல் வகை மாணவர்களை அன்னம், ஆ என்றும், இரண்டாம் வகை மாணவர்களை மண், கிளி, என்றும், மூன்றாம் வகை மாணவர்களை ஓட்டைக்குடம், ஆடு, எருமை, பன்னாடை எனவும் அவர்களின் கற்றல் திறன் அடிப்படையில் நன்னூலார் பகுப்பார். தேடுபொறிகளும் இவ்வாறுதான் கற்கின்றன. முதல் வகைத் தேடுபொறிகளுக்குத் தேவையான அறிவை தேடுபொறி நிறுவனத்தார் மட்டுமின்றி தேடுவோரும் வழங்குகின்றனர். தேடுபொறிகளின் கற்றல் குறிச்சொற்களில் தொடங்குகிறது. குறிச்சொற்களைப் படைப்பாளர்கள் வழங்கும் குறிச்சொற்கள். பார்வையாளர்கள் தேடும் குறிச்சொற்கள் என இரு நிலைகளில் பகுக்கலாம்.

தமிழ்த்தரவுத்தளம்

20 ஆண்டுகளுக்கு முன்பெல்லாம் நாம் தேடவிரும்பும் செய்திகளையே ஆங்கிலத்தில்தான் தேடினோம். கிடைத்த பரிந்துரைகளும் ஆங்கில இணையதளங்களே பெரிதும் இடம்பெற்றன.  தமிழில் கிடைத்தாலும் பழைய எழுத்துருக்களுடனேயே கிடைத்தன. ஆனால் இன்று நாம் என்ன தேடினாலும், விக்கிப்பீடியா, தமிழ் இணையக்கழகம், கோரா3 உள்ளிட்ட தளங்களும் வலைப்பதிவுகளும், காணொலி மற்றும் சமூகத்தளங்களும் பரிந்துரைகளாகக் கிடைக்கின்றன. அந்த அளவுக்குத் தமிழில் தரவுத்தளம் அதிகரித்துள்ளது. என்றாலும் தமிழ் மொழியின் தொன்மைக்கும் மொழி வளத்திற்கும் இது மிகமிகக் குறைவு என்றுதான் சொல்லவேண்டும். சான்றாக, தமிழ் விக்கிப்பீடியாவில் உள்ள கட்டுரைகள் 1,34,886 ஆகும். ஆங்கில விக்கிப்பீடியாவில் உள்ள கட்டுரைகள் 6,256,156 ஆகும். இதை உணர்ந்து தமிழ்த் தரவுகளை பல்வேறு ஊடகங்களிலும், வடிவங்களிலும் உள்ளிடு செய்யவேண்டும். பல்வேறு துறைசார்ந்த கலைச்சொற்களை உருவாக்கவும் உருவாக்கிய கலைச்சொற்களைப் பயன்படுத்துவதும், கணினிக்குத் தேவையான மொழியியல் வளங்களை வளர்ப்பதும் இன்றைய தேவையாகிறது.

குறிச்சொற்கள்

திறவுச் சொல், குறிச்சொல், முக்கியச் சொல் எனத் தமிழிலும் keyword, tag என ஆங்கிலத்திலும் இதனைக் குறிப்பிடுகிறோம். படங்கள், எழுத்துகள், காணொளிகள், மின்னூல்கள், ஒலிநூல்கள் என பல்வேறு கோப்புகளிலும் தமிழில் குறிச்சொற்களை வழங்கவேண்டும்.

சான்று - வலைப்பதிவில், பாரதியார் பற்றிய ஒரு பதிவிடுகிறோம் என்றால் அப்பதிவின் தலைப்பு, லேபிள், பதிவில் இடம்பெறும் சொற்கள், நிழற்படத்தின் குறிச்சொல் என எதுவேண்டுமானாலும் தேடுபொறியில் இடம்பெறலாம். அதனால் தமிழ், ஆங்கிலம், தமிங்கிலம் என மூன்று நிலைகளிலும் நாம் குறிச்சொற்களை வழங்கவேண்டும்.

     தேடுபொறிகளில் தேடுவோர் மின்னூல், பிடிஎப், பிபிடி,வேர்டு, jpeg, png, psd, என எந்த வடிவத்தில் வேண்டுமானாலும் தேடலாம். அதனால் நாம் வழங்கும் ஒவ்வொரு மின் உள்ளடக்கங்களிலும் தொடர்புடைய குறிச்சொற்களைத் தமிழில் வழங்குவது நல்லது.

படங்களும் செயற்கை நுண்ணறிவும்

படங்களில் உள்ள உருவங்களை தேடுபொறிகளுக்கு அறிமுகம் செய்யும் வழிகள் பல உள்ளன. சான்றாக, முகநூலில் நிழற்படங்களைப் பதிவேற்றும்போதே அந்த நிழற்படத்தில் உள்ளவர் பெயரைச் சுட்டிக்காட்டி இவருடன் இதைப் பகிர்கிறீர்களா என்று அந்த இணையபக்கம் கேட்கிறது. இது அந்த இணையபக்கத்தின் செயற்கை நுண்ணறிவுத் திறனால் செயல்படுகிறது. அதற்கு அந்தத் தளம் பல்வேறு நபர்களின் நிழற்படங்களையும் அப்படங்கள் குறித்த தரவுகளையும் சேமித்து வைத்ததே காரணமாகும். ஆனால் பல தமிழறிஞர்களின் நிழற்படங்கள் இணையபக்கங்களில் இருந்தும் அதைத் தேடுபொறிகளால் இனம்காண முடியவில்லை. அதற்குக் காரணம் அந்தத் தமிழறிஞர்களின் பெயர்களை தமிழிலோ, ஆங்கிலத்திலே சேமிக்காமல் இமேஜ் என்றோ எண்களிலோ சேமித்திருப்போம். இனிமேல் தேடுபொறிகளுக்குப் புரிவதுபோல் நாம் பதிவேற்றும் கோப்புகளின் பெயர்களை வழங்கினால் நிழற்படங்களை உணரும் திறன்களைத் தேடுபொறிகள் பெறும்.

தேடுபொறி மேம்படுத்தப்படுதல்

    தேடுபொறிகளை மேம்படுத்துவதில் அந்த நிறுவனத்தார் மட்டுமின்றி பயனாளர்களும் பெரும்பங்கு வகிக்கின்றனர். Search engine optimization என்ற சொல்லை SEO என்று அழைப்பதுண்டு. தமிழில் தேடுபொறியை மேம்படுத்தல் என்று கொள்ளலாம். நாம் இணையத்தில் வழங்கும் உள்ளடக்கங்களை தேடுபொறிக்குப் புரியுமாறு வழங்குவதே இதன் அடிப்படையாகும். சான்றாக நாம் பதிவேற்றும் நிழற்படங்கள் நமது திறன்பேசியில் எடுக்கப்பட்டதாக இருந்தால் அது imge0001, photo001 என்றோ இருக்கும். அதை நாம் தொடர்புடைய தமிழ்ச்சொற்களைக் குறிச்சொற்களாக வழங்கவேண்டும். சான்றாக அந்த நிழற்படக் கோப்பு, யானை பற்றியதாக இருந்தால் யானை என்று வழங்கலாம், இன்னும் நுட்பமாக களிறு, பிடி என்று கூட வழங்கலாம். அதே நேரம் தேடுவோர் ஆங்கிலத்திலும் தேடலாம் தமிங்கிலத்திலும் தேடலாம், தமிழிலும் தேடலாம் என்பதை நினைவில் கொள்ளவேண்டும். இருந்தாலும் தமிழ்த்தேடலுக்கென்றே நாம் பல குறிச்சொற்களை உருவாக்கவேண்டும். இதைப்போன்றே நாம் உருவாக்கும் காணொலியும் இவ்வாறு video001 என்பன போல அமையும். நாம் உருவாக்கும் மென்பொருள்களின் அடிப்படையில் இப்பெயர்கள் அமைகின்றன. அவற்றின் அடிப்படைப் பெயர்களை மாற்றி தொடர்புடைய குறிச்சொற்களை வழங்கவேண்டும். தேடுபொறிகளை இவ்வாறு மேம்படுத்துவதால் தேடுபொறிகளுக்குத் தமிழறிவைக் கற்பிக்கலாம். யூடியூப், வலைப்பதிவு, இணையதளம் வைத்திருப்போர் இந்தக் குறிச்சொற்களைச் சரியாக அமைத்துவிட்டால் பல்வேறு நாடுகளிலிருந்தும் பார்வையாளர்களை விரைவாகப் பெறமுடியும்.

தேடுபோறிகளுக்கேற்ற தமிழ்

    கடந்த 20 ஆண்டுகாலத்தில் தேடுபொறிகள் என்பன நாம் தேடும் சொற்களை இணையத்தில் தேடிப் பரிந்துரை செய்வனவாகவே அமைந்தன. ஆனால் இன்றைய தேடுபொறிகள் மனிதனைப் போலவே செயல்படும் அளவுக்கு வளர்ச்சியடைந்துள்ளன. அலெக்சா, கூகுள் அசிஸ்டென்ட் ஆகியன குரல்வழியான தேடலுக்கும், குரல் வழியான பதிலுக்குமான சான்றுகளாகும். நாம் வாழும் வீடு, பணியிடம், பயன்படுத்தும் கருவிகள், மகிழுந்து என யாவற்றிலும் கணினியின் பெரும்பங்கு உள்ளது.  அதனால் தேடுபொறிகளுக்குத் தேவையான பல்வேறு மின் உள்ளடக்கங்களைத் தமிழில் நாம் வழங்கவேண்டும்.

சான்று - 1. நாம் தேடுபொறியில் குரல் வழியாக ஏதோ ஒரு உணவைத் தேடுகிறோம் என்றால். அந்த உணவு அருகே எந்த உணவகத்தில் கிடைக்கும் என்றும், அந்த உணவகம் எவ்வளவு தூரத்தில் உள்ளது என்றும் தேடுபொறிகள் குரல்வழியே பதிலளிக்கின்றன.

சான்று - 2. நாம் ஒரு ஊருக்குச் செல்ல விரும்புகிறோம். அந்த ஊர் எவ்வளவு தூரத்தில் உள்ளது என்று கூகுள் மேப்பில் தேடுகிறோம் என்றால். அந்த ஊர் எத்தனை கி.மீ தொலைவில் உள்ளது. அதற்கு பேருந்து, விமானம், தொடர்வண்டி, இருசக்கர வாகனம் ஆகிய வசதி உள்ளதா என்றும் நடந்து சென்றால் எவ்வளவு நேரம் ஆகும் என்பது வரை பதில் கிடைக்கிறது. மேலும் வழிகாட்டுதல் என்பதும் அவரவர் தாய்மொழியிலேயே கிடைக்கிறது.

     நமது தேடல்களுக்கு சொற்களையும், கோப்புகளையும் தேடல் முடிவுகளாக வழங்கிய தேடுபொறிகள் இன்று பதில் சொல்லும் அளவுக்கு வளர்ந்துள்ளன. அதனால் தமிழ் வளங்களை எழுத்து வடிவில் மட்டுமின்றி குரல் வடிவிலும் உள்ளீடு செய்தல் வேண்டும்.

தேடுபொறிகளுக்கு பதிவுகளை வழங்குதல்

    தேடுபொறிகளுக்கு குறிச்சொற்களை வழங்குவதுபோல நம் பதிவுகளையும் கூகுள் சர்ச் கன்சோல்4 என்ற தளத்தில் வழங்கவேண்டும். நாம் 1 பதிவு எழுதியிருந்தாலும் 1000 பதிவுகள் எழுதியிருந்தாலும் இவ்வாறு வழங்குவதால் கூகுள் தேடுபொறிக்கு நம் பதிவுகள் எளிதில் தெரியும்.

நிறைவாக

தமிழ் கற்றல், கற்பித்தல் என்பது கணினி மனிதனிடம், மனிதன் கணினியிடம்  என இரு நிலைகளில் நிகழ்கிறது. அறிவு, அனுபவ அறிவு, பொது அறிவு, நினைவுத்திறன், செயல்திறன், உணர்வுகளைக் கையாளும் திறன் என பல்வேறு செயல்பாடுகள் மனிதனை அடிப்படையாகக் கொண்டு கணினிக்குக் கற்பிக்கப்பட்டு வருகின்றன.

·       தேடுபொறிகளை, விரைந்து தேடுதல், சரியான பரிந்துரை, தொடர்புடைய செய்திகளுக்கான பரிந்துரைத்தல், நம்பகத்தன்மையுள்ள செய்திகளை வழங்குதல் என்ற அடிப்படையில் வகைப்படுத்தலாம்

·       ழுத்துகளை வழங்கித் தேடுதல், குரல்வழியாகத் தேடுதல், நிழற்படங்களை வழங்கித்தேடுதல், குறிப்பிட்ட வகைக் கோப்புகளைத் தேடுதல் எனத் தேடுதல் முறைகள் பல உள்ளன.   

·       தேடுபொறிகளின் தமிழ்மொழித்திறன் இன்றைய சூழலில் குறைவாகவே உள்ளது. அதற்குக் காரணம் தமிழ்ச் செய்திகளைக் கூட ஆங்கிலத்திலும் தமிங்கிலத்திலும் பலர் தேடுகின்றனர். தமிழிலேயே தேடுவதாலும், தமிழில் குறிச்சொற்கள் வழங்குவதாலும் தேடுபொறிகளின் தமிழ்மொழித்திறனை வளர்க்கலாம்.

·       தேடுபொறிகளின் கற்றல் குறிச்சொற்களில் தொடங்குகிறது. குறிச்சொற்களைப் படைப்பாளர்கள் வழங்கும் குறிச்சொற்கள். பார்வையாளர்கள் தேடும் குறிச்சொற்கள் என இரு நிலைகளில் பகுக்கலாம்.

·       தமிழ்த் தரவுகளை பல்வேறு ஊடகங்களிலும், வடிவங்களிலும் உள்ளீடு செய்யவேண்டும். பல்வேறு துறைசார்ந்த கலைச்சொற்களை உருவாக்கவும் உருவாக்கிய கலைச்சொற்களைப் பயன்படுத்துவதும், கணினிக்குத் தேவையான மொழியியல் வளங்களை வளர்ப்பதும் இன்றைய தேவையாகிறது.

·       தேடுபொறிகளுக்குப் புரிவதுபோல் நாம் பதிவேற்றும் கோப்புகளின் பெயர்களை வழங்கினால் நிழற்படங்களை உணரும் திறன்களைத் தேடுபொறிகள் பெறும்.

·       நமது தேடல்களுக்கு சொற்களையும், கோப்புகளையும் தேடல் முடிவுகளாக வழங்கிய தேடுபொறிகள் இன்று பதில் சொல்லும் அளவுக்கு வளர்ந்துள்ளன. அதனால் தமிழ் வளங்களை எழுத்து வடிவில் மட்டுமின்றி குரல் வடிவிலும் உள்ளீடு செய்தல் வேண்டும்.

·       வலைப்பதிவு, இணையதளங்களில் நாம் எழுதிய பதிவுகளை கூகுள் சர்ச் கன்சோலில் வழங்குவதால் கூகுள் தேடுபொறி நம் பதிவுகளை விரைவாக கண்டுகொள்ளும்.

இவ்வாறு தேடுபொறிகளின் தேடல்த்திறனை அறிந்து அதற்கேற்ப தேடுபொறிகளுக்குத் தமிழ் மொழியைக் கற்பிப்போம். கணித்தமிழ் வளர்ப்போம்! காலத்தை வெல்வோம்.

அடிக்குறிப்புகள்

1. https://www.google.com/, https://www.bing.com/, https://search.yahoo.com/,    

  https://duckduckgo.com/, https://search.aol.com/, https://www.ask.com/

2. https://ta.wikisource.org/

3. https://ta.wikipedia.org/, http://www.tamilvu.org/, https://ta.quora.com/

4. https://search.google.com/

 


2 கருத்துகள்: