மனிதர்களின் அறிவை இயற்கையான அறிவு, செயற்கையான அறிவு என வகைப்படுத்த
இயலும். குலவித்தை கற்றுப் பாதி, கல்லாமற் பாதி என்ற பழமொழி கூட இக்கருத்தையே எடுத்துரைக்கிறது. இதையே வழக்கில் தன்னறிவு,
சொல்லறிவு எனவும் கூறுவதுண்டு. மனிதர்களுக்கு எப்படி கல்வி என்ற
முறை செயற்கையாக தம் அறிவை வளர்த்துக்கொள்ள உதவுகிறதோ அதுபோல, கணினி அல்லது
இயந்திரங்கள் ஆகியவற்றை
வைத்துக்கொண்டு அவற்றுக்குக் கற்பித்தல் வழியாக நுண்ணறிவை உருவாக்குகின்ற முறையே
செயற்கை நுண்ணறிவுத்திறன் (Artificial Intelligence) என்று
அழைக்கப்படுகிறது. பல்வேறு துறைகளிலும் இன்று செயற்கை நுண்ணறிவுத் திறன்
வளர்ந்து வருகிறது. தேடுபொறிகளுக்குத் தேவையான தமிழ் செயற்கை நுண்ணறிவுக் கூறுகளை எடுத்தியம்புவதாக
இக்கட்டுரை அமைகிறது.
தேடுபொறிகளின் வகைகள்
மக்களின் பயன்பாட்டு அடிப்படையிலும் தேடல் முறை
அடிப்படையிலும் தேடுபொறிகளைப் பலவகைப்படுத்த இயலும். சான்றாக, “கூகுள், பிங், யாகூ, டக்டக்கோ, ஏ.ஓ.எல், ஆஸ்க்,”1 ஆகிய தேடுபொறிகளைக்
குறிப்பிடலாம்.
இத்தேடுபொறிகளை, விரைந்து தேடுதல்,
சரியான பரிந்துரை, தொடர்புடைய செய்திகளுக்கான பரிந்துரைத்தல்,
நம்பகத் தன்மையுள்ள செய்திகளை வழங்குதல் என்ற அடிப்படையிலும், மெதுவாகத் தேடுதல், தவறான
பரிந்துரை, தொடர்பற்ற செய்திகளுக்கான பரிந்துரைத்தல், நம்பகத்தன்மையற்ற செய்திகளை வழங்குதல் எனவும் வகைப்படுத்த இயலும்.
தேடலின் முறைகள்
தேடுபொறிகளில் தேடுவதில் பல்வேறு முறைகள் பின்பற்றப்படுகின்றன.
எழுத்துகளை வழங்கித் தேடுதல், குரல்வழியாகத்
தேடுதல், நிழற்படங்களை வழங்கித்தேடுதல், குறிப்பிட்ட வகைக் கோப்புகளைத் தேடுதல் எனத் தேடுதல் முறைகள் பல உள்ளன.
சான்றாக, திருக்குறள்
நூல் என ஒருவர் தேடினால் அது மின்னூலா, அச்சு நூலா, மூல நூலா, உரை நூலா, ஆய்வு நூலா,
ஒலி நூலா, காணொலிப் பதிவா என பல கேள்விகள் தேடுபொறிகளுக்குத் தோன்றும். மேலும் தேடுபவர்
தமிழிலும் தேடலாம், ஆங்கிலத்திலும் தேடலாம், தமிங்கிலத்திலும் தேடலாம். இவ்வாறு தேடுவதில்
பல முறைகள் கடைபிடிக்கப்படுகின்றன.
தேடுபொறிகளின் தமிழ் மொழித்திறன்
தேடுபொறிகளில் தற்போது ஒருங்குறி வடிவில் உள்ள
எழுத்துகளை மட்டுமே தேடிப் பெறமுடிகிறது. நிழற்பட வடிவில் உள்ள தமிழ் எழுத்துகளை தேடுபொறிகளால்
வாசிக்க இயலவில்லை. பழந்தமிழறிஞர்களின் நாட்டுடைமையாக்கப்பட்ட
பல நூல்கள் நிழற்பட வடிவில் உள்ளன என்பதை நாம் நினைவுகொள்ள வேண்டும். ஒளி எழுத்துணரி (Optical character recognition) என்ற நுட்பத்தின் வழியாக
பல அரிய நூல்களை ஒருங்குறி எழுத்துவடிவில் மாற்றி அதைத் திருத்தி வலைப்பதிவு, இணையதளம்
எனப் பல்வேறு தளங்களில் உள்ளீடு செய்யவேண்டும்.
சான்றாக “விக்கி மூலத்தைக்”2 குறிப்பிடலாம்.
அதில் பலரும் பங்கேற்று தமிழை வளப்படுத்தலாம். அவ்வாறு செய்வதால் தமிழுக்கான தரவுத்தளம்
பெரிதாகும். தேடுபொறிகளும் செய்திகளை துல்லியமாகவும் மிகுதியாகவும் பரிந்துரை செய்ய
இயலும்.
பழைய தமிழ் எழுத்துருக்களை தேடுபொறிகளால் வாசிக்க
இயலவில்லை. வலைப்பதிவுகள், இணையதளங்கள் என பல
இணையத்தமிழ் உள்ளடக்கங்கள் பழைய எழுத்துருக்களுடனேயே
உள்ளன. பழைய எழுத்துருக்களை மாற்றுவதற்காக நாம் பயன்படுத்தும் எழுத்துரு மாற்றிகளுக்கான
நுட்பத்தைத் தேடுபொறிகளுக்கு வழங்கினால் தேடுபொறிகளால் பழைய எழுத்துருக்களையும் அறிந்துகொள்ளமுடியும்.
ஒரு மனிதன் காணொளியைப் பார்த்தால் புரிந்துகொள்வான். ஒலிவடிவில்
கேட்டால் புரிந்துகொள்வான். ஆனால் மனிதன் அளவுக்கு தேடுபொறிகளால் புரிந்துகொள்ள இயலாது
என்றாலும் ஒரு காணொலியையோ, ஒலிப் பதிவையோ யூடியூப்பில் பதிவேற்றம் செய்கிறோம் என்றால்
அதில் இடம்பெறும் வார்த்தைகளையும் அதன் உச்சரிப்புகளுக்குக் கீழே வழங்கலாம் மேலும்,
அந்த காணொலி பற்றிய விளக்கம் மற்றும் குறிச்சொற்ளை மிகச் சரியாக வழங்குவதாலும் தேடுபொறிகளால்
காணொலியில் இடம்பெறும் சொற்களை இனம்காண முடியும்.
இவ்வாறு தேடுபொறிகளின் தமிழ் மொழித்திறன் தற்போது குறைவாகத்தான்
உள்ளது. அதை மேம்படுத்துவது நமது அன்றாட இணையப் பயன்பாடுகளிலும் மின் உள்ளடக்கங்களை
உள்ளீடு செய்வதிலும் உள்ளது.
தேடுபொறிகளின் அறிவுத்திறன்
தேடுபொறிகளின் அறிவுத்திறன் என்பது குறிச்சொற்களை
எவ்வாறு புரிந்துகொள்கின்றன, எத்தகைய பரிந்துரைகளை அல்லது தேடல் முடிவுகளை வழங்குகின்றன என்பதாக அமைகிறது. மனிதர்களின் அறிவை, தன்னறிவு, சொல்லறிவு, கல்வியறிவு,
கேள்வியறிவு, அனுபவ அறிவு, உலகியல் அறிவு என பலவகைப்படுத்தலாம். மனிதர்களை தசாவதானி,
அஷ்டாவதானி, சதாவதானி என அவர்களின் திறனைக் கொண்டு பாகுபடுத்துவதும் உண்டு. மனிதர்களைப்
போன்றே தேடுபொறிகளும் அறிவைப் பல வழிகளில் பெறுகின்றன. எழுத்து, ஒலி, காணொலி, நிழற்படம்
என பல்வேறு கோப்புகளையும் தேடுவோரின் குறிச்சொற்களைக் கொண்டு நினைவில் வைத்துக்கொள்கின்றன.
தேடுபொறிகளுக்குத் தமிழறிவு குறைவாகவே உள்ளது. அதற்குக் காரணம் தமிழ்ச் செய்திகளைத்
தேடும் பலரும் ஆங்கிலத்திலோ, தமிங்கிலத்திலோ தேடுகின்றனர். தமிழ்ச்சொற்களால் தேடும்போது
தேடு பொறிகளின் தமிழறிவு மேம்படும் என்பதை உணரவேண்டும்.
தேடுபொறிகளின் கற்றல் திறன்
முதல் வகை மாணவர்களை அன்னம், ஆ என்றும், இரண்டாம் வகை மாணவர்களை
மண், கிளி, என்றும், மூன்றாம் வகை மாணவர்களை ஓட்டைக்குடம், ஆடு, எருமை, பன்னாடை எனவும்
அவர்களின் கற்றல் திறன் அடிப்படையில் நன்னூலார் பகுப்பார். தேடுபொறிகளும் இவ்வாறுதான்
கற்கின்றன. முதல் வகைத் தேடுபொறிகளுக்குத் தேவையான அறிவை தேடுபொறி நிறுவனத்தார் மட்டுமின்றி
தேடுவோரும் வழங்குகின்றனர். தேடுபொறிகளின் கற்றல் குறிச்சொற்களில் தொடங்குகிறது. குறிச்சொற்களைப்
படைப்பாளர்கள் வழங்கும் குறிச்சொற்கள். பார்வையாளர்கள் தேடும் குறிச்சொற்கள் என இரு
நிலைகளில் பகுக்கலாம்.
தமிழ்த்தரவுத்தளம்
20 ஆண்டுகளுக்கு முன்பெல்லாம் நாம் தேடவிரும்பும் செய்திகளையே
ஆங்கிலத்தில்தான் தேடினோம். கிடைத்த பரிந்துரைகளும் ஆங்கில இணையதளங்களே பெரிதும் இடம்பெற்றன. தமிழில் கிடைத்தாலும் பழைய எழுத்துருக்களுடனேயே
கிடைத்தன. ஆனால் இன்று நாம் என்ன தேடினாலும், “விக்கிப்பீடியா, தமிழ் இணையக்கழகம், கோரா”3 உள்ளிட்ட தளங்களும்
வலைப்பதிவுகளும், காணொலி மற்றும் சமூகத்தளங்களும் பரிந்துரைகளாகக் கிடைக்கின்றன. அந்த
அளவுக்குத் தமிழில் தரவுத்தளம் அதிகரித்துள்ளது. என்றாலும் தமிழ் மொழியின் தொன்மைக்கும்
மொழி வளத்திற்கும் இது மிகமிகக் குறைவு என்றுதான் சொல்லவேண்டும். சான்றாக, தமிழ் விக்கிப்பீடியாவில்
உள்ள கட்டுரைகள் 1,34,886 ஆகும். ஆங்கில விக்கிப்பீடியாவில் உள்ள கட்டுரைகள்
6,256,156 ஆகும். இதை உணர்ந்து தமிழ்த் தரவுகளை பல்வேறு ஊடகங்களிலும், வடிவங்களிலும்
உள்ளிடு செய்யவேண்டும். பல்வேறு துறைசார்ந்த கலைச்சொற்களை உருவாக்கவும் உருவாக்கிய
கலைச்சொற்களைப் பயன்படுத்துவதும், கணினிக்குத் தேவையான மொழியியல் வளங்களை வளர்ப்பதும்
இன்றைய தேவையாகிறது.
குறிச்சொற்கள்
திறவுச் சொல், குறிச்சொல், முக்கியச் சொல் எனத் தமிழிலும்
keyword, tag என ஆங்கிலத்திலும் இதனைக் குறிப்பிடுகிறோம். படங்கள்,
எழுத்துகள், காணொளிகள், மின்னூல்கள்,
ஒலிநூல்கள் என பல்வேறு கோப்புகளிலும் தமிழில் குறிச்சொற்களை வழங்கவேண்டும்.
சான்று - வலைப்பதிவில், பாரதியார் பற்றிய ஒரு பதிவிடுகிறோம்
என்றால் அப்பதிவின் தலைப்பு, லேபிள், பதிவில் இடம்பெறும் சொற்கள், நிழற்படத்தின் குறிச்சொல்
என எதுவேண்டுமானாலும் தேடுபொறியில் இடம்பெறலாம். அதனால் தமிழ், ஆங்கிலம், தமிங்கிலம்
என மூன்று நிலைகளிலும் நாம் குறிச்சொற்களை வழங்கவேண்டும்.
தேடுபொறிகளில்
தேடுவோர் மின்னூல், பிடிஎப், பிபிடி,வேர்டு, jpeg, png, psd, என எந்த வடிவத்தில் வேண்டுமானாலும்
தேடலாம். அதனால் நாம் வழங்கும் ஒவ்வொரு மின் உள்ளடக்கங்களிலும் தொடர்புடைய குறிச்சொற்களைத்
தமிழில் வழங்குவது நல்லது.
படங்களும் செயற்கை நுண்ணறிவும்
படங்களில் உள்ள உருவங்களை தேடுபொறிகளுக்கு அறிமுகம்
செய்யும் வழிகள் பல உள்ளன. சான்றாக, முகநூலில்
நிழற்படங்களைப் பதிவேற்றும்போதே அந்த நிழற்படத்தில் உள்ளவர் பெயரைச் சுட்டிக்காட்டி
இவருடன் இதைப் பகிர்கிறீர்களா என்று அந்த இணையபக்கம் கேட்கிறது. இது அந்த இணையபக்கத்தின்
செயற்கை நுண்ணறிவுத் திறனால் செயல்படுகிறது. அதற்கு அந்தத் தளம் பல்வேறு நபர்களின்
நிழற்படங்களையும் அப்படங்கள் குறித்த தரவுகளையும் சேமித்து வைத்ததே காரணமாகும். ஆனால்
பல தமிழறிஞர்களின் நிழற்படங்கள் இணையபக்கங்களில் இருந்தும் அதைத் தேடுபொறிகளால் இனம்காண
முடியவில்லை. அதற்குக் காரணம் அந்தத் தமிழறிஞர்களின் பெயர்களை தமிழிலோ, ஆங்கிலத்திலே
சேமிக்காமல் இமேஜ் என்றோ எண்களிலோ சேமித்திருப்போம். இனிமேல் தேடுபொறிகளுக்குப் புரிவதுபோல்
நாம் பதிவேற்றும் கோப்புகளின் பெயர்களை வழங்கினால் நிழற்படங்களை உணரும் திறன்களைத்
தேடுபொறிகள் பெறும்.
தேடுபொறி மேம்படுத்தப்படுதல்
தேடுபொறிகளை மேம்படுத்துவதில் அந்த நிறுவனத்தார் மட்டுமின்றி
பயனாளர்களும் பெரும்பங்கு வகிக்கின்றனர். Search engine
optimization என்ற சொல்லை SEO என்று அழைப்பதுண்டு.
தமிழில் தேடுபொறியை மேம்படுத்தல் என்று கொள்ளலாம். நாம் இணையத்தில் வழங்கும் உள்ளடக்கங்களை
தேடுபொறிக்குப் புரியுமாறு வழங்குவதே இதன் அடிப்படையாகும். சான்றாக நாம் பதிவேற்றும்
நிழற்படங்கள் நமது திறன்பேசியில் எடுக்கப்பட்டதாக இருந்தால் அது imge0001,
photo001 என்றோ இருக்கும். அதை நாம் தொடர்புடைய தமிழ்ச்சொற்களைக் குறிச்சொற்களாக வழங்கவேண்டும்.
சான்றாக அந்த நிழற்படக் கோப்பு, யானை பற்றியதாக இருந்தால் யானை என்று வழங்கலாம், இன்னும்
நுட்பமாக களிறு, பிடி என்று கூட வழங்கலாம். அதே நேரம் தேடுவோர் ஆங்கிலத்திலும் தேடலாம்
தமிங்கிலத்திலும் தேடலாம், தமிழிலும் தேடலாம் என்பதை நினைவில் கொள்ளவேண்டும். இருந்தாலும்
தமிழ்த்தேடலுக்கென்றே நாம் பல குறிச்சொற்களை உருவாக்கவேண்டும். இதைப்போன்றே நாம் உருவாக்கும்
காணொலியும் இவ்வாறு video001 என்பன போல அமையும். நாம் உருவாக்கும் மென்பொருள்களின்
அடிப்படையில் இப்பெயர்கள் அமைகின்றன. அவற்றின் அடிப்படைப் பெயர்களை மாற்றி தொடர்புடைய
குறிச்சொற்களை வழங்கவேண்டும். தேடுபொறிகளை இவ்வாறு மேம்படுத்துவதால் தேடுபொறிகளுக்குத்
தமிழறிவைக் கற்பிக்கலாம். யூடியூப், வலைப்பதிவு, இணையதளம் வைத்திருப்போர் இந்தக் குறிச்சொற்களைச்
சரியாக அமைத்துவிட்டால் பல்வேறு நாடுகளிலிருந்தும் பார்வையாளர்களை விரைவாகப் பெறமுடியும்.
தேடுபோறிகளுக்கேற்ற தமிழ்
கடந்த 20 ஆண்டுகாலத்தில் தேடுபொறிகள் என்பன நாம் தேடும் சொற்களை
இணையத்தில் தேடிப் பரிந்துரை செய்வனவாகவே அமைந்தன. ஆனால் இன்றைய தேடுபொறிகள் மனிதனைப்
போலவே செயல்படும் அளவுக்கு வளர்ச்சியடைந்துள்ளன. அலெக்சா, கூகுள் அசிஸ்டென்ட் ஆகியன
குரல்வழியான தேடலுக்கும், குரல் வழியான பதிலுக்குமான சான்றுகளாகும். நாம் வாழும் வீடு,
பணியிடம், பயன்படுத்தும் கருவிகள், மகிழுந்து என யாவற்றிலும் கணினியின் பெரும்பங்கு
உள்ளது. அதனால் தேடுபொறிகளுக்குத் தேவையான
பல்வேறு மின் உள்ளடக்கங்களைத் தமிழில் நாம் வழங்கவேண்டும்.
சான்று - 1. நாம்
தேடுபொறியில் குரல் வழியாக ஏதோ ஒரு உணவைத் தேடுகிறோம் என்றால். அந்த உணவு அருகே எந்த
உணவகத்தில் கிடைக்கும் என்றும், அந்த உணவகம் எவ்வளவு தூரத்தில் உள்ளது என்றும் தேடுபொறிகள்
குரல்வழியே பதிலளிக்கின்றன.
சான்று - 2. நாம்
ஒரு ஊருக்குச் செல்ல விரும்புகிறோம். அந்த ஊர் எவ்வளவு தூரத்தில் உள்ளது என்று கூகுள்
மேப்பில் தேடுகிறோம் என்றால். அந்த ஊர் எத்தனை கி.மீ தொலைவில் உள்ளது. அதற்கு பேருந்து,
விமானம், தொடர்வண்டி, இருசக்கர வாகனம் ஆகிய வசதி உள்ளதா என்றும் நடந்து சென்றால் எவ்வளவு
நேரம் ஆகும் என்பது வரை பதில் கிடைக்கிறது. மேலும் வழிகாட்டுதல் என்பதும் அவரவர் தாய்மொழியிலேயே
கிடைக்கிறது.
நமது தேடல்களுக்கு
சொற்களையும், கோப்புகளையும் தேடல் முடிவுகளாக வழங்கிய தேடுபொறிகள் இன்று பதில் சொல்லும்
அளவுக்கு வளர்ந்துள்ளன. அதனால் தமிழ் வளங்களை எழுத்து வடிவில் மட்டுமின்றி குரல் வடிவிலும்
உள்ளீடு செய்தல் வேண்டும்.
தேடுபொறிகளுக்கு பதிவுகளை வழங்குதல்
தேடுபொறிகளுக்கு குறிச்சொற்களை வழங்குவதுபோல நம் பதிவுகளையும்
“கூகுள் சர்ச் கன்சோல்”4 என்ற தளத்தில்
வழங்கவேண்டும். நாம் 1 பதிவு எழுதியிருந்தாலும் 1000 பதிவுகள் எழுதியிருந்தாலும் இவ்வாறு
வழங்குவதால் கூகுள் தேடுபொறிக்கு நம் பதிவுகள் எளிதில் தெரியும்.
நிறைவாக
தமிழ் கற்றல், கற்பித்தல் என்பது கணினி மனிதனிடம், மனிதன் கணினியிடம் என இரு நிலைகளில் நிகழ்கிறது. அறிவு, அனுபவ அறிவு, பொது அறிவு, நினைவுத்திறன்,
செயல்திறன், உணர்வுகளைக் கையாளும் திறன் என
பல்வேறு செயல்பாடுகள் மனிதனை அடிப்படையாகக் கொண்டு கணினிக்குக் கற்பிக்கப்பட்டு
வருகின்றன.
·
தேடுபொறிகளை, விரைந்து தேடுதல், சரியான பரிந்துரை, தொடர்புடைய
செய்திகளுக்கான பரிந்துரைத்தல், நம்பகத்தன்மையுள்ள செய்திகளை வழங்குதல் என்ற அடிப்படையில்
வகைப்படுத்தலாம்
·
எழுத்துகளை
வழங்கித் தேடுதல், குரல்வழியாகத் தேடுதல், நிழற்படங்களை வழங்கித்தேடுதல், குறிப்பிட்ட வகைக்
கோப்புகளைத் தேடுதல் எனத் தேடுதல் முறைகள் பல உள்ளன.
·
தேடுபொறிகளின் தமிழ்மொழித்திறன்
இன்றைய சூழலில் குறைவாகவே உள்ளது. அதற்குக் காரணம் தமிழ்ச் செய்திகளைக் கூட ஆங்கிலத்திலும்
தமிங்கிலத்திலும் பலர் தேடுகின்றனர். தமிழிலேயே தேடுவதாலும், தமிழில் குறிச்சொற்கள்
வழங்குவதாலும் தேடுபொறிகளின் தமிழ்மொழித்திறனை வளர்க்கலாம்.
·
தேடுபொறிகளின் கற்றல்
குறிச்சொற்களில் தொடங்குகிறது. குறிச்சொற்களைப் படைப்பாளர்கள் வழங்கும் குறிச்சொற்கள்.
பார்வையாளர்கள் தேடும் குறிச்சொற்கள் என இரு நிலைகளில் பகுக்கலாம்.
·
தமிழ்த் தரவுகளை பல்வேறு
ஊடகங்களிலும், வடிவங்களிலும் உள்ளீடு செய்யவேண்டும். பல்வேறு துறைசார்ந்த கலைச்சொற்களை
உருவாக்கவும் உருவாக்கிய கலைச்சொற்களைப் பயன்படுத்துவதும், கணினிக்குத் தேவையான மொழியியல்
வளங்களை வளர்ப்பதும் இன்றைய தேவையாகிறது.
·
தேடுபொறிகளுக்குப் புரிவதுபோல்
நாம் பதிவேற்றும் கோப்புகளின் பெயர்களை வழங்கினால் நிழற்படங்களை உணரும் திறன்களைத்
தேடுபொறிகள் பெறும்.
·
நமது தேடல்களுக்கு சொற்களையும்,
கோப்புகளையும் தேடல் முடிவுகளாக வழங்கிய தேடுபொறிகள் இன்று பதில் சொல்லும் அளவுக்கு
வளர்ந்துள்ளன. அதனால் தமிழ் வளங்களை எழுத்து வடிவில் மட்டுமின்றி குரல் வடிவிலும் உள்ளீடு
செய்தல் வேண்டும்.
·
வலைப்பதிவு, இணையதளங்களில்
நாம் எழுதிய பதிவுகளை கூகுள் சர்ச் கன்சோலில் வழங்குவதால் கூகுள் தேடுபொறி நம் பதிவுகளை
விரைவாக கண்டுகொள்ளும்.
இவ்வாறு தேடுபொறிகளின் தேடல்த்திறனை அறிந்து அதற்கேற்ப தேடுபொறிகளுக்குத்
தமிழ் மொழியைக் கற்பிப்போம். கணித்தமிழ் வளர்ப்போம்! காலத்தை வெல்வோம்.
அடிக்குறிப்புகள்
1. https://www.google.com/,
https://www.bing.com/,
https://search.yahoo.com/,
https://duckduckgo.com/,
https://search.aol.com/,
https://www.ask.com/
3. https://ta.wikipedia.org/, http://www.tamilvu.org/, https://ta.quora.com/
நிறையத் தமிழ்ச் சொற்களை அறிந்து கொண்டேன்..அருமையாக விளக்கிச் சொல்லியிருக்கிறீர்கள். நன்றி
பதிலளிநீக்குநன்றி அம்மா
நீக்கு