(Tamil in
Artificial Intelligence Chatbots)
முனைவர் இரா.குணசீலன்
தமிழ்
இணைப்பேராசிரியர்
பி.எஸ்.ஜி. கலை அறிவியல்
கல்லூரி
கோயம்புத்தூர்
மனிதர்களை விலங்குகளுடன் வேறுபடுத்திக்காட்டுவது அறிவு. விலங்குகளைவிட மனிதர்கள் அறிவுடையவர்களாகத் திகழ்வதற்கு கல்வியே அடித்தளமாக அமைகிறது. அதனால் தான் வள்ளுவர் கற்றவர்களுக்கும் கல்லாதவர்களுக்குமான வேறுபாடு, விலங்குகளுக்கும் மனிதர்களுக்குமான வேறுபாடு என்பார். மனிதர்களின் அறிவால் உருவாக்கப்பட்ட கணினி, இயந்திர வழி கற்றல் வழியாக செயற்கை நுண்ணறிவுள்ள கருவியாக உருமாறி வருகின்றது. கணினியின் நுட்பங்களுள் செயற்கை நுண்ணறிவு (Artificial Intelligence) குறிப்பிடத்தக்கது. செயற்கை நுண்ணறிவு உரையாடிகளில் (chatbots) தமிழின் தற்கால நிலையை எடுத்துரைப்பதாக இக்கட்டுரை அமைகிறது.
செயற்கை நுண்ணறிவு
உரையாடிகளும் எலிசாவும்
‘ChatBot‘ என்ற சொல்லை
அரட்டை இயலி, உரையாடி என அழைக்கிறோம். சாட்பாட் என்பது ஒரு கணினி நிரலாகும், இது மனிதர்களுடன்
உரையாடுவதற்காகப் பயன்படுகிறது. மனிதர்கள் உண்மையான மனிதருடன்
தொடர்புகொள்வது போல மின்னணுக் கருவிகளுடன் தொடர்பு கொள்ள அனுமதிக்கிறது. “எலிசா (ELIZA) என்பது ஆரம்பகால இயற்கை மொழி செயலாக்க
கணினி நிரலாகும்’1. ‘கணினி மென்பொருள்
மனிதர்களுடன் உரையாடும்போது மறுமுனையில் உள்ளவருக்கு, தான்
பேசிக்கொண்டிருப்பது ஒரு புரோகிராமுடன் என்ற எண்ணம் ஏற்படாத வகையில் உரையாடல் அமையுமானால்,
அந்த மென்பொருள் செயற்கை நுண்ணறிவு பெற்றிருப்பதாக கருதலாம்’2 எனும் கருத்தை டூரிங் என்ற அறிஞர் முன் வைத்திருந்தார். எலிசா கணினி உலகின் முதல் பேசும் மென்பொருளாக கருதப்படுவதோடு, சாட் ஜிபிடிக்கு முன்னோடியாகவும் அமைகிறது. அமெரிக்காவின்
எம்.ஐ.டி பல்கலைக்கழகத்தைச் சேர்ந்த
கணினி அறிஞர் ஜோசப் வெய்சன்பாம் (Joseph Weizenbaum) தான்
எலிசா மென்பொருளை உருவாக்கினார்.
தற்கால செயற்கை
நுண்ணறிவு உரையாடிகள்
தற்காலத்தில் வணிகம்,
மருத்துவம், தொலைத்தொடர்பு, அரசு சேவை எனப் பல நிலைகளிலும் செயற்கை நுண்ணறிவு உரையாடிகள் பயன்படுகின்றன.
இவை வழக்கமான கேள்விகளைத் தொகுத்து அக்கேள்விகளுக்கான பொதுவான பதில்களை
வழங்கும் நிலையில் வடிவமைக்கப்பட்டுள்ளன. இவற்றுள்
‘சாட் ஜி.பி.டி‘3 தனித்துவமுடையதாகவும் பலரின் கவனத்தையும் கவர்வதாகவும் திகழ்ந்தமையால்
‘கூகுள் பார்ட்‘4, அதற்கு இணையாக வடிவமைக்கப்பட்டு
மக்களின் பயன்பாட்டுக்கு வந்துள்ளது. மேலும் ஆய்வுநிலையில்
உள்ள செயற்கை நுண்ணறிவுத் தமிழ் உரையாடிகளாக, பிழையின்றி எழுத
‘வாணி உரையாடி‘5, விக்கி தரவுடன் உரையாட‘
சாட்விக்கி‘6, எலிசா
என்ற ஆங்கில வழிநிரலின் அடிப்படையில் உருவாக்கப்பட்ட ‘ஆயிதழ் அவினி‘7, ‘குறள்போட்‘8, ‘அன்னை பூபதி‘9. ஆகிய உரையாடிகளைக்
குறிப்பிடலாம். தமிழ் உரையாடிகளுக்கு முன்னோடியாக,
உத்தமம் 2003 மாநாட்டில் தமிழில்
‘பூங்குழலி‘10 அரட்டை இயலி அறிமுகப்படுத்தப்பட்டது.
தற்கால செயற்கை நுண்ணறிவு உரையாடிகளை கணினியில் மட்டுமின்றி திறன்பேசிகளிலும்
பயன்படுத்த இயலும். மேலும் குரல் வழி உரையாடவும், பதில்களைக் குரல் வடிவில் பெறவும் முடியும். ஒருவருக்கு
அதிகாரப்பூர்வமான மின்னஞ்சல் எழுதுவது தொடங்கி, கோடிங் எழுதுவது,
கல்வி நிறுவனங்களில் கொடுக்கப்படும் பணிகளை செய்து முடிப்பது வரை
இன்று பலராலும் இவை பயன்படுத்தப்படுகின்றன.
சாட் ஜி.பி.டியில் தமிழ்
OpenAI
ஆல் உருவாக்கப்பட்ட ஒரு பெரிய மொழி மாதிரி அடிப்படையிலான சாட்போட்
ஆகும், இது நவம்பர் 30, 2022 அன்று
தொடங்கப்பட்டது. இதன் சில வசதிகள் இலவசமாகவும், கூடுதல் வசதிகள் கட்டணத்துடன் கிடைக்கின்றன. இதன்
இலவச வசதியில் GPT-3.5 மாதிரிக்கான அணுகல், நிலையான பதில் வேகம் வழக்கமான மாதிரிப் புதுப்பிப்புகள் ஆகியன கிடைக்கின்றன.
கட்டண வசதியில், 20 டாலர் செலுத்திக் கூடுதல்
வசதிகளைப் பெறமுடியும். இதில் GPT-4 க்கான அணுகல், திறமையான மாதிரி, வேகமான பதில் வேகம், செருகுநிரல்கள் மற்றும் மேம்பட்ட தரவு பகுப்பாய்வு போன்ற அம்சங்களுக்கான
சிறப்பு அணுகல் கிடைக்கின்றன. சாட் ஜி.பி.டியில் ஆங்கிலத்துடன் ஒப்பிடும்போது தமிழ் மொழியின்
துல்லியத்தன்மை குறைவாகவே உள்ளது.
கூகுள் பார்ட்
கூகுள் வழங்கும் செயற்கை நுண்ணறிவு உரையாடல்
கருவியான பார்ட், சிந்தனைகளைக் கூர்மையாக்கவும், படைப்பாற்றலைத் தூண்டவும், உற்பத்தித் திறனை விரைவுடுத்தவும்
உதவுவதாக இக்கருவி அறிமுகப்படுத்தப்படுகிறது. இது OpenAI இன் ChatGPTயின் போட்டியாக உருவாக்கப்பட்டது, பிப்ரவரி 6, 2023 அன்று, கூகுள் பார்டை அறிவித்தது. இதற்கு உரை மற்றும் குறியீட்டின் ஒரு பெரிய தரவுத்தளத்தில் பயிற்சி அளிக்கப்படுகிறது,
மேலும் இதன்வழியாக கவிதைகள், கதை,
வரலாறு, நிரலாக்கம், வடிவமைப்பு , மொழிபெயர்ப்பு, கடிதங்கள் போன்ற பல்வேறு படைப்பின்
உரை வடிவங்களை உருவாக்கலாம். படங்களை உள்ளிட்டு எழுத்துணரியாக்கம்
செய்யும் நுட்பம் ஆய்வு நிலையில் உள்ளது.
சாட் ஜி.பி.டி & கூகுள் பார்ட் ஒப்பீடு
கணினி மொழிகள்,
தரவுகளைத் தொகுத்தல், தரவுப் பகுப்பாய்வு,
ஆய்வு மற்றும் மதிப்பீடு, துல்லியமான பதில்களை
வழங்குதல் ஆகிய நிலைகளில் இரண்டும் வேறுபடுகின்றன.
பல கட்டுரைகள் அல்லது உரையாடல்கள் ஜி.பி.டிக்கு வழங்கப்படுகிறது. அவற்றைப் பயன்படுத்தி, மொழியின் கட்டமைப்புகளையும், வடிவங்களையும் இலக்கண மரபுகளையும் ஜி.பி.டி புரிந்துகொள்கிறது.
போதுமான அளவுக்கு மொழியை உணர்ந்து கொண்ட பிறகு, கேட்கும் கேள்விகளுக்கு ஏற்ப ஜி.பி.டி சொந்தமாக தன் சொல் வங்கியில் இருந்து சொற்களைப் பயன்படுத்தி
பதிலளிக்கத் தொடங்கும். சாட்ஜி.பி.டி தொழில்நுட்பம், டிரான்ஸ்ஃபார்மர் என்கிற அல்காரிதத்தைப் பயன்படுத்தி வருகிறது. இந்த அல்காரிதம் நியூரல்
நெட்வொர்க்கிங் அடிப்படையில் இயங்குகிறது.
இது ஒரு வகையான கணினி நிரலாக்கம் தான் என்றாலும், அது மனித மூளை வேலை செய்வதை ஒட்டி வடிவமைக்கப்பட்டது என்பது குறிப்பிடத்தக்கது. இந்த அல்காரிதத்தால்
தரவுகள், வரி வடிவங்கள் போன்றவைகளை
பகுத்தாய்ந்து புரிந்து கொள்ள முடியும். அதைப் பயன்படுத்தி
மனிதர்கள் பேசுவதைப் போன்ற உரையாடல்களை சாட் ஜி.பி.டி உருவாக்கும். சாட் ஜி.பி.டி தொழில் நுட்பத்திற்கு 2021 ஆம் ஆண்டு
வரையான தரவுகள் மட்டுமே உள்ளீடாக கொடுக்கப்பட்டிருக்கிறது. எனவே புதிய விவரங்களை
சாட் ஜி.பி.டி தர இயலாது.
கூகுள் பார்ட், LaMDA (Language Model for Dialogue
Applications) என்கிற தொழில்நுட்பத்தைப் பயன்படுத்துகிறது.
இணையத்தில் உள்ள எல்லா விவரங்களையும் பயன்படுத்தி பயனர்கள் கேட்கும்
கேள்விகளுக்கு அந்த நொடி வரையான விவரங்களை ஆராய்ந்து பதில் அளிக்கும். தேடுபொறிக்கும் மெய்நிகர் உதவியாளருக்கும் (Virtual assistant) இடையிலான கலவையாக கூகுள் பார்ட் செயல்படுகிறது. கூகுள் பார்ட் பயன்பாட்டுக்கு வரும் முன்பே கூகுள் உதவியாளர் (Google Assistant) இந்த
வசதிகளை வழங்கியதை நாம் அறிவோம். சாட் ஜி.பி.டி கூடுதல் வசதிகளை கட்டணத்துடன் வழங்கினாலும்
கூகுள் பார்ட்முழுவதும் இலவசமாகவே வழங்குவது குறிப்பிடத்தக்கது.
தமிழ் மொழிப் பயன்பாட்டு நிலையில் சாட் ஜி.பி.டியுடன் கூகுள் பார்ட் உரையாடியை ஒப்பிடும்போது
கூகுள் பார்ட் சிறப்பாக செயல்படுகிறது. சில நேரங்களில் தாம்
வழங்கும் பதில்களுக்கான சான்றுகளையும் இவை வழங்குகின்றன. என்றாலும்
செயற்கை நுண்ணறிவு உரையாடிகளின் பதில்களை முழுவதும் ஏற்க முடியவில்லை. இவற்றை தொடர்ந்து பயன்படுத்துவதன் வழியாகவே இவற்றை மேலும் மேம்படுத்தவும்
துல்லியமான பதில்களைப் பெறவும் முடியும்.
மின் உள்ளடக்க
உருவாக்கத்தில் செ.நு.உரையாடிகள்
சாட் ஜி.பி.டியை விட கூகுள் பார்ட், பெரிய மற்றும் சிக்கலான
தரவுத்தளத்தில் பயிற்சி பெற்றுள்ளது. அதனால் கூகுள் பார்ட்
வழியாகப் பல்வேறு தமிழ் மின் உள்ளடக்கங்களை ( Tamil e-contents ) உருவாக்கமுடியும்.
1. வலைப்பதிவுகளுக்கான உள்ளடக்கங்களை
உருவாக்கலாம்
2. மின்னூல்களுக்கான உள்ளடக்கங்களை
உருவாக்கலாம்
3.
வலையொளிக்கான (யூடியூப்) கேள்வி பதில்களை உருவாக்கி கணினித்
திரையைப் பதிவு செய்து காணொலியாகப்
பதிவேற்றலாம்
4.
கோரா தளத்துக்கான கேள்விகளை உருவாக்கலாம், பதில்களைப் பெறலாம்.
5.
ஒலி நூல்களை உருவாக்கலாம்.
இத்தகைய
செயற்கை நுண்ணறிவுக் கருவிகள் வழியாக மின் உள்ளடக்கங்களை உருவாக்குவது எளிது என்றாலும்
அதன் நம்பகத்தன்மை,
துல்லியத்தன்மை என்பது ஆய்வுக்குரியது என்பதைப் பயன்படுத்துவோர் நினைவில்
கொள்ளவேண்டும்.
நிறைவுரை
· செயற்கை
நுண்ணறிவு வளர்ச்சியில் சாட்பாட் என அழைக்கப்படும் உரையாடிகள் குறிப்பிடத்தக்கன.
· சாட் ஜி.பி.டி, கூகுள்
பார்ட் போன்ற உரையாடிகளுக்கு முன்னோடியாக எலிசா உரையாடி அறியப்படுகிறது.
· செயற்கை
நுண்ணறிவு உரையாடிகளை கணினி மட்டுமின்றி திறன்பேசிகளிலும் பயன்படுத்தமுடியும்.
· பூங்குழலி
உரையாடியானது தமிழ் உரையாடிகளுக்கு முன்னோடியாகத் திகழ்கிறது.
· வாணி, சாட் விக்கி, ஆயிதழ்
அவினி,
குறள்போட், அன்னை
பூபதி எனப் பல உரையாடிகள் ஆய்வு நிலையில் உள்ளன.
· தமிழ்
மொழிப் பயன்பாட்டு நிலையில் சாட் ஜி.பி.டியுடன்
கூகுள் பார்ட் உரையாடியை ஒப்பிடும்போது கூகுள் பார்ட் சிறப்பாக செயல்படுகிறது.
· செயற்கை
நுண்ணறிவு உரையாடிகளின் பதில்கள்கள் நம்பகத்தன்மை ஆய்வுக்குரியதாகவே உள்ளது.
· வலைப்பதிவுகள், மின்னூல்கள், வலையொளி, கோரா, ஒலி நூல்
என தமிழ் மின் உள்ளடக்கங்களை உருவாக்குவதில் கூகுள் பார்ட் நன்கு பயன்படுகிறது.
· தமிழ்
மொழியைப் பயன்படுத்தும் நிலையில், சாட் ஜி.பி.டி மற்றும்
கூகுள் பார்ட் இடையே பல்வேறு நிறை குறைகள் இருந்தாலும் மீண்டும் மீண்டும் பயன்படுத்தும்போதுதான்
செயற்கை உரையாடிகளின் நம்பகத்தன்மை, துல்லியத்தன்மை ஆகியன
மேம்படுத்தப்படும் என்பதை நாம் உணரவேண்டும்.
· எளிய உரையாடிகளை
பைத்தான் போன்ற கணினி மொழிகளில் யாவரும் உருவாக்கிவிடலாம் என்றாலும் சாட் ஜி.பி.டி, கூகுள்
பார்ட் போன்ற சிறந்த உரையாடிகளை உருவாக்குவதில் பல வகைகளில், வடிவங்களில்
பெரிய தரவுகள் தேவைப்படுகின்றன. அதனால் இணையத்தில்
தமிழ்த் தரவுகளை மேம்படுத்துவது நம் கடமையாகிறது.
சான்றெண் விளக்கம்.
1.
https://en.wikipedia.org/wiki/ELIZA
2.https://yourstory.com/tamil/chat-gpt-series-and-eliza-chatbot-history-explained
3.
https://openai.com/blog/chatgpt
5.
https://vaanieditor.com/chatbot
மிகவும் பயனுள்ள தகவல்
பதிலளிநீக்கு