Local Language Technical Help Centre
Search

யூனிகோட் அறிமுகம் மற்றும் யூனிகோட் எழுத்துருக்களைப் பயன்படுத்தி சிங்களத்தில் தட்டச்சு செய்து சேமிப்பது எப்படி

யூனிகோட் அறிமுகம் மற்றும் யூனிகோட் எழுத்துருக்களைப் பயன்படுத்தி சிங்களத்தில் தட்டச்சு செய்து சேமிப்பது எப்படி

ஹர்ஷ விஜயவர்தன B.Sc., FBCS

தீக்ஷனா R & D இன் COO & CTO

LK டொமைன் ரெஜிஸ்ட்ரியின் அனுசரணையில்

  1. அறிமுகம்

சிங்களம் மற்றும் தமிழ் ஆகிய இரண்டும் சிக்கலான எழுத்துக்களின் கீழ் வகைப்படுத்தப்பட்டிருந்த காலக்கட்டத்தில் அவற்றை கணினியில் வழங்குவதற்கான தொழில்நுட்பம் உருவாக்கப்பட்டிருந்தது. சிங்களம் ஒரு நீண்ட மற்றும் கடினமான கணினிமயமாக்கல் பயணத்தை மேற்கொண்டது. இதன் விளைவாக, கணினிகளில் சிங்கள எழுத்தின் செயல்பாடுகளில் சிங்களம் ஆங்கிலத்துடன் தோளோடு தோள் நின்று நிற்கிறது. சிங்களத்தை ஒரு ஆவணத்தில் இணையாக வேறு எந்த ஸ்கிரிப்ட்டுடனும் சேமிக்க முடியும். மற்றும் சிங்கள சொற்களின் பட்டியல் வரிசைப்படுத்தப்பட்டு, மற்ற லத்தீன் ஸ்கிரிப்டைப் போலவே சிங்கள தொகுப்பு வரிசைப்படி வரிசைப்படுத்தப்படுகிறது. மேலும் சிங்கள தரவுகள் ஆங்கிலத்தில் உள்ள தரவு போன்ற தரவுத்தள முகாமைத்துவ அமைப்புகளில் (DBMS) சேமிக்கப்படுவது அன்றாட நிகழ்வாகிவிட்டது.

  1. யுனிகோட் ஸ்டாண்டர்ட் அல்லது யுனிவர்சல் என்கோடிங் ஸ்டாண்டர்ட்

யூனிகோட் ஸ்டாண்டர்ட் அறிமுகப்படுத்தப்படுவதற்கு முன்பு, ஒவ்வொரு மொழிக்கும் அல்லது மொழிகளின் குழுவிற்கும் தனித்துவமான பல குறியாக்க தரநிலைகள் உலகம் முழுவதும் அறிமுகப்படுத்தப்பட்டன. தகவல் பரிமாற்றத்திற்கான அமெரிக்க தரநிலை குறியீடு (ASCII) ISO 646 க்ரூப் ஆஃப் ஸ்டாண்டர்ட்ஸ் என்றும் அறியப்பட்டது, இது 7 பிட் கேரக்டர் என்கோடிங் ஆகும், இது 1964 இல் உருவாக்கப்பட்டது மற்றும் லத்தீன் எழுத்து தொகுப்பை சேமிக்க அதன் முதல் பதிப்பை 1967 இல் வெளியிட்டது. யுளுஊஐஐ அடிப்படையில் பல நாடுகளும் தங்கள் நாடுகளுக்கு இதே போன்ற தரநிலைகளை வெளியிட்டன. அசாமியஸ், பெங்காலி, தேவநாக்ரி, குஜராத்தி, மராத்தி, மலையாளம், தமிழ், தெலுங்கர் போன்ற பல இந்திய எழுத்துத் தொகுப்புகளை ஆதரிக்கும் 8 பிட் குறியீடாக தகவல் பரிமாற்றத்திற்கான இந்திய தரக் குறியீட்டை அல்லது ஐளுஊஐஐ ஐ இந்தியா வெளியிட்டது. இந்தியாவின் அடிச்சுவடுகளைப் பின்பற்றி, இலங்கையும் 1990 இல் தகவல் பரிமாற்றத்திற்கான இலங்கை தரக் குறியீட்டை அல்லது ளுடுயுளுஊஐஐ ஐ வெளியிட்டது. ளுடுயுளுஊஐஐ இல், கீழ் 128 குறியீடு புள்ளிகள் இலத்தீன் எழுத்துத் தொகுப்பைக் கொண்டிருந்தன மற்றும் மேல் குறியீடு புள்ளிகள் சிங்கள எழுத்துத் தொகுப்பின் ஆதரவைக் கொண்டிருந்தன.

உலகில் வௌ;வேறு குணாதிசயங்களைக் கொண்ட ஐம்பதுக்கும் மேற்பட்ட எழுதப்பட்ட ஸ்கிரிப்டுகள் உள்ளன. பெரும்பாலான ஐரோப்பிய மொழிகள் லத்தீன் எழுத்துக்களில் எழுதப்படுகின்றன. ஸ்லாவிக் மொழிக் குடும்பத்தைச் சேர்ந்த ரஷ்ய மொழியானது சிரிலிக் ஸ்கிரிப்ட் எனப்படும் ஸ்கிரிப்ட்டில் எழுதப்பட்டுள்ளது, மேலும் இந்த இரண்டு ஸ்கிரிப்டுகளும் அகரவரிசைக் குழு என்று அழைக்கப்படும் ஸ்கிரிப்ட் குடும்பத்தைச் சேர்ந்தவை. செமாடிக் மொழிகளின் குடும்பத்தைச் சேர்ந்த ஹீப்ரு மற்றும் அரேபிய மொழிகள் வலமிருந்து இடமாக எழுதப்படுகின்றன, மேலும் இந்த ஸ்கிரிப்டுகள் இருதிசைகளாக உள்ளன. அரபு மற்றும் ஹீப்ரு ஆகியவை அப்ஜத் ஸ்கிரிப்டுகள் என்று அழைக்கப்படுகின்றன, மேலும் அகரவரிசை ஸ்கிரிப்ட்களைப் போலல்லாமல் கணினிமயமாக்குவது அரபு மொழி சவாலாக இருந்தது. சிங்களம், தமிழ் மற்றும் ஹிந்தி ஆகிய மொழிகள் பிராமி எழுத்துக்களில் இருந்து தோன்றிய மற்றும் ஒலிப்பு இயல்புடைய எழுத்துக்களைக் கொண்டு எழுதப்படுகின்றன. இந்த ஸ்கிரிப்டுகள் சிக்கலான ஸ்கிரிப்டுகள் அல்லது அபிகுடா ஸ்கிரிப்டுகள் என்றும் அழைக்கப்படுகின்றன, அவை மெய்யெழுத்துகளை மாற்றியமைக்கும் உயிரெழுத்து மாற்றிகளைக் கொண்டுள்ளன. இந்த குடும்பத்தில் உள்ள சில ஸ்கிரிப்டுகள் பூட்டானின் அதிகாரப்பூர்வ ஸ்கிரிப்டான னுணழமெய போன்ற மிகவும் சிக்கலானவை. உலகின் மிகவும் சிக்கலான எழுத்துருக்களில் ஒன்றான னுணழமெய ஆறு நிலைகள் வரை அடுக்கி வைக்க முடியும், அதேசமயம் சிங்களத்தில் மெய்யெழுத்தின் இருபுறமும் மற்றும்ஃஅல்லது அதன் மேல் மற்றும் கீழேயும் ஒன்றாகவோ அல்லது தனியாகவோ நிகழும் உயிரெழுத்து மாற்றியமைப்புடன் கூடிய ஒற்றை நிலை அடுக்கு மட்டுமே உள்ளது.

யுனிகோட் அல்லது யுனிவர்சல் கேரக்டர் என்கோடிங் தரநிலை அறிமுகப்படுத்தப்படுவதற்கு முன்பு சிங்களம் மற்றும் தமிழ் போன்ற வௌ;வேறு மொழிகளில் ஒரே பக்க உரைகளை வைத்திருப்பது சவாலாக இருந்தது. யூனிகோட் வருவதற்கு முன்பு, இந்தக் கட்டுரையின் தொடக்கத்தில் குறிப்பிட்டுள்ளபடி ஏராளமான குறியாக்கத் தரங்களைக் கொண்ட எழுத்துருக்களைப் பயன்படுத்தி உரைகள் சேமிக்கப்பட்டன. டெக்ஸ்ட் ரெண்டரிங் ஆரம்ப நாட்களில் குறிப்பிட்ட எழுத்துருவைப் பயன்படுத்தி எழுதும் போது, எழுத்துருவை உரையுடன் அனுப்ப வேண்டும் அல்லது எழுத்துருவைப் பதிவிறக்க ருசுடு கொடுக்கப்பட வேண்டும். உரைகள் உருவாக்கப்பட்ட குறிப்பிட்ட எழுத்துரு இல்லாமல், அவை முட்டாள்தனமாக காட்டப்படும்.

அனைத்து ஸ்கிரிப்ட்களையும் குறியாக்கம் செய்வதற்கான இந்த சிக்கல் 1990 இல் ஆரம்ப யூனிகோட் குழுவின் நீண்ட ஆலோசனைக்குப் பிறகு தீர்க்கப்பட்டது, இதில் ஜெராக்ஸின் ஜோ டெக்கர், ஆப்பிளின் மார்க் டேவிஸ் மற்றும் கென் விஸ்லர் போன்றவர்கள் இருந்தனர். ஆரம்பத்தில் 16பிட் எழுத்து மாதிரியுடன் தீர்வு எளிமையாக இருந்தது. இந்த மாதிரியில், முதல் பைட் மொழியை அடையாளம் காட்டுகிறது மற்றும் இரண்டாவது பைட் பாத்திரத்தை சேமிக்கிறது. உதாரணமாக, “0னு” என்பது சிங்களத்தை மொழியாகவும், 85 என்பது “அயன்ன” என்ற எழுத்தைக் குறிக்கிறது. இந்த தீர்வில், யூனிகோட் என்பது எழுத்துரு அடிப்படையிலான தீர்வு மட்டுமல்ல, யூனிகோட் ஆதரவு எழுத்துருக்களுக்கு உண்மை வகை எழுத்துருக்கள் (TTF) மற்றும் திறந்த வகை எழுத்துருக்கள் (OTF) ரெண்டரிங் இயந்திரம் தேவைப்படும் தொழில்நுட்பமாக வடிவமைக்கப்பட்டுள்ளது. மைக்ரோசாப்ட் விண்டோஸின் ரெண்டரிங் என்ஜின் யூனிஸ்கிரைப் என அழைக்கப்படுகிறது, அதேசமயம் லினக்ஸ் பாங்கோ மற்றும் க்யூடி என இரண்டு உள்ளது.

இன்று, யூனிகோட் மிகவும் பல்துறையாக மாறியுள்ளது மற்றும் இறந்த மொழிகளின் எழுத்துத் தொகுப்புகளையும் உள்ளடக்கும் வகையில் தரநிலை விரிவுபடுத்தப்பட்டுள்ளது. சீன, ஜப்பானிய மற்றும் கொரியன் (ஊதுமு) ஆகியவை ஒவ்வொரு மொழிக்கும் 50,000 எழுத்துகளுக்கு மேல் குறியாக்கம் செய்யப்பட்டுள்ளன, ஏனெனில் இவை சித்திர எழுத்துக்கள். அடிப்படை மல்டி லிங்வல் பிளேன் (பிஎம்பி) அல்லது பிளேன் 0 அனைத்து உயிருள்ள எழுத்துக்களையும் கொண்டுள்ளது -சிங்களமானது டீஆP இன் ழுனு பிரிவுகளில் உள்ளது- மேலும் துணை நிலைகள் தற்போது பயன்பாட்டில் இல்லாத பல எழுத்துக்களைக் கொண்டுள்ளது. உதாரணமாக, துணை விமானத்தில் சிங்கள இலக்கம் உள்ளது, இது நவீன சிங்களத்தில் பயன்பாட்டில் இல்லாத எண்களின் தொகுப்பாகும்.

தற்போது, UTF 8, UTF 16 மற்றும் UTF 32 ஆகியவை இணையத்தில் ஆதிக்கம் செலுத்துகின்றன. தினசரி அடிப்படையில், மொழிகள் யூனிகோடில் சேர்க்கப்படுகின்றன. சிங்களம் ஆரம்பத்தில் குறியாக்கம் செய்யப்படுவதில் மெதுவாக இருந்தது மற்றும் யூனிகோடில் குறியிடப்பட்ட சிங்களத்திற்கான சரியான அகரவரிசை வரிசையை பல ISO/IEC பணிக்குழு 2 (WG2) கூட்டங்களில் யூனிகோட் கூட்டமைப்பை நம்ப வைக்க வேண்டியிருந்தது. முதலில், அகரவரிசை வரிசையை உடைப்பதை நீக்கி, சிங்கள குறியீட்டு அட்டவணையில் கீழே செல்ல இந்திய குடும்பத்தின் மற்ற மொழிகளில் காணப்படாத இரண்டு உயிரெழுத்துக்களை அகற்ற முன்மொழியப்பட்டது. பின்னர், அரசாங்கம் தலையிட்டு, வரிசைமுறையை பராமரிக்க வேண்டும் என்று முன்மொழிந்தது மற்றும் சிங்களம் இறுதியாக 1999 இல் குறியாக்கம் செய்யப்பட்டது. இலங்கை அரசாங்கம் 2013 ஆம் ஆண்டளவில் யூனிகோடில் இதுவரை மறக்கப்பட்ட எண் தொகுப்புகளை குறியாக்கம் செய்ய மீண்டும் தலையிட்டது, அங்கு இலங்கை தகவல் மற்றும் தொடர்பாடல் தொழில்நுட்ப நிறுவனம் (ICTA) ) SLS 1134 இன் 2வது மற்றும் 3வது திருத்தங்களை குறியாக்கம் செய்வதிலும் வெளியிடுவதிலும் முக்கிய அரசு நிறுவனமாக மாறியது. சிங்கள யூனிகோட் என்பது சிங்கள எழுத்துக்களுக்கான குறியாக்கம் மட்டுமே மற்றும் இது சிங்களத்திற்கான டிஜிட்டல் எழுத்துக்கள் அல்ல என்ற பிரபலமான நம்பிக்கைக்கு மாறாக வலியுறுத்தப்பட வேண்டும்.

சிங்கள விசைப்பலகை மற்றும் SLS 1134 1990 இல், SLASCII சிங்கள எழுத்துக்களைச் சேமிப்பதற்கான தரநிலையாக வெளியிடப்பட்டபோது, SLS 1134 இன் முதல் பதிப்பில் சிங்கள எழுத்து உள்ளீட்டிற்கான விசைப்பலகை முடிவு செய்யப்பட்டது. ளுடுயுளுஊஐஐ வடிவமைப்பிற்கு பொறுப்பான குழு, தட்டச்சுப்பொறிகளுக்கு தரப்படுத்தப்பட்ட விஜேசேகர விசைப்பலகை தளவமைப்பின் அதே அமைப்பைப் பயன்படுத்த முடிவு செய்தது.கணினி உள்ளீட்டிற்காக வெளியிடப்பட்ட விசைப்பலகை தளவமைப்பு சிங்கள உள்ளீட்டிற்கான விஜேசேகர நீட்டிக்கப்பட்ட விசைப்பலகை என அறியப்பட்டது. 1134 இன் இரண்டாவது மற்றும் மூன்றாவது திருத்தங்களில், சிங்கள குறியாக்கம் மற்றும் டிஜிட்டல் சாதனங்களில் சிங்கள எழுத்துக்கள் எவ்வாறு சேமிக்கப்படுகின்றன என்பது விசைப்பலகை அமைப்புடன் கொடுக்கப்பட்டுள்ளது. குறிப்பாக, மூன்றாவது திருத்தத்தில், லித் இலக்கத்திற்கான உள்ளீட்டுடன் சிங்கள எண்கள் தரப்படுத்தப்பட்டு சிங்கள இலக்கம் கொடுக்கப்பட்டிருந்தது. சிங்கள விசைப்பலகை அமைப்பில், எழுத்துருக்கள் ஆதரிக்கப்பட்டால், பாளி எழுதுவதற்கு, சிங்கள பாண்டி அல்லது இணைந்த எழுத்துக்களை உள்ளிடும் வகையில் வடிவமைக்கப்பட்டுள்ளது.

  1. சிங்கள விசைப்பலகை மற்றும் SLS 1134

1990இல், SLASCII சிங்கள எழுத்துக்களைச் சேமிப்பதற்கான தரநிலையாக வெளியிடப்பட்டபோது, SLS 1134 இன் முதல் பதிப்பில் சிங்கள எழுத்து உள்ளீட்டிற்கான விசைப்பலகை முடிவு செய்யப்பட்டது. SLASCII வடிவமைப்பிற்கு பொறுப்பான குழு, தட்டச்சுப்பொறிகளுக்கு தரப்படுத்தப்பட்ட விஜேசேகர விசைப்பலகை தளவமைப்பின் அதே அமைப்பைப் பயன்படுத்த முடிவு செய்தது.

கணினி உள்ளீட்டிற்காக வெளியிடப்பட்ட விசைப்பலகை தளவமைப்பு சிங்கள உள்ளீட்டிற்கான விஜேசேகர நீட்டிக்கப்பட்ட விசைப்பலகை என அறியப்பட்டது. 1134 இன் இரண்டாவது மற்றும் மூன்றாவது திருத்தங்களில், சிங்கள குறியாக்கம் மற்றும் டிஜிட்டல் சாதனங்களில் சிங்கள எழுத்துக்கள் எவ்வாறு சேமிக்கப்படுகின்றன என்பது விசைப்பலகை அமைப்புடன் கொடுக்கப்பட்டுள்ளது. குறிப்பாக, மூன்றாவது திருத்தத்தில், லித் இலக்கத்திற்கான உள்ளீட்டுடன் சிங்கள எண்கள் தரப்படுத்தப்பட்டு சிங்கள இலக்கம் கொடுக்கப்பட்டிருந்தது. சிங்கள விசைப்பலகை அமைப்பில், எழுத்துருக்கள் ஆதரிக்கப்பட்டால், பாளி எழுதுவதற்கு, சிங்கள பாண்டி அல்லது இணைந்த எழுத்துக்களை உள்ளிடும் வகையில் வடிவமைக்கப்பட்டுள்ளது.