SMC Monthly Report: September 2024
EventsSMC WebsiteSMC new website launched in Bengaluru. Riya Sabu volunteered to initiate the new website,
മലയാളം ഫോണ്ടുകളും ചിത്രീകരണവും - ലേഖന പരമ്പരയിലെ പുതിയ ലേഖനം
സന്തോഷ് തോട്ടിങ്ങല്
സ്വരം ചേരാത്ത ശുദ്ധവ്യഞ്ജനങ്ങളെയാണു് ചില്ലക്ഷരങ്ങള് എന്നു വിളിക്കുന്നതു്.ണ്, ന്, ര്, ല്, ള്
എന്നിവയാണു് മലയാളത്തില് വ്യാപകമായി എഴുതുന്ന ചില്ലക്ഷരങ്ങള്. ഇതുകൂടാതെ കയുടെ ചില്ലായ ക്
ചില്ലും കണ്ടുവരുന്നു.
മലയാളം ചില്ലക്ഷരങ്ങളുടെ എന്കോഡിങ്ങിനെപ്പറ്റി വളരെയധികം ചര്ച്ചകള് നടന്നിട്ടുണ്ടു്. ചില്ലക്ഷരങ്ങളുടെ ഡാറ്റാ എന്കോഡിങ്ങ് എന്താവണം എന്നായിരുന്നു വിഷയം.ചില്ലക്ഷരങ്ങള് താഴെപ്പറയുന്ന രീതിയിലുള്ള എന്കോഡിങ്ങ് ആണു് യുണിക്കോഡ് 5.1 വരെ ഉണ്ടായിരുന്നതു്
ZWJ സീറോ വിഡ്ത് ജോയിനര്(Zero Width Joiner) എന്ന പ്രത്യേക കോഡ്പോയിന്റ് ആണു്. ചിത്രീകരണത്തെ സ്വാധീനിക്കുന്നതിനു് വേണ്ടി നിര്വചിക്കപ്പെട്ട ഒരു സ്പെഷല് ക്യാരക്ടര് ആണു് അതു്. പല ഭാഷകള്ക്കും അതിനു വിവിധ ധര്മ്മങ്ങള് ആണുള്ളതു്. മലയാളത്തില് അതിനു് ചന്ദ്രക്കലയോടുകൂടിയ വ്യഞ്ജനങ്ങളെ ചില്ലുരൂപത്തിലേയ്ക്കു മാറ്റുക എന്ന ധര്മ്മമാണു് പറഞ്ഞിട്ടുള്ളതു്. ഡാറ്റാ പ്രൊസസ്സിങ്ങില് പൊതുവില് ഈ ക്യാരക്ടര് അവഗണിക്കാമെന്നും, പക്ഷേ നിര്ബന്ധമായും മലയാളം, സിംഹള പോലുള്ള ഭാഷകളില് അങ്ങനെ ചെയ്യരുതെന്നും യുണിക്കോഡ് പറഞ്ഞിരുന്നു. പക്ഷേ 2006 കാലം വരെയൊക്കെയുള്ള പല അപ്ലിക്കേഷനുകളും ഈ കോഡ് പോയിന്റിനെ ചിത്രീകരണത്തില് കണക്കിലെടുത്തിരുന്നില്ല. ഫയര്ഫോക്സിന്റെ മൂന്നാംപതിപ്പിനു മുമ്പുള്ളവ ഇതിനൊരുദാഹരണമാണു്. അതുകൊണ്ടുതന്നെ ന്
എന്നെഴുതിയാല് ഈ അപ്ലിക്കേഷനുകള് ന്
എന്നു മാത്രമേ വായനക്കാരനു കാണുമായിരുന്നുള്ളു. പക്ഷേ അപ്ലിക്കേഷനുകളൊക്കെ പിന്നീടു് ഈ പ്രശ്നം പരിഹരിച്ചു.
മേല്പ്പറഞ്ഞ ZWJ ക്യാരക്ടര് ഇല്ലാതെത്തന്നെ ചില്ലുകള്ക്കു സ്വന്തമായി എന്കോഡിങ്ങ് വേണമെന്ന വാദവും ശക്തമായിരുന്നു. യുണിക്കോഡ് 5.1ല് അങ്ങനെ ചില്ലുകള്ക്കു സ്വന്തമായി എന്കോഡിങ്ങ് വന്നു.അവ താഴെക്കൊടുത്തിരിക്കുന്ന വിധമാണു്.
അക്ഷരങ്ങള് ഇങ്ങനെ രണ്ടുരീതിയില് എഴുതുന്നതു് എന്കോഡിങ്ങ് എന്ന ആശയത്തിനു തന്നെ നിരക്കാത്തതാണു് എന്നും ഡുവല് എന്കോഡിങ്ങ് എന്ന പ്രശ്നം ഉണ്ടാക്കുമെന്നും എന്ന എതിര്വാദങ്ങളും ശക്തമായിരുന്നു. ഇവിടെ തത്കാലം നമ്മള് ആ വാദങ്ങള് ഒന്നും ചര്ച്ച ചെയ്യുന്നില്ല. രണ്ടു രീതിയിലുള്ള ഡാറ്റാ എന്കോഡിങ്ങ് നിലനില്ക്കുന്ന ചില്ലുകള് എങ്ങനെ നമ്മുടെ ഫോണ്ടുകളില് ചിത്രീകരിക്കപ്പെടുന്നു എന്നു മാത്രം നമുക്കു ചര്ച്ച ചെയ്യാം.
ZWJ യുടെ കോഡ് പോയിന്റ് 200D ആണു്. അതിനു സ്വന്തമായി എന്തെങ്കിലും ഗ്ലിഫ് ഉണ്ടാവേണ്ട കാര്യമൊന്നുമില്ല. കൂടെയുള്ള അക്ഷരങ്ങളുടെ ചിത്രീകരണത്തെ സ്വാധീനിക്കുക എന്നതാണല്ലോ അതിന്റെ ജോലി. എന്നിരുന്നാലും മീര ഫോണ്ടോ രചന ഫോണ്ടോ നോക്കിയാല് താഴെക്കൊടുത്തിരിക്കുന്ന ഗ്ലിഫ് അതിനു കൊടുത്തിരിക്കുന്നതായി കാണാം.
അദൃശ്യ അക്ഷരമാണു് ZWJ എങ്കിലും അതു് അദൃശ്യമാവുന്നതു് കൂടെ അക്ഷരങ്ങളുള്ള അര്ത്ഥവത്തായ ഒരു സന്ദര്ഭത്തില് മാത്രമാണു്. അങ്ങനെയല്ലാത്ത ഇടങ്ങളില് ഇതിനെ അദൃശ്യമാക്കുന്നതു് പ്രശ്നങ്ങളുണ്ടാക്കുകയേ ഉള്ളൂ. ഉദാഹരണത്തിനു ന് എന്നു ടൈപ്പു ചെയ്യുമ്പോള് ഒന്നിലധികം ZWJ അബദ്ധത്തില് വന്നു പോയെന്നിരിക്കട്ടെ, അപ്പോഴും ന് എന്നു തന്നെ കാണിക്കുന്നതു് തെറ്റാണു്. അത്തരം അനാവശ്യ അക്ഷരങ്ങളെ എഴുത്തുകാരന്റെ ശ്രദ്ധയില് കൊണ്ടുവരാനാണിതു്.
ര് എന്ന ചില്ലിന്റെ ചിത്രീകരണം മീര ഫോണ്ടില് ചെയ്തിരിക്കുന്നതെങ്ങനെ എന്നു നോക്കാം. അതിന്റെ ലിഗേച്ചര് ടേബിള് നോക്കുക
മുന് അദ്ധ്യായങ്ങളില് നമ്മള് കണ്ടപോലെ ഇവിടെയും Malayalam, Malayalam2 എന്നീ രണ്ടു ഓപ്പണ്ടൈപ്പിന്റെ പഴയതും പുതിയതുമായ പതിപ്പുകള്ക്കുള്ള നിയമങ്ങള് ഇവിടെ കാണാം. പുതിയ പതിപ്പില് ലളിതമാണു് - ര + ് + ZWJ എന്ന ശ്രേണി akhand നിയമപ്രകാരം ചിത്രീകരിക്കുന്നു.
പഴയ പതിപ്പുകളിലാവട്ടെ, ഇതേ ശ്രേണിയെ akhand, half forms, halant forms എന്നീ മൂന്നു തരം ഓപ്പണ്ടൈപ്പ് ഫീച്ചറുകളാല് ചിത്രീകരിക്കുന്നു. പഴയ, പിശകുള്ള അപ്ലിക്കേഷനുകളെയെല്ലാം പിന്തുണയ്ക്കാനായി ഫോണ്ടില് ചെയ്ത സൂത്രപ്പണികളാണതെല്ലാം. പുതിയ അപ്ലിക്കേഷനുകളില് ഇതൊന്നും ആവശ്യമില്ല, പക്ഷേ മുന് അദ്ധ്യായങ്ങളില് പറഞ്ഞപോലെ പരമാവധി അപ്ലിക്കേഷനുകളെയും അവയുടെ പതിപ്പുകളെയും പിന്തുണയ്ക്കാനുള്ള പരിശ്രമമാണിതു്.
ഗൂഗിളിന്റെ നോട്ടോ സാന്സ് മലയാളം ഫോണ്ടില് ര് ചില്ലിന്റെ ടേബിള് നോക്കൂ
akhand രണ്ടുതവണ ഉപയോഗിച്ചിരിക്കുന്നതു ഒരു പിശകാണെന്നു തോന്നുന്നു, പക്ഷേ അതുകൊണ്ടു പ്രശ്നങ്ങളൊന്നും ഉണ്ടാവില്ല. ബാക്കി മീരയുടേതിനു സമാനമായ ടേബിളാണു് ആ ഫോണ്ടിലും.
ഇനി ഈ ഗ്ലിഫുകളെയെല്ലാം അവയുടെ അറ്റോമിക് കോഡ് പോയിന്റിലേയ്ക്കും മാപ്പ് ചെയ്യണം. അതിനായി ചില്ലുകള് ആവര്ത്തിച്ചു ചേര്ക്കേണ്ട കാര്യമില്ല. ഒരു ഗ്ലിഫില് തന്നെ ലിഗേച്ചര് ടേബിളും കോഡ് പോയിന്റും ചേര്ക്കാവുന്നതാണു്.
ചില്ലക്ഷരങ്ങള്ക്കു അറ്റോമിക് എന്കോഡിങ്ങ് വരുന്നതിനുമുമ്പേ മലയാളത്തിന്റെ യുണിക്കോഡ് ബ്ലോക്കിലെ ഉപയോഗിച്ചിട്ടില്ലാത്ത കോഡ് പോയിന്റുകള്ക്കെല്ലാം വട്ടത്തിനകത്തുള്ള R ചിഹ്നം രചന, മീര തുടങ്ങിയ ഫോണ്ടുകളുടെ വളരെ പഴയ പതിപ്പുകളില് ഉണ്ടായിരുന്നു. അറ്റോമിക് ചില്ലക്ഷരങ്ങള് ഈ പഴയ പതിപ്പു ഫോണ്ടുകള് ഉപയോഗിച്ചു വായിച്ചാല് താഴെക്കൊടുത്തിരിക്കുന്നതുപോലെ കാണും
ഈ പ്രശ്നം കാണുകയാണെങ്കില് നിങ്ങളുടെ ഫോണ്ടുകള് ദയവായി പുതുക്കുക.
ഈ പരമ്പരയിലെ മുന്ലേഖനങ്ങള്