November 11, 2014

ചില മലയാളം റെൻഡറിങ് വിചാരങ്ങൾ

Posted By: Sebin Jacob

സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ ഫോണ്ട് ശിൽപ്പശാലയിൽ നിന്നു ലഭിച്ച അറിവു് പങ്കുവയ്ക്കുന്നു. ഇതു് നേരത്തെ അറിയാവുന്നവർ ക്ഷമിക്കുക. ഇതു് ഇത്രയും വിശദീകരിച്ചു തന്ന സന്തോഷ് തോട്ടിങ്ങലിനു നന്ദി. പലതും എന്നെ സംബന്ധിച്ചു പുതിയ അറിവാണു്.

മുന്നറിയിപ്പു്: വിൻഡോസിൽ ഈ കുറിപ്പു വായിക്കുന്നവർ ദയവായി ഇതു് നോട്ട്പാഡിലേക്കു പകർത്തി മീര, രചന, രഘുമലയാളം എന്നിങ്ങനെ ശരിയായ റെൻഡറിങ് ഓർഡർ പാലിക്കുന്ന ഫോണ്ടുകളിൽ ഏതിലെങ്കിലും വായിക്കുക. ലിപി ഏതായാലും സാരമില്ല. ഇല്ലെങ്കിൽ ചില വിശദീകരണങ്ങൾ മനസ്സിലാവാതെ വരും. ബ്രൗസറിൽ തന്നെ വായിക്കണമെന്നുള്ളവർ javascript:void(document.body.style.fontFamily='Meera, sans'); എന്ന കോഡ് ബുക് മാർക്കായി ചേർത്ത് ഈ കുറിപ്പു വായിക്കുന്നേരം ആ ബുക് മാർക്കിൽ ഞെക്കിയാലും മതിയാവും. CTRL+ ഉപയോഗിച്ചു് ഫോണ്ട് സൈസ് അൽപ്പം വലുതാക്കേണ്ടിവരും.


കേരളപാണിനീയം - പീഠിക

ഖരം - അതിഖരം - മൃദു - ഘോഷം - അനുനാസികം എന്ന ക്രമത്തിലാണല്ലോ, മലയാളം അക്ഷരമാലയിൽ ഓരോ വർഗ്ഗത്തിലും പെടുന്ന വ്യഞ്ജനാക്ഷരങ്ങൾ അടുക്കിയിരിക്കുന്നതു്. വ്യഞ്ജനങ്ങളിലെ അനുനാസികവും അതേ വർഗ്ഗത്തിലെ ഖരാക്ഷരവും ചേർന്നുള്ള കൂട്ടക്ഷരം മലയാളപദങ്ങളിൽ ആവർത്തിച്ചുവരാറുണ്ടു്.

  • ങ, ക - ങ്ക (കൊങ്ക, മങ്ക, അങ്കം, പങ്കം, തങ്കം)
  • ഞ, ച - ഞ്ച (കൊഞ്ചു്, കൊഞ്ചൽ, അഞ്ചു്, അഞ്ചൽ, തഞ്ചം)
  • ണ, ട - ണ്ട (മണ്ട, ചെണ്ട, തണ്ടു്, ചെണ്ടു്, മുണ്ടു്)
  • ന, ത - ന്ത (കൊന്ത, തന്ത, മൊന്ത, മോന്ത, സ്വന്തം)
  • മ, പ - മ്പ (അമ്പു്, തുമ്പു്, ചെമ്പു്, കമ്പു്, മുമ്പു്)

ടവർഗ്ഗത്തിനും തവർഗ്ഗത്തിനും ഇടയിലായി മലയാളത്തിൽ ഒരു ta-വർഗ്ഗം ഉണ്ടായിരുന്നു എന്നും അതിന്റെ അനുനാസികമാണു്, നനയുക എന്ന വാക്കിലെ രണ്ടാമത്തെ നയുടെ ഉച്ചാരണമായി വരുന്ന ലിപിരൂപമില്ലാത്ത സ്വനിമയെന്നും ഒരു വാദമുണ്ടു്. അറ്റം, കുറ്റം, മുറ്റം, പറ്റം എന്നൊക്കെയുള്ള വാക്കുകളിലെ റ്റയുടെ അർദ്ധരൂപമാണു്, ta. ഗണിതഭാഷയിൽ റ്റ/2 എന്നു പറയാം.

വർഗ്ഗങ്ങളായി തിരിക്കുന്നതിന്റെ ലോജിക്ക് കൂടി നോക്കുക: ഉച്ചരിക്കുമ്പോഴുള്ള നാവിന്റെ നിൽപ്പും ശബ്ദം വരുന്നതു് എവിടെനിന്നു് എന്നും നോക്കിയാണു് ഈ ക്രമം നിശ്ചയിക്കുന്നതു്. തൊണ്ടക്കുഴിയിൽ നിന്നു തുടങ്ങി ചുണ്ടിന്റെ അറ്റത്തു് അവസാനിക്കുന്ന നിലയിലാണു് യഥാക്രമം ക, ച, ട, റ്റ/2, ത, പ എന്നീ ഖരാക്ഷരങ്ങളുടെ വരവു്.
റ്റ/2 വർഗ്ഗത്തിലെ അനുനാസികമായ naയും അതിന്റെ ഖരാക്ഷരമായ taയും ചേർന്നാണു് ന്റ എന്ന കൂട്ടക്ഷരം ഉണ്ടാവുന്നതു്. പ്രാമാണിക വ്യാകരണ ഗ്രന്ഥമായ പാണിനീയത്തിൽ റ്റ/2 എന്ന അക്ഷരത്തെ കുറിക്കാൻ കേരള പാണിനി ഺ എന്ന അക്ഷരചിത്രമാണു് ഉപയോഗിക്കുന്നതു്. naകാരത്തിനു് ഩ എന്ന അക്ഷരരൂപവും ഉപയോഗിക്കുന്നു. (ഈ ചിത്രങ്ങൾ എല്ലാ ഫോണ്ടിലും കാണില്ല. മീരയുടെ പുതിയ വേർഷനിൽ ചിത്രമുണ്ടു്. ഡൗൺലോഡ് ചെയ്യാന്‍ ഇവിടെ ക്ലിക്കു ചെയ്യുക). അവന്റെ, മകന്റെ എന്നൊക്കെ എഴുതുമ്പോൾ യഥാർത്ഥത്തിൽ നാം വായിക്കുന്നതു് ഩ്ഺ എന്നു പാണിനി രേഖപ്പെടുത്തുന്ന കൂട്ടക്ഷരമാണു് (ഇവ പുതിയ അക്ഷരങ്ങളല്ല. മലയാളത്തിൽ ലിപിരൂപമില്ലാത്ത രണ്ടു ശബ്ദങ്ങളെ കുറിക്കാൻ താത്ക്കാലികമായി ഉപയോഗിക്കുന്ന അക്ഷരരൂപങ്ങളാണു്).

ങകാരം സാധാരണയായി ഒരു വാക്കിൽ ഒറ്റയ്ക്കു നിൽക്കാത്തതുപോലെ ഺകാരവും ഒറ്റയ്ക്കു് നിൽപ്പതു സാധാരണമല്ല. തമിഴിൽ നിന്നു വന്ന അക്ഷരമാകയാൽ ഈ വർഗ്ഗത്തിനു് അതിഖരം, ഘോഷം, മൃദു എന്നിവയില്ല. (ഩകാരം വച്ചു വാക്കുകൾ തുടങ്ങാറുമില്ലല്ലോ. അല്ലെങ്കിൽ അന്യഭാഷകളിൽ നിന്നു് - പ്രത്യേകിച്ചു് ഇംഗ്ലീഷിൽ നിന്നു് - തത്ഫലമായി എടുത്തുപയോഗിക്കുന്ന വാക്കുകളാവണം: നമ്പർ, നോട്ടി എന്നിവ പോലെ...)
മലയാളത്തിലെ സ്വതവേയുള്ള അവ്യവസ്ഥകാരണം ഇപ്പോൾ ൻ എന്ന ചില്ലക്ഷരത്തിനു് ചന്ദ്രക്കലയിട്ടു് റ എഴുതുകയും ന്റ (ഩ്ഺ) എന്നു വായിക്കുകയും ചെയ്യുന്ന പരിപാടി വ്യാപകമായിട്ടുണ്ടു്. (ഇയ്യോബിന്റെ പുസ്തകം എന്ന സിനിമയുടെ ടീസറിൽ ടൈപ്പ് റൈറ്ററിൽ മലയാളം അടിക്കുന്നതു് ൻ്റ എന്നാണു്). ൻറ എന്നെഴുതി ന്റ എന്നു വായിക്കുന്നതും സാധാരണമാണു്. Enrica ലെക്സി എന്ന കപ്പലിനെ കുറിക്കാൻ എൻറിക്ക ലെക്സി എന്നെഴുതിയപ്പോൾ അതിനെ Entica എന്നു പലരും വായിച്ചതു് ഈ സാഹചര്യത്തിലാണു്. ഹെൻറി എന്നെഴുതിയാൽ ഹെന്റി എന്നു വായിക്കുന്നതും ഒരു വല്ലായ്ക.

പത്രങ്ങളും ഫോണ്ട് നിർമ്മാതാക്കളും ഈ കാര്യത്തിൽ ഒരേ പോലെ കുറ്റക്കാരാണു്. ന്റ പ്രശ്നത്തിനു പിന്നിൽ മൈക്രോസോഫ്റ്റിന്റെ കാർത്തിക ഫോണ്ട് വഹിച്ച പങ്കു ചെറുതല്ല. ന്‌റ എന്നു zwnj ഉപയോഗിക്കാതെ ഞാൻ എഴുതിയാൽ കാർത്തികയിൽ ന്റ എന്ന കൂട്ടക്ഷരമേ കാണൂ. ഈ ബഗ് പരിഹരിക്കുന്നതിനു പകരം അതു് യൂനിക്കോഡ് സ്പെസിഫിക്കേഷന്റെ ഭാഗമാക്കി മാറ്റി. തുടർന്നു് മറ്റൊരവസരത്തിൽ ൻ്റ എന്നെഴുതിയാലും ന്റ എന്നു കാട്ടണം എന്ന നിയമവും ചേർത്തു. ചുരുക്കത്തിൽ ന്റയ്ക്കു് മൂന്നു് എൻകോഡിങ് ഉണ്ടു്. വിഘടിത ചില്ലും ആണവ ചില്ലും ഉള്ളതിനാൽ രണ്ടുതരം ചില്ലുപയോഗിച്ചും ഇങ്ങനെ എഴുതാം എന്നതുകൊണ്ടു്, അഞ്ചുതരത്തിൽ ന്റ എഴുതാം എന്നു പറയണം. അഞ്ജലിയുടെ ഇന്നു വ്യാപകമായി പ്രചാരത്തിലിരിക്കുന്ന ഒരു പഴയ വേർഷനിൽ ൻ+റ എന്നു ചേർത്തെഴുതിയാലും ന+്+റ എന്നു ചേർത്തെഴുതിയാലും ന്റ എന്നു വരാൻ റൂൾ ചേർത്തിരുന്നതു് ഇതിൽ ഏതു സ്റ്റാൻഡേർഡിനെ പിന്തുടരണം എന്ന കൺഫ്യൂഷനെ തുടർന്നാണു്. (അപ്‌സ്ട്രീമിൽ ലഭ്യമായ അഞ്ജലിയിൽ ഈ അവ്യവസ്ഥയില്ല.) എസ്എംസി മെയ്‌ന്റെയ്‌ൻ ചെയ്യുന്ന ഫോണ്ടുകളിൽ ന ് റ ആണു് ന്റ ആവേണ്ടതു് എന്നു നിശ്ചയിച്ചിട്ടുണ്ടു്. ഇവിടത്തെ നയും റയും നാം അക്ഷരമാലയിൽ പഠിച്ച നയും റയുമല്ല, പകരം ഩയും ഺയുമാണു് എന്നു് മുകളിൽ എഴുതിയതിൽ നിന്നു് വ്യക്തമാണല്ലോ.

കേരള കൗമുദിയുടെ ഫോണ്ടുകളിൽ ന+്+ര എന്നെഴുതിയാലാണു് ന്റ ലഭിക്കുക. മറ്റു ഫോണ്ടുകളിൽ കാണുമ്പോൾ ഇതു് ന്ര എന്നേ വരൂ. മാക് മെഷീനിലെ ഡീഫോൾട്ട് ഫോണ്ടിൽ ന+്+റ എന്നെഴുതിയാൽ ന്‌റ എന്നേ കാണിക്കൂ. സ്വാഭാവികമായും അവർ ന്റ കിട്ടാൽ വേറെ മാർഗ്ഗം നോക്കും. അതെന്താണെന്നു് എനിക്കു നിശ്ചയമില്ല. യൂനിക്കോഡ് (മൂലാക്ഷരങ്ങൾക്കു തനതായ മൂല്യം) എന്ന സങ്കൽപ്പം തന്നെയാണു് ഇവിടെ തകരുന്നതു്. ഈ ക്രമം ഭാഗ്യത്തിനു് യൂനിക്കോഡ് സ്റ്റാൻഡേർഡിന്റെ ഭാഗമായിട്ടില്ല എന്നതിൽ ആഹ്ലാദിക്കാം.

മനോരമയുടെ ഫോണ്ടിൽ ക്ല ലഭിക്കണമെങ്കിൽ ക്ള എന്നെഴുതണം. അല്ലെങ്കിൽ ക്‌ല എന്നേ കാണൂ. മനോരമയുടേതടക്കം പല ഫോണ്ടുകളിലും ന ് പ ആണു് മ്പ ആവുന്നതു്. നേരത്തെ പറഞ്ഞതുപോലെ പവർഗ്ഗത്തിലെ അനുനാസികമായ മ-യോടു് ഖരാക്ഷരമായ പ ചേർന്നാണു് മ്പ ഉണ്ടാകേണ്ടതു്. പക്ഷെ കാലങ്ങളായി ഉപയോഗിച്ചുവരുന്ന, സിഡാക് പ്രചരിപ്പിച്ച, തെറ്റായ കീബോർഡ് പ്രയോഗം മാറ്റാൻ മടിച്ചാണു് മനോരമയുടെ ഈ ഇംപ്ലിമെന്റേഷൻ. മാക് മെഷീനുകളിലാവട്ടെ, മ ് പ എന്നെഴുതിയാൽ മയുടെ ചുവടെ പ സ്റ്റാക്ക് ചെയ്തു കാട്ടും.

ഇൻപുട്ട് മെഥേഡും റെൻഡറിങ്ങും ഡേറ്റയും വേറെ വേറെ ആയതിനാൽ തന്നെ ന്പ എന്നു് ടൈപ്പ് ചെയ്താലും മ്പയുടെ ശരിയായ യൂനിക്കോഡ് വാല്യൂ രേഖപ്പെടുത്താനും അതുപ്രകാരം റെൻഡർ ചെയ്യാനും കീബോർഡ് ഉണ്ടാക്കുന്നവരും ഫോണ്ട് ഉണ്ടാക്കുന്നവരും ശ്രദ്ധിച്ചാൽ ഈ തെറ്റായ ഡേറ്റാ രേഖപ്പെടുത്തൽ ഒഴിവാക്കാനാവും. രാഹുൽ അകാലത്തിൽ കടന്നുപോയതിനാൽ കേരളകൗമുദിയിലെ ന്ര പ്രശ്നം ഇനി പരിഹാരമില്ലാതെ കിടക്കുമെന്നും ഏറെ ഡേറ്റ തെറ്റായി വരുമെന്നും ഉള്ളതാണു് മറ്റൊരു പ്രശ്നം. ആസ്കി കാലത്തേതുപോലെ ഓരോരുത്തർക്കും അവരവരുടെ ഇംപ്ലിമെന്റേഷൻ എന്നതാണു് ഇവിടെ പ്രശ്നമുണ്ടാക്കുന്നതു്. ഇതു് യൂണിക്കോഡ് പൂർവ്വകാലത്തേക്കാണു് നമ്മളെ തിരികെ കൊണ്ടുപോകുന്നതു്. മലയാളത്തെ ശ്രേഷ്ഠഭാഷാ ഫണ്ട് രക്ഷിക്കട്ടെ!

Reference: Keralapanineeyam page 34,35 - പീഠിക അദ്ധ്യായം