SMC Monthly Report: September 2024
EventsSMC WebsiteSMC new website launched in Bengaluru. Riya Sabu volunteered to initiate the new website,
മലയാളം ഫോണ്ടുകളും ചിത്രീകരണവും - ലേഖന പരമ്പരയിലെ പുതിയ ലേഖനം
സന്തോഷ് തോട്ടിങ്ങല്
ഒ, ഓ, ഔ എന്നീ സ്വരാക്ഷരങ്ങളുടെ ചിഹ്നങ്ങളാണു് യഥാക്രമം ൊ
, ോ
, ൌ
എന്നിവ. ഈ അക്ഷരങ്ങളുടെ ഒരു പ്രത്യേകത, അവ ചിത്രീകരിക്കുമ്പോള് രണ്ടായി പിരിഞ്ഞു് വ്യഞ്ജനത്തിന്റെ ഇടത്തും വലത്തും നില്ക്കുമെന്നതാണു്.
ഇപ്പോള് തന്നെ നിങ്ങളുടെ മനസ്സില് ഒരു ചോദ്യം വന്നിരിക്കും. കൌ
എന്നല്ലല്ലോ കൗ
എന്നല്ലേ എഴുതാറുള്ളതു് എന്ന ചോദ്യം. ശരിയാണു്, ഇക്കാലത്തു് കൂടുതലും കാണുന്നതു് ൗ
എന്ന ചിഹ്നമാണു്. പക്ഷേ പഴയ പുസ്തകങ്ങളിലും മറ്റും ൌ
എന്നു കാണുകയും ചെയ്യും. യുണിക്കോഡ് പക്ഷേ ൌ
ചിഹ്നത്തിനും ൗ
ചിഹ്നത്തിനും വേറെവേറെ കോഡ് പോയിന്റുകള് കൊടുത്തിട്ടുണ്ടു്.
ൌ
- 0D4C ൗ
- 0D57ൌ
ചിഹ്നത്തിനു archaic form of the /au/ dependent vowel എന്ന വിശദീകരണമാണു് യുണിക്കോഡില് പറഞ്ഞിട്ടുള്ളതു്.
ഡിജിറ്റല് രൂപത്തിലുള്ള മലയാളത്തില് പക്ഷേ ഒരുപാടു ൌ
കടന്നു കൂടിയിട്ടുണ്ടു്. ഇന്റര്നെറ്റിലെ മലയാളത്തില് ൌ
ചിഹ്നം അപൂര്വമല്ലാത്തതിന്റെ കാരണം ഇന്സ്ക്രിപ്റ്റ് കീബോര്ഡ് ലേയൌട്ട് ആണു്. ആ കീബോര്ഡ് ലേയൌട്ടില് Q എന്ന കീ അടിച്ചാലാണു് ഔ ചിഹ്നം വരുന്നതു്. പക്ഷേ, ഇന്സ്ക്രിപ്റ്റ് മാനകമനുസരിച്ചു് ആ ചിഹ്നം ൌ
ആയിരുന്നു. ൗ
ചിഹ്നം അടിക്കാന് ഇന്സ്ക്രിപ്റ്റില് സാധ്യമല്ലായിരുന്നു. അതുകൊണ്ടുതന്നെ ഇന്സ്ക്രിപ്റ്റ് ഉപയോഗിക്കുന്നവര് ൌ
എന്നു തന്നെ ടൈപ്പു ചെയ്തുപോന്നു.
ഇന്സ്ക്രിപ്റ്റിന്റെ രണ്ടാംപതിപ്പില് പക്ഷേ Q കീയെ ൗ
ചിഹ്നത്തിലേയ്ക്കു് ആക്കിയിട്ടുണ്ടു്. അപ്പോള് ആ കീബോര്ഡില് ൌ
ചിഹ്നം ടൈപ്പുചെയ്യാന് മൂന്നാമത്തെ ലേയര് ഉപയോഗിക്കണം(AltGr+Q key)
പൌര്ണ്ണമി എന്നെഴുതിയതു് പൗര്ണ്ണമി എന്നു ടൈപ്പുചെയ്തു തിരഞ്ഞാല് കിട്ടുമോ? ഗൂഗിള് പോലുള്ള സെര്ച്ച് എന്ജിനുകളില്? നിങ്ങളുടെ ടെക്സ്റ്റ് എഡിറ്ററില്? ബ്രൌസറില്? സ്വയം പരീക്ഷിച്ചുനോക്കുക
വിഷയത്തിലേയ്ക്കു തിരികെ വരാം. ഈ ചിഹ്നങ്ങള് ചിത്രീകരിക്കുമ്പോള് ഇവയെങ്ങനെയാണു് രണ്ടായി പിരിഞ്ഞ് വ്യഞ്ജനത്തിന്റെ ഇടത്തും വലത്തും പോയി നില്ക്കുന്നതു്?
ചിത്രീകരണത്തിലെ ആദ്യപടിയാണു് ചിത്രീകരിക്കേണ്ട ടെക്സ്റ്റിന്റെ നോര്മലൈസേഷന്. ചിത്രീകരിക്കേണ്ടതെന്തോ അതിനെ ഒന്നു ശുദ്ധീകരിക്കുക എന്നു വളരെ ലളിതമായി തത്കാലം മനസ്സിലാക്കുക. ൊ
ചിഹ്നം സൂക്ഷിച്ചുനോക്കിയാന് െ
, ാ
എന്നീ ചിഹ്നങ്ങളുടെ ശ്രേണിയാണല്ലോ. യുണിക്കോഡിലെ ചില അക്ഷരങ്ങള്ക്കു് കാനോണിക്കല് ഡികമ്പോസിഷന് (canonical decomposition) നിര്വചിച്ചിട്ടുണ്ടു്. ൊ
ഉദാഹരണം തന്നെ എടുക്കുകയാണെങ്കില്, ഈ കോഡ് പോയിന്റിനു യുണിക്കോഡ് നിര്വചിച്ചിട്ടുള്ള ഡീകമ്പോസിഷന് ഇങ്ങനെയാണു്:
U+0D46 MALAYALAM VOWEL SIGN E + U+0D3E MALAYALAM VOWEL SIGN AA
അതായതു്,
ൊ
= െ
+ ാ
കാനോണിക്കല് ഡീകമ്പോസിഷന് കാനോണിക്കല് തുല്യത പറയാനും ഉപയോഗിക്കാറുണ്ടു്. അക്ഷരങ്ങളുടെ തുല്യത നോക്കുമ്പോള്, രണ്ടക്ഷരങ്ങള് ഒന്നാണോ എന്നു നോക്കാന് ഇങ്ങനെ പിരിച്ചുനോക്കിയിട്ടും നോക്കണമെന്നു്. ഞാന്കോ
എന്നു് ക + ോ
എന്നു ടൈപ്പു ചെയ്തെന്നിരിക്കട്ടെ. അതിനു ശേഷം കോ എന്നു് ക+ േ + ാ
എന്നും ടൈപ്പും ചെയ്തെന്നിരിക്കട്ടെ.ഈ രണ്ടു കോ
യും ഒന്നാണോ? ആദ്യത്തെ കോ
തിരഞ്ഞാല് രണ്ടു കോ
യും കണ്ടെത്താനാവുമോ? ആവണം എന്നാണു് യുണിക്കോഡ് പറയുന്നതു്. പക്ഷേ എല്ലാ ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റങ്ങളും അപ്ലിക്കേഷനുകളും ഇങ്ങനെ പെരുമാറണമെന്നില്ല. അതു് അവയുടെ ബഗ്ഗാണു്. Gedit ടെക്സ്റ്റ് എഡിറ്റര് രണ്ടും ഒന്നായി കാണിക്കുന്ന സ്ക്രീന് ഷോട്ട് താഴെക്കൊടുക്കുന്നു.
സെര്ച്ചിന്റെ കാര്യം അവിടെ നില്ക്കട്ടെ, ചിത്രീകരണത്തില് രണ്ടും ഒരുപോലെ വന്നതു് ശ്രദ്ധിച്ചോ.
നോര്മലൈസേഷന്റെ ഭാഗമായി ൌ
ചിഹ്നത്തെ കാനോണിക്കല് ഡികമ്പോസിഷന് നിയമം ഉപയോഗിച്ചു പിരിക്കുന്നു. അതിനുശേഷമാണു് ചിത്രീകരണം നടക്കുന്നതു്.
കോ
⇒ ക + ോ
⇒ ക+ േ + ാ
ഇനി ഈ മൂന്നക്ഷരങ്ങള്ക്കുമുള്ള ഗ്ലിഫുകളെ ഫോണ്ടില് നിന്നെടുക്കുന്നു. േ
ചിഹ്നം കയുടെ ഇടതുവശത്തിടണമെന്നു ഷേപ്പിങ്ങ് എന്ജിനറിയാം. ദീര്ഘചിഹ്നത്തെ വലത്തും. അങ്ങനെ കോ
എന്ന റെന്ഡറിങ്ങ് പൂര്ത്തിയാവുന്നു.
കാനോണിക്കല് ഇക്വിവാലന്സിനെയും ഡീകമ്പോസിഷനെയും പറ്റി കൂടുതലറിയാന് ഈ നോട്ട് ഉപകരിച്ചേക്കും. Canonical Equivalence in Unicode: Some notes
ഇനി നമുക്ക് നമ്മുടെ ഫോണ്ടുകളില് ഈ അക്ഷരങ്ങളുടെ ഗ്ലിഫുകള് എങ്ങനെയാണെന്നു നോക്കാം
ൊ
, ോ
, ൌ
ചിഹ്നങ്ങളുടെ ഗ്ലിഫുകള് നോക്കൂ. ഒരു ചതുരം അവയുടെ ചുറ്റും വരച്ചിരിക്കുന്നതു കണ്ടോ? അപ്പോള് കോ എന്നെഴുതിയതു് രചനയില് കാണുമ്പോള് ആ ചതുരചിഹ്നവും കാണണ്ടേ? കാണില്ല. നേരത്തെ പറഞ്ഞപോലെ ചിത്രീകരണത്തില് ഒരിക്കലും ൊ
, ോ
, ൌ
ചിഹ്നങ്ങളുടെ ഗ്ലിഫുകള് ഫോണ്ടില് നിന്നെടുക്കുന്നില്ല. ഡീകമ്പോസിഷന് കഴിയുമ്പോള് ഗ്ലിഫുകള് വേണ്ടതു് േ ാ ൗ
ചിഹ്നങ്ങള്ക്കാണു്.
അപ്പോള് പിന്നെ ഈ ചതുരത്തിലുള്ള ഗ്ലീഫുകള് ഫോണ്ടില് വേണമെന്നുണ്ടോ? വേണമെന്നില്ല. ഇനി ചേര്ക്കുകയാണെങ്കില് തന്നെ അവിടെ എന്തുവേണമെങ്കിലും വരയ്ക്കാം. രചനയിലും മീരയിലും മറ്റു ഫോണ്ടുകളിലും ചതുരത്തില് വരച്ചിരിക്കുന്നതു് മേല്വിവരിച്ച പ്രക്രിയയാണു് ഈ ഗ്ലിഫുകള്ക്കു പകരം നടക്കുന്നതു് എന്നു് സൂചിപ്പിക്കാന് മാത്രമാണു്.
ഈ പരമ്പരയിലെ മുന്ലേഖനങ്ങള്