September 15, 2019

നിർമിതബുദ്ധിയുടെ കാലത്തെ ഭാഷാസാങ്കേതികവിദ്യ

Photo by Markus Spiske on Unsplash

Photo by Markus Spiske on Unsplash

ജനയുഗം ഓണപ്പതിപ്പിനു വേണ്ടി കാവ്യ മനോഹര്‍ എഴുതിയ ലേഖനത്തിന്റെ പുനഃ പ്രസിദ്ധീകരണം

ആമുഖം

ഭാഷയുടെ ഉപയോഗത്തെ സാങ്കേതികവിദ്യ വളരെയധികം സ്വാധീനിക്കുന്നുണ്ട്.  കൈയിലൊതുങ്ങുന്ന കമ്പ്യൂട്ടിങ്ങ് ഉപകരണങ്ങൾ നിത്യജീവിതത്തിന്റെ ഭാഗമാകുന്ന  കാലമാണിത്. അപ്പോൾ മനുഷ്യരോടെന്നപോലെ സ്വാഭാവികമായി അവയോടും  സംവദിക്കുന്നതിന്റെ ആവശ്യം വർദ്ധിക്കുന്നു. ആപ്പിളിന്റെ സിരിയും,  ആമസോണിന്റെ അലക്സയും ഡിജിറ്റൽ അസിസ്റ്റന്റുകളായി സേവനം തുടങ്ങിക്കഴിഞ്ഞു.  വെറും വാചാനിർദ്ദേശങ്ങൾ കൊണ്ട് നമുക്കായി സിനിമാടിക്കറ്റ് ബുക്ക്  ചെയ്യാനും, ഭക്ഷണം ഓർഡർ ചെയ്യാനും, മെയിലയക്കാനും, അലാറം വെയ്ക്കാനുമൊക്കെ  ഇത്തരം ഡിജിറ്റൽ അസിസ്റ്റന്റുകൾക്ക് ഇന്ന് കഴിയും. വളരെ കണിശമായ  പ്രോഗ്രാമിങ്ങ് നിർദ്ദേശങ്ങൾ പ്രകാരം മാത്രം പ്രവർത്തിക്കുന്ന  ഉപകരണങ്ങളൊക്കെ ഇവയ്ക്കുമുന്നിൽ വഴിമാറുകയാണ്.  ഇംഗ്ലീഷിൽ മാത്രമല്ല,  വിപണിസാദ്ധ്യതകൾ കണ്ട് മറ്റു പ്രാദേശികഭാഷകൾ കൂടി പഠിച്ചെടുത്തു  തുടങ്ങിയിരിക്കുന്നു ഇത്തരം പേഴ്സണൽ ഡിജിറ്റൽ അസിസ്റ്റന്റുകൾ.

താങ്ങാവുന്ന വിലയിലുള്ള ഹാർഡ്‌വെയറുകളും പേഴ്സണൽ കമ്പ്യൂട്ടിങ്ങ്  ലക്ഷ്യം വെച്ചുള്ള ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റങ്ങളും അനുബന്ധസോഫ്റ്റ്‌വെയറുകളും  ലഭ്യമായ തൊണ്ണുറുകൾ മുതൽ വ്യക്തിപരമായ ആവശ്യങ്ങൾക്ക്  കമ്പ്യൂട്ടറുകൾ  ഉപയോഗിക്കാനാകുമെന്നായി. പ്രാദേശികഭാഷകളെ കൂടി ഉൾക്കൊള്ളുവാൻ   വിദേശനിർമ്മിത സോഫ്റ്റ്‌വെയറുകൾ കുറേയൊക്കെ പരിശ്രമിച്ചിരുന്നുവെങ്കിലും,  മലയാളം പോലെയുള്ള സങ്കീർണ്ണലിപികളും അവയുടെ സവിശേഷതകളും അവയ്ക്ക് വഴങ്ങാൻ  കാലം ഒരുപാടെടുത്തു. ടൈപ്പുചെയ്യാനോ ശരിയായി വായിക്കാനാകും വിധം മലയാളം  ചിത്രീകരിക്കാനോ ആദ്യകാലങ്ങളിൽ ഇവയ്ക്ക് കഴിയുമായിരുന്നില്ല.

സ്വതന്ത്ര സോഫ്റ്റ്‌വെയറുകളും ഭാഷാകമ്പ്യൂട്ടിങ്ങിലെ ഇടപെടലുകളും

യൂണിക്കോഡ് വന്നതോടെ ലോകഭാഷകളിലെ ലിപിവൈവിധ്യങ്ങൾ മുഴുവനും  ഉൾക്കൊള്ളുവാനുള്ള സാങ്കേതികവിദ്യ കമ്പ്യൂട്ടറുകൾക്ക് കൈവന്നു. പക്ഷേ  അതുശരിയായി ഉപയോഗിക്കാനുള്ള  മാനകനിയമങ്ങൾ കുത്തക സോഫ്റ്റ്‌വെയറുകളിൽ  എത്തിയിരുന്നില്ല. ഭാഷാപിന്തുണകൾ പലതും ചേർക്കപ്പെട്ടെപ്പോഴും   ഉപയോക്താക്കളിൽ അതെത്തുവാൻ വർഷങ്ങൾ നീണ്ട അടുത്ത റീലീസുകൾ വരെ  കാത്തിരിക്കേണ്ടി വന്നു.

വിപണിസാധ്യത പിൻപറ്റിയാണ് കുത്തക സോഫ്റ്റ്‌വെയറുകളുടെ ഭാഷാപിന്തുണ  മെച്ചപ്പെട്ടിട്ടുള്ളത്. ഉപയോക്താക്കൾ കുറവുള്ള മലയാളം പോലൊരു  ഭാഷയ്ക്കുവേണ്ടി സമയവും മൂലധനവും ഒരുപാടു ചിലവഴിക്കാൻ പറ്റില്ലല്ലോ.  ദീർഘകാലം വിപണിയെ കീഴടക്കിയിരുന്ന വിൻഡോസ് എക്സ്. പി.യിൽ മലയാളം ഫോണ്ടും  ചിത്രീകരണവും ടൈപ്പിങ്ങും ഒക്കെ ലഭ്യമായത് 2004-ലെ സർവീസ് പാക്ക്  അപ്ഡേറ്റിൽ ആണ്. പക്ഷേ അത് ഉപയോക്താക്കളിൽ കൃത്യമായി എത്തിയതേയില്ല.  സ്വരസാന്നിദ്ധ്യമില്ലാത്ത വ്യഞ്ജനങ്ങളെ സൂചിപ്പിക്കുന്ന മലയാളത്തിലെ  സർവ്വസാധാരണമായ ചില്ലക്ഷരങ്ങൾ കംപ്യൂട്ടറുകൾ ചിത്രീകരിക്കുന്നതിലെ പിഴവുകൾ  പരിഹരിക്കാൻ വർഷങ്ങളൊരുപാടെടുത്തു. ഒഡിയ ഭാഷയ്ക്ക് ഒരു ഫോണ്ട് വിൻഡോസിൽ  ലഭ്യമാകാൻ 2012 വരെ കാത്തിരിക്കേണ്ടിവന്നു.

സ്വതന്ത്രസോഫ്റ്റ്‌വെയർ പ്രസ്ഥാനങ്ങൾ ഈയവസരത്തിൽ മലയാളമുൾപ്പെടെയുള്ള  പ്രാദേശികഭാഷകൾക്കുള്ള കമ്പ്യൂട്ടിങ്ങ് പിന്തുണ ഉറപ്പുവരുത്തുവാനുള്ള  പരിശ്രമത്തിലേർപ്പെട്ടു വിജയിച്ചുകൊണ്ടിരിക്കുകയായിരുന്നു. ആർക്കും  വായിക്കാനും മനസ്സിലാക്കാനും മാറ്റംവരുത്തി ഉപയോഗിക്കാനും സാധിക്കുകയെന്ന  സ്വതന്ത്രസോഫ്റ്റ്‌വെയറിന്റെ തത്വമാണതിനു സഹായകമായത്. മലയാളത്തിന്റെ  കാര്യത്തിൽ ഈ പ്രവർത്തനങ്ങളിൽ സ്വതന്ത്രമലയാളം കമ്പ്യൂട്ടിങ്ങ് എന്ന കൂട്ടായ്മ മുൻപന്തിയിൽ നിന്നു. പ്രാദേശികമായ ഭാഷാവിശേഷങ്ങളെ  സോഫ്റ്റ്‌വെയറിൽ സന്നിവേശിപ്പിച്ചും, മാനകീകരണസമിതികളുമായി സംവദിച്ചും,  ഐ.റ്റി അറ്റ് സ്കൂൾ പോലെയുള്ള പദ്ധതികളുമായി സഹകരിച്ചും  എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷയെന്ന  സന്ദേശം മുൻനിർത്തിയുള്ള പ്രവർത്തനം ഏറെ മുന്നോട്ട് പോയി. മലയാളം  ടൈപ്പിങ്ങ്, ഫോണ്ടുകൾ, ലിപിചിത്രീകരണനിയമങ്ങൾ ഇതിനൊക്കെയപ്പുറം മലയാളം  അകാരാദിക്രമനിയമങ്ങൾ, ടെക്സ്റ്റ്-റ്റു-സ്പീച്ച്, അക്ഷരത്തെറ്റ്പരിശോധന  തുടങ്ങി ഉയർന്നതലത്തിലുള്ള ഭാഷാകമ്പ്യൂട്ടിങ്ങ് പരീക്ഷണങ്ങളിലേയ്ക്കും  സ്വതന്ത്രസോഫ്റ്റ്‌വെയർ രംഗത്ത് മുന്നേറ്റമുണ്ടായി. ഇന്ത്യൻ ഭാഷകൾക്ക്  ഇന്നും മികച്ച പിന്തുണ ലഭ്യമാക്കുന്നതിൽ സ്വതന്ത്രസോഫ്റ്റ്‌വെയറുകൾ ബഹുദൂരം  മുന്നിലാണ്.

ഡെസ്ക്ടോപ്പ് കമ്പ്യൂട്ടറുകളേക്കാൾ മൊബൈൽ സ്മാർട്ട് ഫോണുകൾ ആളുകളുടെ  പ്രധാന കമ്പ്യൂട്ടിങ്ങ് ഉപകരണമായിമാറിയ കാലഘട്ടത്തിലാണ് നാമിപ്പോൾ.  ഇന്റർനെറ്റ് ലഭ്യത സാർവജനീനമായിക്കഴിഞ്ഞു. ഗൂഗിളിന്റെ ആണ്ട്രോയിഡ്  ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റത്തിൽ പ്രവർത്തിക്കുന്ന സ്മാർട്ട്ഫോണുകൾ  വ്യപകമായപ്പോൾ അതിൽ ആയിരക്കണക്കിന് ആപ്പ്ലിക്കേഷനുകൾ പലരായി നിർമ്മിച്ച്  ലഭ്യമാക്കാൻ തുടങ്ങി. ആണ്ട്രോയിഡിൽ മലയാളമടക്കമുള്ള ഇന്ത്യൻ ഭാഷകൾ  വായിക്കാനാകും വിധം ശരിയായി ചിത്രീകരിച്ചുതുടങ്ങിയത് 2014 മുതലുള്ള  പതിപ്പുകളിലാണ്. മലയാളത്തിൽ ടൈപ്പുചെയ്യാൻ കഴിയുകയെന്നത് ഒരു അത്യാവശ്യമായി  മാറിയപ്പോഴും പക്ഷേ അതിനുള്ള സൗകര്യം ആണ്ട്രോയിഡിൽ അന്ന്  ഉണ്ടായിരുന്നില്ല. സ്വതന്ത്രമലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ പ്രവർത്തകനും  ആണ്ട്രോയിഡ് ആപ്ലിക്കേഷൻ ഡെവലപ്പറുമായ ജിഷ്ണു മോഹന്റെ ഇൻഡിക് കീബോർഡ് ഈ ദിശയിലുള്ള ഒരു  മികച്ച ഉദ്യമമായിരുന്നു. ചാറ്റ് ആപ്ലിക്കേഷനുകളിലൊക്കെ  സുഗമമായി ഉപയോഗിക്കാൻ കഴിയുന്നതോടൊപ്പം ഉപയോക്താക്കളുടെ സ്വകാര്യത  ഉറപ്പാക്കുകയെന്ന പ്രതിബദ്ധതകൂടി ഉൾക്കൊണ്ട് നിർമ്മിച്ചതാണിത്.

ഓരോ ആപ്പുകൾ സ്വന്തം ഫോണിൽ ഇൻസ്റ്റാൾ ചെയ്യുമ്പോൾ നാം കൊടുക്കുന്ന  സമ്മതപത്രങ്ങൾ ചിലറയൊന്നുമല്ല. നമ്മുടെ ഫോണിലെ വ്യക്തിവിവരങ്ങൾ, ഫോട്ടോകൾ,  സഞ്ചരിച്ച വഴികൾ, വായിച്ച വർത്തകൾ, വെബ് തെരച്ചിലുകൾ ഒക്കെ  പരിശോധിക്കാനുള്ള അവകാശം കൊടുത്തിട്ടാണ് പല ആപ്പുകളും നാം ഉപയോഗിക്കുന്നത്.   വ്യാജവാർത്തകളുടെ സത്യാനന്തരകാലത്ത്  നമ്മുടെ ഡേറ്റ എങ്ങിനെയൊക്കെ  ഉപയോഗിക്കപ്പെട്ടേക്കാമെന്നത് ഊഹിക്കാവുനതിനുമപ്പുറമാണ്.

ഗൂഗിൾ തന്നെ ലഭ്യമാക്കിയ വോയിസ് ടൈപ്പിങ്ങും, കയ്യെഴുത്ത് ഇൻപുട്ടും  ഒക്കെ മലയാളം ഭാഷയിലെ എഴുത്ത് സുഗമമാക്കിയപ്പോൾ നമ്മുടെ കയ്യെഴുത്തും  വാമൊഴിശൈലിയുമൊക്കെ ഗൂഗിളിന്റെ ഭീമൻ ഡേറ്റാസെറ്റിന്റെ ഭാഗമാകുന്നു.  ഗൂഗിളിന്റെ കയ്യെഴുത്ത് തിരിച്ചറിയൽ, ശബ്ദതിരിച്ചറിയൽ സംവിധാനമൊക്കെ കൂടുതൽ  മെച്ചപ്പെടുത്താനും നമുക്കായി സവിശേഷമായി ടൈപ്പിങ്ങ്  സുഗമമാക്കാനുമൊക്കെയാണിതെന്നാണ് വാദം. വ്യക്തിപരമായ ചാറ്റുകളിലെ  സംഭാഷണങ്ങൾക്ക് അനുസരിച്ച് നാം സമൂഹമാധ്യമങ്ങളിൽ പരസ്യങ്ങൾ  കാണുന്നത്  ഇതിനോടൊക്കെ കൂട്ടിവായിക്കേണ്ടതാണ്. നമ്മുടെ എഴുത്തൊക്കെ നാമുദ്ദേശിക്കാത്ത  ആരൊക്കെയോ വായിക്കുന്നുണ്ടോ? ഉണ്ടെങ്കിൽ തന്നെ അത് മനുഷ്യരല്ല,  യന്ത്രങ്ങളാണ്!

കമ്പ്യൂട്ടറുകൾ ഭാഷ ‘പഠിക്കുമ്പോൾ’

നമ്മുടെ ഫോണിലെ ടൈപ്പിങ്ങ് ടൂളിന് നാമെഴുതുന്നത്  സത്യത്തിൽ വായിക്കാനും  മനസ്സിലാക്കാനും കഴിയുമോ?  ടൈപ്പ് ചെയ്യുന്നത് മാത്രമല്ല, നാം  പറയുന്നതൊക്കെ തുടർച്ചയായി ശ്രദ്ധിക്കാനും നമ്മുടെ കയ്യിലെപ്പോഴുമുള്ള  മൊബൈൽ ഫോണിന് ബുദ്ധിമുട്ടൊന്നുമില്ല. പക്ഷേ അതിൽ നിന്നെന്തെല്ലാം  മനസ്സിലാക്കാം എന്നയിടത്തേക്കാണ് ഭാഷാകമ്പ്യൂട്ടിങ്ങ് സഞ്ചരിക്കുന്നത്.  മെഷീൻ ലേണിങ്ങ് എന്ന നവീന സാങ്കേതികവിദ്യയാണ് അതിന് അടിത്തറയൊരുക്കുന്നത്.

പരമ്പരാഗതമായ ഭാഷാകമ്പ്യൂട്ടിങ്ങ്, ഭാഷാശാസ്ത്രം അഥവാ ലിംഗ്വിസ്റ്റ്ക്സ്  എന്ന ശാസ്ത്രശാഖയെ അവലംബിച്ചാണിരിക്കുന്നത്. ഭാഷയുടെ സ്വനവിജ്ഞാനീയം,  വ്യാകരണനിയമങ്ങൾ ഒക്കെ കൃത്യമായി നിർവ്വചിക്കുക, വാക്കുകളുടെ  പരസ്പരബന്ധമുൾക്കൊള്ളുന്ന നിഘണ്ടുക്കൾ നിർമ്മിക്കുക, ഇവയെല്ലാം  കോർത്തിണക്കി വാചകഘടനയും ആശയവും ഉൾക്കൊള്ളുക ഇഅവയൊക്കെയാണ്  ഭാഷാശാസ്ത്രത്തിന്റെ വഴികൾ. അതിന്റെ കമ്പ്യൂട്ടിങ്ങ് അൽഗോരിതം  തയ്യാറാക്കലാണ് അടിസ്ഥാനപരമായി ഭാഷാസാങ്കേതികവിദ്യ. ഭാഷാവിദഗ്ദ്ധരും  സാങ്കേതികവിദഗ്ദ്ധരും കൈകോർക്കേണ്ട ഒരു മേഖലയാണിത്.

എന്നാൽ ഈയൊരു ചട്ടക്കൂടിൽ നിന്നും വേറിട്ടവഴിയാണ് മെഷീൻ ലേണിങ്ങ്  സങ്കേതത്തിലുള്ളത്. ഭീമൻ ഡേറ്റാസെറ്റാണ് മെഷീൻ ലേണിങ്ങിന്റെ കാതൽ.  ഉദാഹരണത്തിന് ലക്ഷക്കണക്കിന് വാക്കുകളും, അവയുടെ ഉച്ചാരണവും അടങ്ങിയ ഒരു  ഡേറ്റാസെറ്റുണ്ടെങ്കിൽ അതിൽ നിന്നും മെഷീൻ ലേണിങ്ങ് സങ്കേതം വഴി ഒരു  ‘വാക്കുച്ചാരണമാതൃക’ (trained pronounciation model)  നിർമ്മിച്ചെടുക്കാനാകും. ഒരു പുതിയ വാക്ക് നൽകിയാൽ, അതിന്റെ ഉച്ചാരണം ആ  മാതൃകയ്ക്ക് തിരിച്ചുതരാനാകും. ഈ മാതൃക നിർമ്മിക്കാൻ ഭാഷയുടെ അക്ഷരങ്ങളും  സ്വനിമനിയമങ്ങളുമൊന്നും കൃത്യമായി പഠിക്കേണ്ടതില്ല. ബഹുലമായ പദസമുച്ചയത്തിൽ  നിന്നും അങ്ങനെയൊരു ക്രമം സ്വയം കണ്ടെത്തുന്ന വിധമാണ്  മാതൃകാനിർമ്മാണത്തിന്റെ അൽഗോരിതം. തന്റെ ചുറ്റുപാടുകളിൽ നിന്ന് സ്വയം  പഠിക്കുന്ന യന്ത്രം എന്നതാണ് ‘നിർമ്മിതബുദ്ധി’ എന്നതുകൊണ്ട്  അർത്ഥമാക്കുന്നത്.

രണ്ടു ഭാഷകൾക്കിടയിൽ യാന്ത്രികതർജ്ജമയ്ക്കാവശ്യമായ മെഷീൻ ലേണിങ്ങ് മാതൃക  ഉണ്ടാക്കണമെന്നിരിക്കട്ടേ, ആയിരക്കണക്കിന് വാചകങ്ങളും അവയുടെ തർജ്ജമകളും  കൃത്യമായി അടയാളപ്പെടുത്തിയ ഒരു കൂറ്റൻ ഡേറ്റാസെറ്റാണ് നമുക്കാദ്യം  വേണ്ടത്. ഇനി ഈ മാതൃകയിലേയ്ക്ക്  ഒരു വാചകം നൽകിയാൽ തിരികെ കിട്ടുന്നത്  അതിന്റെ തർജ്ജമയായിരിക്കും. ഇവിടെയും വ്യാകരണനിയമങ്ങളൊക്കെ കൃത്യമായി  പഠിച്ചെടുക്കലല്ല, ആയിരക്കണക്കിനു വാചകങ്ങളിൽ നിന്നും സ്വയമൊരു ക്രമം  കണ്ടെത്തുകയാണ് മാതൃകാനിർമ്മാണത്തിന്റെ അൽഗോരിതം.

ജിമെയിലിലെ സ്പാം മെയിലുകൾ വേർതിരിക്കുന്നതിനൊക്കെ ഗൂഗിൾ ഉപയോഗിക്കുന്ന  വിദ്യ ഇതുതന്നെയാണ്. ലക്ഷക്കണക്കിന് സ്പാംമെയിലുകൾ  അടയാളപ്പെടുത്തിക്കൊടുത്താൽ ഒരു മെഷീൻ ലേണിങ്ങ് സിസ്റ്റത്തിന് ഒരു സ്പാം  മെയിൽ വേർതിരിക്കൽ മോഡലുണ്ടാക്കാനാകും. പുതിയൊരു മെയിൽ കണ്ടാൽ സ്പാം ആണൊ  അല്ലയോ എന്ന് ആ മാതൃകയ്ക്ക് തിരിച്ചറിയാനുമാകും.

ചിത്രങ്ങൾക്ക് സ്വയമേവ അടിക്കുറിപ്പെഴുതുക, ഒരു വലിയ ഖണ്ഡിക  സംഗ്രഹിക്കുക, ചോദ്യങ്ങൾക്ക് ഉത്തരംകണ്ടെത്തുക തുടങ്ങി ഉയർന്നനിലയിലുള്ള  ഭാഷാനൈപുണി പോലും മെഷീൻ ലേണിങ്ങ് വഴി കമ്പ്യൂട്ടറുകൾക്ക്  സ്വായത്തമാക്കാനാകും. ഇതിനായി പ്രത്യേകം ഭാഷാവിദഗ്ദ്ധരുടെ ആവശ്യം  പോലുമില്ല.

ചിലവേറിയ മെഷീൻ ലേണിങ്ങ്

മെഷീൻ ലേണിങ്ങ് മാതൃകാനിർമ്മാണമെന്നു പറയുന്നത് പലവിധത്തിൽ ചിലവേറിയ ഒരു  പ്രക്രിയയാണ്. ഒന്നാമതായി അതിന് വേണ്ടത് അതിവിപുലമായ ഡേറ്റാസഞ്ചയമാണ്.  മാതൃകാനിർമ്മാണത്തിനുള്ള മെഷീൻ ലേണിങ്ങ് അൽഗോരിതമാണ് രണ്ടാമത് ആവശ്യം.  മൂന്നാമതായി വേണ്ടത് ഉയർന്ന കമ്പ്യൂട്ടിങ്ങ് ക്ഷമതയുള്ള പ്രോസസ്സറുകളാണ്.

ഡേറ്റാസഞ്ചയത്തിൽ നിന്നും മാതൃക നിർമ്മിക്കുവാനുള്ള അൽഗോരിതത്തിന്  പ്രവർത്തിക്കാൻ സാധാരണ ലാപ്ടോപ്പുകളിലുള്ള ഇന്റലിന്റെ പ്രോസസ്സറുകൾ  മതിയാകില്ല. ഗണിതക്രിയകൾ പെട്ടെന്നു ചെയ്യാനാവുന്ന ഗ്രാഫിക്കൽ പ്രോസസിങ്ങ് യൂണിറ്റുകൾ (ജി. പി. യു.) എൻവിഡിയ കമ്പനി പുറത്തിറക്കുന്നുണ്ട്. ഭീമമായ  കമ്പ്യൂട്ടിങ്ങ് പവർ ഉണ്ടെങ്കിൽ പോലും ഡേറ്റാസഞ്ചയത്തിനുമേൽ ദിവസങ്ങളും  ആഴ്ചകളുമെടുത്ത് പ്രവർത്തിച്ചാലാണ് ഭാഷാകമ്പ്യൂട്ടിങ്ങ് മേഖലയിലെ ഒരു മെഷീൻ  ലേണിങ്ങ് മാതൃക നിർമ്മിക്കാനാകുക.

സങ്കീർണ്ണമായ കണക്കുകൂട്ടലുകൾ വേഗത്തിൽ ചെയ്യാനാവശ്യമായ ഹാർഡ്‌വെയറാണ്  ജി. പി. യു. വിലുള്ളത്. വീഡിയോ ഗെയിമുകൾക്കായി ചിത്രങ്ങൾ മികവിലും  വേഗത്തിലും സ്ക്രീനിൽ കാണിക്കുവാനുള്ള കണക്കുകൂട്ടലുകൾക്കായാണ് ജി. പി. യു.  ഉപയോഗിച്ചുതുടങ്ങിയത്. ഡേറ്റയിൽ നിന്നും സവിശേഷതകൾ കണ്ടെത്തുന്നതിനുള്ള  കണക്കുകൂട്ടലുകളും ഇത്രയും തന്നെ സങ്കീർണ്ണമാണ്. ഡേറ്റയുടെ അളവും കൃത്യതയും  വർദ്ധിക്കുന്തോറും മെഷീൻ ലേണിങ്ങ് മാതൃക മെച്ചപ്പെടും. പക്ഷേ അതിന്  വിലയേറിയ ജി.പി.യു. കൾ ഒരുപാടെണ്ണം ഒരുമിച്ച് പ്രവർത്തിപ്പിക്കേണ്ടിവരും.

ഇത്രയും പ്രോസസ്സിങ്ങ് ശേഷിയുള്ള കമ്പ്യൂട്ടറുകൾ ഗവേഷകർക്ക്  പരീക്ഷണത്തിനായി സ്വന്തമായി കയ്യിലുണ്ടാവുക സാധാരണമല്ല. മെഷീൻ ലേണിങ്ങ്  എന്ന ഗവേഷണശാഖ വളർന്നതോടെ ഇത്തരം ഹാർഡ്‌വെയറുകളുടെ ഉടമസ്ഥതയും ഒരു ബിസിനസ്  മേഖലയായിക്കഴിഞ്ഞു. ജി.പി.യു.നേക്കാൾ ശേഷിയുള്ള, മെഷീൻ ലേണിങ്ങിലെ  ട്രെയിനിങ്ങ് പ്രക്രിയയ്ക്കായി പ്രത്യേകം തയ്യാറാക്കിയ ടെൻസർ പ്രോസസിങ്ങ് യൂണിറ്റുകൾ (ടി. പി. യു.) ഗൂഗിളിന്റെ പക്കലുണ്ട്. ഇത് നിശ്ചിതകാലത്തേയ്ക്ക് വാടകയ്ക്കെടുത്താണ് ഗവേഷണങ്ങൾ നടക്കുന്നത്.

കണഗിമെലൺ യൂണിവേഴ്സിറ്റിയും ഗൂഗിളും ചേർന്ന് അടുത്തിടെ പുറത്തിറക്കിയ എക്സൽനെറ്റ് (XLNet) എന്ന മെഷീൻ ലേണിങ്ങ് മാതൃക അടുത്തിടെ വാർത്തകളിൽ ഇടം നേടിയത് അതിന്റെ കൃത്യതകൊണ്ടു മാത്രമല്ല, അതിന്റെ കൂറ്റൻ പ്രോസസ്സിങ്ങ്  ചിലവു കൊണ്ടും കൂടിയാണ്. നാല്പത് ലക്ഷത്തിലേറെ ഇന്ത്യൻ രൂപയാണ് ഇതിന് ചിലവായത്.  ഒരൊറ്റ മോഡൽ നിർമ്മിക്കാനുള്ള ഹാർഡ്‌വെയർ വാടകയാണ് ഇത്. സാധാരണ ഗവേഷകർക്ക്  അപ്രാപ്യമായ വിധത്തിൽ ചിലവേറിയതാവുകയാണ് ഈ മേഖല. ഇങ്ങനെ നിർമ്മിക്കുന്ന  മോഡലിന്റെ കൃത്യതയെക്കുറിച്ച് മുൻകൂട്ടി പ്രവചനമൊന്നും സാദ്ധ്യവുമല്ല.  അതായത് ഈ വഴിയിലൂടെയുള്ള ഭാഷാസാങ്കേതികവിദ്യാഗവേഷണം ഹാർഡ്‌വെയർ  ലഭ്യതയുള്ളവരുടെ കയ്യിൽ മാത്രമായൊതുങ്ങാനും സാദ്ധ്യതയുണ്ട്.

ഡേറ്റയുടെ ഉടമസ്ഥാവകാശവും നൈതികതയും

അതിവിപുലമായ ഡേറ്റാസഞ്ചയത്തിനുപുറത്താണ്  മെഷീൻ ലേണിങ്ങിലെ മോഡൽ  നിർമ്മാണം പ്രവർത്തിക്കുന്നതെന്ന് കണ്ടുകഴിഞ്ഞല്ലോ. ഡേറ്റാശേഖരണവും  ചെലവേറിയ പ്രക്രിയയാണ്. കൃത്യമായി അടയാളപ്പെടുത്തിയ ഡേറ്റ നിർമ്മിക്കുവാൻ  വലിയ മനുഷ്യാദ്ധ്വാനം ആവശ്യമാണ്. ഗൂഗിളിന്റെ പേഴ്സണൽ അസിസ്റ്റന്റ് എന്ന  ആപ്ലിക്കേഷൻ നിർമ്മിക്കുവാനായുള്ള ഡേറ്റാശേഖരണം ഗൂഗിൾ പുറംകരാർ  കൊടുത്തിരിക്കയായിരുന്നു. അധികസമയം ജോലി ചെയ്തതിനുള്ള ശമ്പളമോ  ആനുകൂല്യങ്ങളോ നൽകാതിരുന്ന കരാർ ഏജൻസിയ്ക്കും ഗൂഗിളിനുമെതിരേ ആരോപണങ്ങൾ  ഉണ്ടായിട്ടുണ്ട്. തർജ്ജമകൾക്കാവശ്യമായ സമാന്തരവാക്യസഞ്ചയം പലഭാഷകൾക്കായി  നിർമ്മിക്കുവാൻ  വലിയ കമ്പനികൾക്കുവേണ്ടി  തുച്ഛമായ തുകയ്ക്ക് കരാറെടുക്കുന്ന ഏജൻസികളുണ്ട്. ഇങ്ങനെ നിർമ്മിക്കുന്ന ഡേറ്റാശേഖരം കമ്പനികളുടെ  രഹസ്യസമ്പാദ്യമാകുന്നു.  ഗൂഗിളിന്റെ ഒരു പ്രോജക്ടിൽ 103 ഭാഷകൾക്കായുള്ള  തർജ്ജമസംവിധാനം പരിശീലിപ്പിക്കുവാനുള്ള ഉദ്യമത്തിൽ 25 ശതകോടി ഉദാഹരണങ്ങൾ  നൽകിയാണ് ഭാഷാമാതൃകകൾ നിർമ്മിച്ചത്.

ഗൂഗിൾ പോലെ വലിയ ഉപയോക്തൃശൃംഖലയുള്ള‌ കമ്പനികൾക്ക് ഒരുപാടു ഡേറ്റ  മറ്റുവിധത്തിലും ശേഖരിക്കാം. ഉദാഹരണത്തിന് ഒരു വോയിസ് ടൈപ്പിങ്ങ്  ആപ്ലിക്കേഷൻ പുറത്തിറക്കിക്കഴിഞ്ഞാൽ അതുപയോഗിക്കുന്നവരുടെ ശബ്ദവും  അതുപയോഗിച്ചു അവർ ടൈപ്പുചെയ്തും തിരുത്തിയും പൂർത്തിയാക്കുന്ന വാചകങ്ങളും  ആപ്ലിക്കേഷന് സ്വന്തം ഡേറ്റാബേസിലേയ്ക്കു ചേർക്കാം. ഇങ്ങനെ ലഭിക്കുന്ന  ഡേറ്റകൊണ്ട് വീണ്ടും മെഷീൻ ലേണിങ്ങ് മോഡൽ  മെച്ചപ്പെടുത്തിക്കൊണ്ടിരിക്കാം.കുറച്ചുമാസങ്ങൾക്കു മുമ്പ് സോഷ്യൽമീഡിയയിൽ  തരംഗമായ #10yearchallenge എന്ന ഹാഷ്ടാഗിൽ ലക്ഷക്കണക്കിന്  ഉപയോക്താക്കളാണ് തങ്ങളുടെ 10 വർഷം വ്യത്യാസത്തിലെടുത്ത ഫോട്ടോകൾ പരസ്യമായി  പങ്കുവെച്ചത്. ചിത്രങ്ങളുടെ പഴക്കം പ്രവചിക്കാനുള്ള ഒരു മെഷീൻ ലേണിങ്ങ്  മോഡലിനുവേണ്ടി നാമറിയാതെ ഡേറ്റ അടയാളപ്പെടുത്തിക്കൊടുക്കുകയായിരുന്നോ എന്ന  സംശയം അന്ന് അതോടൊപ്പം ഉയർന്നു വന്നിരുന്നു.

സ്വതന്ത്ര ലൈസൻസിലുള്ള സോഴ്സ് കോഡ് ലഭ്യമായതു കൊണ്ടു മാത്രമാണ്  ഭാഷാസാങ്കേതികവിദ്യാരംഗത്ത് പരീക്ഷണങ്ങളും പ്രാദേശികഭാഷാപിന്തുണയുടെ  മെച്ചെപ്പെടലുമൊക്കെ സാധ്യമായതെന്ന് നാം നേരത്തേ കണ്ടു. പ്രൊപ്രൈറ്ററി  സോഫ്റ്റ്‌വെയറിലേയ്ക്ക് മാത്രം ഒതുങ്ങി കുത്തകപ്പെട്ടുപോകുമായിരുന്ന  ഭാഷാസങ്കേതങ്ങൾ അങ്ങനെയാണ് ജനകീയവും കുറ്റമറ്റതുമായത്.

മെഷീൻ ലേണിങ്ങ് സങ്കേതങ്ങളിലേയ്ക്ക് ഭാഷാ കമ്പ്യൂട്ടിങ്ങ്  ചുവടുമാറ്റിയാൽ കുത്തകപ്പെടലിന്റെ സാധ്യതകൾ വർദ്ധിക്കാനാണിട.  നിർമ്മിതബുദ്ധിയിൽ അധിഷ്ടിതമായി മെഷീൻ ലേണിങ്ങ് രംഗത്ത് പ്രവർത്തിക്കുന്ന  പല കമ്പനികളും മാതൃകാനിർമ്മാണത്തിനുള്ള കമ്പ്യൂട്ടർ പ്രോഗ്രാം സ്വതന്ത്ര  ലൈസൻസിൽ ലഭ്യമാക്കുന്നുണ്ട്. പക്ഷേ അതുപയോഗിക്കണമെങ്കിൽ അനന്യമായ കൂറ്റൻ  ഡേറ്റാസഞ്ചയവും അതു പ്രവർത്തിക്കാനാവശ്യമായ വലിയ പ്രോസസിങ്ങ് ശേഷിയും  അത്യാവശ്യമാണ്. ഇതുരണ്ടുമില്ലെങ്കിൽ സ്വതന്ത്രമായി കോഡ് ലഭ്യമാണെങ്കിലും  അതിൽ നിന്നൊരു മാതൃകാനിർമ്മാണം അസാദ്ധ്യമാണ്.

മെഷീൻ ലേണിങ്ങ് മാതൃകയുടെ കൃത്യത

ഡേറ്റാസഞ്ചയത്തിന്റെ കൃത്യതപോലെയിരിക്കും  മെഷീൻ ലേണിങ്ങ് മാതൃകയുടെ  കൃത്യതയും. ഗൂഗിളിന്റെ യാന്ത്രികതർജ്ജമ ആദ്യം റിലീസ് ചെയ്തകാലത്ത് തികച്ചും  അനുപയുക്തമായിരുന്നത് ഉപയോഗിച്ചുനോക്കിയവർക്ക് ഓർമ്മയിലുണ്ടാകും. എന്നാൽ  കാലക്രമേണ കൂടുതൽ വലിയ ഡേറ്റയ്ക്കുമുകളിൽ പ്രവർത്തിച്ചു തുടങ്ങിയതോടെ അത്  മെച്ചപ്പെടുകയുണ്ടായി. എന്നാൽ ട്രെയിനിങ്ങിനുപയോഗിച്ച ഡേറ്റയേക്കാൾ  മെച്ചപ്പെടാൻ ഒരിക്കലും ഇതിന് സാധിക്കുകയില്ല.

പക്ഷേ ടെക്നോളജിയിൽ നമുക്കുള്ള വിശ്വാസം പലപ്പോഴും രൂഢമാണ്.  സ്പെല്ലിങ്ങിൽ എന്തെങ്കിലും സംശയമുണ്ടെങ്കിൽ ഒരു ഗൂഗിൾ തെരച്ചിലിൽ ഏറ്റവും  കൂടുതൽ പേർ എന്തെഴുതുന്നുവെന്ന് നോക്കി ‘ശരി’ കണ്ടെത്തുന്നത് നമുക്ക്  ശീലമായിത്തുടങ്ങിയിട്ടുണ്ട്.

ട്രെയിനിങ്ങ് ഡേറ്റ കൃത്യമായി പരിപാലിക്കപ്പെട്ടതല്ലെങ്കിൽ അതിലെ  പിശകുകൾ നിർമ്മിക്കപ്പെട്ട മാതൃകയിലേയ്ക്കും സംക്രമിക്കും. ഇത് കൂടുതൽ  പേരുപയോഗിക്കുമ്പോൾ തെറ്റുകൾ പതിയെ ശരിയായി മാറും.

‘പഠിച്ചതേ പാടൂ’ എന്നതാണ് മെഷീൻ ലേണിങ്ങ് വഴി കാര്യങ്ങൾ പഠിച്ചെടുത്ത  ഒരു സിസ്റ്റത്തിന്റെ രീതി. പഠിച്ചെടുത്തത് തെറ്റാണെന്ന് നമുക്ക്  മനസ്സിലായാലും, എന്തുകൊണ്ട് തെറ്റായി പഠിച്ചുവെന്നും അതെങ്ങനെ  ശരിയാക്കാമെന്നുള്ളതുമൊന്നും നമ്മുടെ നിയന്ത്രണത്തിലാവില്ല.   ഓട്ടോമാറ്റിക്കായി പരിപാലിക്കപ്പെട്ട ഡേറ്റാഘടകത്തിലെ തെറ്റുകൾ  കണ്ടെത്തി  തിരുത്താൻ എളുപ്പം സാധിക്കുകയുമില്ല.

ഭാഷാസാങ്കേതികവിദ്യയുടെ ഭാവി

മലയാളം ഉൾപ്പെടെയുള്ള ധാരാളം ലോകഭാഷകൾ വിഭവദരിദ്ര (low resource)  ഗണത്തിൽപ്പെടുന്നതാണ്. അതായത് കൃത്യമായി രേഖപ്പെടുത്തിയ നല്ലരീതിയിൽ  പരിപാലിക്കപ്പെടുന്ന കമ്പ്യൂട്ടിങ്ങ് വ്യാകരണനിയമങ്ങളോ,  അക്ഷരസ്വനിമനിയമങ്ങളോ ഇല്ലാത്ത ഭാഷകൾ. ഇംഗ്ലിഷ്, സ്പാനിഷ് ഭാഷകളൊക്കെ  ഇക്കാര്യത്തിൽ ബഹുദൂരം മുന്നിലാണ്.

ഈ ഭാഷാ വിഭവദാരിദ്ര്യത്തെ മറികടക്കുവാൻ എന്തു ചെയ്യാനാകും?  ഭാഷാശാസ്ത്രജ്ഞരെ ഉൾപ്പെടുത്തി വലിയ കമ്പ്യൂട്ടിങ്ങ് പ്രോജക്ടുകൾ തുടങ്ങാം.  ഈ രംഗത്ത് ഗവേഷണം നടത്തുന്ന കമ്പനികളെ സംബന്ധിച്ചിടത്തോളം വലിയ  വിപണിസാധ്യതയില്ലാത്ത ഒരുപാടു ചെറിയഭാഷകൾക്കായി ഇത്തരമൊരു മുതൽമുടക്ക്   പക്ഷേ സാധ്യമല്ല. അവരെ സംബന്ധിച്ച് ചെറുതെങ്കിലും ലഭ്യമായ ഡേറ്റാസഞ്ചയം  കൊണ്ട് ട്രെയിൻ ചെയ്ത, കുറവുകളുള്ള ഒരു മെഷീൻ ലേണിങ്ങ്  മോഡലാണ് അത്തരം  ഭാഷകൾക്കായി പെട്ടെന്നുണ്ടാക്കാൻ സാധിക്കുക. കൂടുതൽ ഡേറ്റ കിട്ടുന്ന  മുറയ്ക്ക് മെച്ചപ്പെടുത്താൻ സാധിക്കുമ്പോൾ അത് ചെയ്യുകയെന്നതാവും അവരുടെ  വഴി.

ട്രെയിനിങ്ങിനുള്ള കോഡ് സ്വതന്ത്രമാണെങ്കിൽ പോലും ഡേറ്റയും പ്രോസസിങ്ങ്  പവറും ഇല്ലെങ്കിൽ മറ്റാർക്കും കടന്നുചെല്ലാൻ പോലും  സാധ്യമല്ലാത്തവിധം  അടച്ചുപൂട്ടപ്പെട്ട ഒരു സാങ്കേതികവിദ്യയായി ഇത് നിലനിൽക്കും. ഇത് ഈ  മേഖലയുടെ കുത്തകവൽക്കരണത്തിലേക്കാവും വഴിവെക്കുക.

ഭാഷയും ഭാഷാസങ്കേതങ്ങളും അതുപയോഗിക്കുന്ന ജനതയുടെ സാംസ്കാരികസമ്പത്താണ്.  അതിന്റെ ഏതെങ്കിലും വിധത്തിലുള്ള കുത്തകവൽക്കരണം ചെറുക്കേണ്ടതുണ്ട്.  മാത്രമല്ല കുത്തകകമ്പനികൾ നൽകുന്ന ഭാഷാസങ്കേതങ്ങൾ എന്നെങ്കിലും  പിൻവലിച്ചാലോ വിപണിമൂല്യത്തിനനുസരിച്ച് കനത്തവിലയീടാക്കിയാലോ ഭാഷയ്ക്ക്  ഭീഷണിയാവും. അതുകൊണ്ടുതന്നെ ഭാഷാസാങ്കേതികവിദ്യയുടെ പൊതു ഉടമസ്ഥതയ്ക്ക്  വിവിധതലങ്ങളിൽ പ്രാധാന്യമുണ്ട്.

ഈ പ്രാധാന്യം മനസ്സിലാക്കിയാണ് മോസില്ല ഫൗണ്ടേഷൻ സ്വതന്ത്രമായൊരു  ശബ്ദസഞ്ചയം നിർമ്മിക്കാനുള്ള മുൻകൈ എടുത്തത്. രണ്ടുവർഷം മുമ്പ് മോസില്ല  പൊതുജനങ്ങളിൽ നിന്നും അവരുടെ അനുമതിയോടെ ശബ്ദം ശേഖരിച്ച് കോമൺ വോയിസ് എന്നൊരു പ്രോജക്ട് തുടങ്ങുകയുണ്ടായി. ആ ശബ്ദസഞ്ചയത്തിനു പുറത്ത് ഇംഗ്ലിഷ് ഭാഷയ്ക്കായി ഒരു വോയിസ് റെക്കഗ്നിഷൻ സിസ്റ്റം സ്വതന്ത്രമായി പുറത്തിറക്കുകയുമുണ്ടായി. അങ്ങനെയൊരു സംവിധാനം  മറ്റുഭാഷകൾക്കായിട്ടും നിർമ്മിക്കുവാൻ മോസില്ലയ്ക്ക് പദ്ധതിയുണ്ട്.  മലയാളത്തിൽ അതിനായുള്ള പ്രവർത്തങ്ങൾ നടന്നുകൊണ്ടിരിക്കുന്നു.  സ്വതന്ത്രമലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ പ്രവർത്തകരും ഇതിലേയ്ക്കായി  സന്നദ്ധസേവനം ചെയ്യുന്നുണ്ട്.

മലയാളത്തെ ഭാഷാപരമായി അപഗ്രഥിക്കുന്ന, അല്ലെങ്കിൽ മലയാളത്തിന്റെ വ്യാകരണനിയമങ്ങൾക്ക് അൽഗോരിതവ്യാഖ്യാനം ചമയ്ക്കുന്ന ഒരു പ്രോജക്ട് (മലയാളം മോർഫോളജി അനലൈസർ)  ഭാഷാസാങ്കേതികരംഗത്ത് പ്രവർത്തിക്കുന്ന സന്തോഷ് തോട്ടിങ്ങൽ  നിർമ്മിച്ചുകൊണ്ടിരിക്കുന്നുണ്ട്. അതു മുന്നോട്ട് പോകുമ്പോൾ  ഡേറ്റാശേഖരത്തിന്റെ അഭാവത്തിൽ പോലും പിശകുകളില്ലാത്ത മലയാളം ഭാഷാ  കമ്പ്യൂട്ടിങ്ങ് സാധ്യമാക്കാനായേക്കും. വിഭവദരിദ്ര ഭാഷകൾക്ക്  പിന്തുടരാനാകുന്ന ഒരു മാതൃകയാണിത്.

അതുകൊണ്ട് നമുക്ക് ചെയ്യാനുള്ളത് തദ്ദേശീയമായ ഗവേഷണസ്ഥാപനങ്ങൾ ഈ മേഖലയിൽ  പ്രവർത്തിക്കുമ്പോൾ സ്വതന്ത്രലൈസൻസിൽ പുനരുപയോഗിക്കാൻ കഴിയുന്ന വിധത്തിൽ  ഡേറ്റാശേഖരം നിർമ്മിച്ച് പൊതുവായി ലഭ്യമാക്കുക.  അത് ഈ മേഖലയിലെ  സ്വതന്ത്രമായ ഗവേഷണവും വളർച്ചയും പരിപോഷിപ്പിക്കുകയേ ഉള്ളൂ. അതുകൂടാതെ  മെഷീൻ ലേണിങ്ങിനൊപ്പം പ്രാദേശികമായി ലഭ്യമായ ഭാഷാശാസ്ത്ര വൈദഗ്ദ്ധ്യം കൂടി  ഉൾച്ചേർത്ത് മെച്ചപ്പെട്ട ഭാഷാമോഡലുകൾക്കായുള്ള ശ്രമവുമാകാം.