ചങ്ങാതിമാരേ,
കേരളത്തിലെ രസകരമായ പ്രാദേശിക ഭാഷാ ഭേദങ്ങളെക്കുറിച്ചു് നിങ്ങള്ക്കെല്ലാമറിയാമല്ലോ? തിരുവനന്തപുരം, കോട്ടയം, തൃശ്ശൂര്, ഷൊര്ണ്ണൂര്, പാലക്കാട്, കോഴിക്കോട് കണ്ണൂര്, വയനാട് തുടങ്ങി നമുക്കു് വ്യത്യസ്തങ്ങളായ മലയാളത്തിന്റെ രൂപഭേദങ്ങളുണ്ടു്. അച്ചടി മലയാളത്തില് നിന്നും വളരെയേറെ വ്യത്യസ്തമാണു് അവ. അച്ചടി മലയാളം കൊടുത്തു് സ്ഥലത്തിന്റെ പേരു കൊടുത്താല് ആ പ്രദേശത്തെ മലയാളത്തിന്റെ രീതിയിലേക്കു അതിനെ മാറ്റിത്തരുന്ന ഒരു സോഫ്റ്റ്വെയര് രസകരമാവില്ലേ?
അത്തരത്തിലൊരു ശ്രമമാണു് "ക്ടാവ്" Slang converter എന്നു പേരിട്ടിരിക്കുന്ന പ്രൊജക്ട്. ഇതിന്റെ കൂടെ കൊടുത്തിരിക്കുന്ന സ്ക്രീന്ഷോട്ട് നോക്കൂ. ഡെവലപ്മെന്റ് പതിപ്പിന്റെ ചിത്രമാണതു്. കുറച്ചു നിയമങ്ങളുടെ അടിസ്ഥാനത്തില് Natural Language Processing ന്റെ പുതിയ ശാഖയായ AMP(Ambiguous Language Processing) എന്ന വിദ്യ ഉപയോഗിച്ചാണു് ഇതു ചെയ്തിരിക്കുന്നതു്. Qt/C++ ആണു് കോഡ്. UI ചെയ്യാന് Qt Creator ഉപയോഗിച്ചു.
ഒരു മലയാളം ഫയലില് പല സ്ലാങ്ങില് തിരയാനുള്ള സംവിധാനവും തയ്യാറാക്കാന് പദ്ധതിയുണ്ടു് . അതായതു് ഗഡി എന്നു തിരഞ്ഞാല് സുഹൃത്തു് , ചങ്ങാതി എന്നൊക്കെ കിട്ടണം. പിന്നെ ഗഡി എന്നു സ്പെല്ലിങ്ങ് തെറ്റിച്ചെഴുതിയാല് സുഹൃത്ത്, ചങ്ങാതി എന്നൊക്കെ സ്പെല്ചെക്കറില് സൂചന വരാനുള്ള ഫീച്ചറും നമുക്കു് ചെയ്യണം. GPL V3 ലൈസന്സിലുള്ള ഈ അപ്ലിക്കേഷനു് ഇതിന്റെ നിയമങ്ങള് വിപുലപ്പെടുത്താനും ടെസ്റ്റ് ചെയ്യാനും വിവിധ ജില്ലകളില് താമസിക്കുന്നവരില് നിന്നുള്ള സഹായം ആവശ്യമുണ്ടു്.
സഹകരിക്കുമല്ലോ.
അഭിപ്രായങ്ങളറിയിക്കുക.
Tuesday, March 31, 2009
Thursday, January 1, 2009
മലയാളം അകാരാദിക്രമം
സ്വതന്ത്ര പ്രവര്ത്തകസംവിധാനങ്ങള്ക്കായി തയ്യാറാക്കിയ glibc (Gnu C Library ) അകാരാദിക്രമത്തിന്റെ(Collation) വിശദവിവരങ്ങള് താഴെക്കൊടുക്കുന്നു. അഭിപ്രായങ്ങള് അറിയിക്കുക.
താഴെപ്പറയുന്ന നിയമങ്ങളുടെ അടിസ്ഥാനത്തിലാണു് മലയാളം അകാരാദിക്രമം തയ്യാറാക്കിയിരിക്കുന്നതു്.
- അക്ഷരമാലാക്രമം പിന്തുടരുക.
- അനുസ്വാരം മയുടെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപമായി പരിഗണിച്ചു് മയുടെ തൊട്ടുമുന്നില് ക്രമീകരിയ്ക്കുക. പംപ < പമ്പ എന്ന പോലെ .
- ഓരോ വ്യഞ്ജനവും അതിന്റെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമായി കണക്കാക്കുക. അതായതു് ത എന്നതു് ത് എന്ന സ്വരസാന്നിദ്ധ്യമില്ലാത്ത വ്യഞ്ജനത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമാണു്. ത = ത് + അ . താ = ത് + ആ എന്നിങ്ങനെ. ഇതില് നിന്നും ത് < ത എന്നു വ്യക്തമാകുന്നു. അതുകൊണ്ടു് ത എന്നതു് ത് കഴിഞ്ഞേ വരൂ. അത് < അതല്ല < അതാണു്. അതേസമയം അത്ഭുതം > അതഭ. കൂട്ടക്ഷരങ്ങള് അതിലെ ആദ്യത്തെ അക്ഷരത്തില് സ്വരചിഹങ്ങള് ചേര്ന്ന രൂപങ്ങളെല്ലാം കഴിഞ്ഞേ വരൂ.
ത്ഭ = ത + ് + ഭ + ് + അ
തഭ = ത + ് + അ + ഭ + ് + അ
ആദ്യത്തെ രണ്ടക്ഷരങ്ങള് തുല്യമായതുകൊണ്ടു്, ഇതിനെ നമുക്കു്
ഭ + ് + അ
അ + ഭ + ് + അ
എന്നെഴുതാം. ഭ > അ ആണല്ലോ. അതുകൊണ്ടു് അത്ഭുതം എന്നതു് അതഭ എന്നതിനു ശേഷമേ വരൂ. - ചില്ലക്ഷരങ്ങള് അതാതിന്റെ വ്യഞ്ജങ്ങളുടെ സ്വരമില്ലാത്ത രൂപങ്ങളായതിനാല് മേല്പറഞ്ഞപോലെ ക്രമീകരിക്കപ്പെടും. അതായതു് ര് < ര . ഉദാഹരണം:
അവര്
അവര്
അവര - സംവൃതോകാരം ഉകാരത്തിനു തൊട്ടു പിന്നില് വരും. അതു് < അതു
- മലയാളം അക്കങ്ങള് അവയുടെ അറബി ലിപികളുടെ കൂടെ തന്നെ വരും.
1
१०
2
൨
3
३०
എന്ന രീതിയില് - കൌ, കൗ എന്നിവ തുല്യങ്ങളായി കണക്കാക്കപ്പെടും.
കൗ
കൌ
എന്ന രീതിയില് - ഒ, ഓ, ഔ എന്നിവയുടെ സ്വരചിഹനങ്ങള് യഥാക്രമം ൊ , ോ , ൌ എന്നോ െ+ ാ , േ+ ാ , െ+ ൗ എന്നോ എഴുതിയാലും തുല്യമായി കണക്കാക്കും(Canonical Equivalence)
ഈ വിഷയത്തെപ്പറ്റി നടന്ന ചര്ച്ചയും കൂടുതല് വിവരങ്ങളും ഇവിടെ . പ്രത്യേകിച്ചു പ്രശ്നങ്ങളൊന്നുമില്ലെങ്കില് യൂണിക്കോഡ് കൊളേഷന് തിരുത്തി ശരിയാക്കാന് ഇതു് അടിസ്ഥാനമാക്കാം.
Subscribe to:
Posts (Atom)