Tuesday, March 31, 2009

"ക്ടാവ്" Slang converter തയാറാവുന്നു

ചങ്ങാതിമാരേ,
കേരളത്തിലെ രസകരമായ പ്രാദേശിക ഭാഷാ ഭേദങ്ങളെക്കുറിച്ചു് നിങ്ങള്‍ക്കെല്ലാമറിയാമല്ലോ? തിരുവനന്തപുരം, കോട്ടയം, തൃശ്ശൂര്‍, ഷൊര്‍ണ്ണൂര്‍, പാലക്കാട്, കോഴിക്കോട് കണ്ണൂര്‍, വയനാട് തുടങ്ങി നമുക്കു് വ്യത്യസ്തങ്ങളായ മലയാളത്തിന്റെ രൂപഭേദങ്ങളുണ്ടു്. അച്ചടി മലയാളത്തില്‍ നിന്നും വളരെയേറെ വ്യത്യസ്തമാണു് അവ. അച്ചടി മലയാളം കൊടുത്തു് സ്ഥലത്തിന്റെ പേരു കൊടുത്താല്‍ ആ പ്രദേശത്തെ മലയാളത്തിന്റെ രീതിയിലേക്കു അതിനെ മാറ്റിത്തരുന്ന ഒരു സോഫ്റ്റ്‌വെയര്‍ രസകരമാവില്ലേ?

അത്തരത്തിലൊരു ശ്രമമാണു് "ക്ടാവ്" Slang converter എന്നു പേരിട്ടിരിക്കുന്ന പ്രൊജക്ട്. ഇതിന്റെ കൂടെ കൊടുത്തിരിക്കുന്ന സ്ക്രീന്‍ഷോട്ട് നോക്കൂ. ഡെവലപ്മെന്റ് പതിപ്പിന്റെ ചിത്രമാണതു്. കുറച്ചു നിയമങ്ങളുടെ അടിസ്ഥാനത്തില്‍ Natural Language Processing ന്റെ പുതിയ ശാഖയായ AMP(Ambiguous Language Processing) എന്ന വിദ്യ ഉപയോഗിച്ചാണു് ഇതു ചെയ്തിരിക്കുന്നതു്. Qt/C++ ആണു് കോഡ്. UI ചെയ്യാന്‍ Qt Creator ഉപയോഗിച്ചു.

ഒരു മലയാളം ഫയലില്‍ പല സ്ലാങ്ങില്‍ തിരയാനുള്ള സംവിധാനവും തയ്യാറാക്കാന്‍ പദ്ധതിയുണ്ടു് . അതായതു് ഗഡി എന്നു തിരഞ്ഞാല്‍ സുഹൃത്തു് , ചങ്ങാതി എന്നൊക്കെ കിട്ടണം. പിന്നെ ഗഡി എന്നു സ്പെല്ലിങ്ങ് തെറ്റിച്ചെഴുതിയാല്‍ സുഹൃത്ത്, ചങ്ങാതി എന്നൊക്കെ സ്പെല്‍ചെക്കറില്‍ സൂചന വരാനുള്ള ഫീച്ചറും നമുക്കു് ചെയ്യണം. GPL V3 ലൈസന്‍സിലുള്ള ഈ അപ്ലിക്കേഷനു് ഇതിന്റെ നിയമങ്ങള്‍ വിപുലപ്പെടുത്താനും ടെസ്റ്റ് ചെയ്യാനും വിവിധ ജില്ലകളില്‍ താമസിക്കുന്നവരില്‍ നിന്നുള്ള സഹായം ആവശ്യമുണ്ടു്.

സഹകരിക്കുമല്ലോ.

അഭിപ്രായങ്ങളറിയിക്കുക.

Thursday, January 1, 2009

മലയാളം അകാരാദിക്രമം

സ്വതന്ത്ര പ്രവര്‍ത്തകസംവിധാനങ്ങള്‍ക്കായി തയ്യാറാക്കിയ glibc (Gnu C Library ) അകാരാദിക്രമത്തിന്റെ(Collation) വിശദവിവരങ്ങള്‍ താഴെക്കൊടുക്കുന്നു. അഭിപ്രായങ്ങള്‍ അറിയിക്കുക.



താഴെപ്പറയുന്ന നിയമങ്ങളുടെ അടിസ്ഥാനത്തിലാണു് മലയാളം അകാരാദിക്രമം തയ്യാറാക്കിയിരിക്കുന്നതു്.


  1. അക്ഷരമാലാക്രമം പിന്തുടരുക.

  2. അനുസ്വാരം മയുടെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപമായി പരിഗണിച്ചു് മയുടെ തൊട്ടുമുന്നില്‍ ക്രമീകരിയ്ക്കുക. പംപ < പമ്പ എന്ന പോലെ .

  3. ഓരോ വ്യഞ്ജനവും അതിന്റെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമായി കണക്കാക്കുക. അതായതു് ത എന്നതു് ത് എന്ന സ്വരസാന്നിദ്ധ്യമില്ലാത്ത വ്യഞ്ജനത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമാണു്. ത = ത് + അ . താ = ത് + ആ എന്നിങ്ങനെ. ഇതില്‍ നിന്നും ത് < ത എന്നു വ്യക്തമാകുന്നു. അതുകൊണ്ടു് ത എന്നതു് ത് കഴിഞ്ഞേ വരൂ. അത് < അതല്ല < അതാണു്. അതേസമയം അത്ഭുതം > അതഭ. കൂട്ടക്ഷരങ്ങള്‍ അതിലെ ആദ്യത്തെ അക്ഷരത്തില്‍ സ്വരചിഹങ്ങള്‍ ചേര്‍ന്ന രൂപങ്ങളെല്ലാം കഴിഞ്ഞേ വരൂ.
    ത്ഭ = ത + ് + ഭ + ് + അ
    തഭ = ത + ് + അ + ഭ + ് + അ
    ആദ്യത്തെ രണ്ടക്ഷരങ്ങള്‍ തുല്യമായതുകൊണ്ടു്, ഇതിനെ നമുക്കു്
    ഭ + ് + അ
    അ + ഭ + ് + അ
    എന്നെഴുതാം. ഭ > അ ആണല്ലോ. അതുകൊണ്ടു് അത്ഭുതം എന്നതു് അതഭ എന്നതിനു ശേഷമേ വരൂ.

  4. ചില്ലക്ഷരങ്ങള്‍ അതാതിന്റെ വ്യഞ്ജങ്ങളുടെ സ്വരമില്ലാത്ത രൂപങ്ങളായതിനാല്‍ മേല്‍പറഞ്ഞപോലെ ക്രമീകരിക്കപ്പെടും. അതായതു് ര്‍ < ര . ഉദാഹരണം:
    അവര്

    അവര്‍

    അവര

  5. സംവൃതോകാരം ഉകാരത്തിനു തൊട്ടു പിന്നില്‍ വരും. അതു് < അതു

  6. മലയാളം അക്കങ്ങള്‍ അവയുടെ അറബി ലിപികളുടെ കൂടെ തന്നെ വരും.
    1

    १०

    2



    3

    ३०
    എന്ന രീതിയില്‍

  7. കൌ, കൗ എന്നിവ തുല്യങ്ങളായി കണക്കാക്കപ്പെടും.
    കൗ

    കൌ
    എന്ന രീതിയില്‍

  8. ഒ, ഓ, ഔ എന്നിവയുടെ സ്വരചിഹനങ്ങള്‍ യഥാക്രമം ൊ , ോ , ൌ എന്നോ െ+ ാ , േ+ ാ , െ+ ൗ എന്നോ എഴുതിയാലും തുല്യമായി കണക്കാക്കും(Canonical Equivalence)



ഈ വിഷയത്തെപ്പറ്റി നടന്ന ചര്‍ച്ചയും കൂടുതല്‍ വിവരങ്ങളും ഇവിടെ . പ്രത്യേകിച്ചു പ്രശ്നങ്ങളൊന്നുമില്ലെങ്കില്‍ യൂണിക്കോഡ് കൊളേഷന്‍ തിരുത്തി ശരിയാക്കാന്‍ ഇതു് അടിസ്ഥാനമാക്കാം.
 
live web stats