Thursday, January 1, 2009

മലയാളം അകാരാദിക്രമം

സ്വതന്ത്ര പ്രവര്‍ത്തകസംവിധാനങ്ങള്‍ക്കായി തയ്യാറാക്കിയ glibc (Gnu C Library ) അകാരാദിക്രമത്തിന്റെ(Collation) വിശദവിവരങ്ങള്‍ താഴെക്കൊടുക്കുന്നു. അഭിപ്രായങ്ങള്‍ അറിയിക്കുക.



താഴെപ്പറയുന്ന നിയമങ്ങളുടെ അടിസ്ഥാനത്തിലാണു് മലയാളം അകാരാദിക്രമം തയ്യാറാക്കിയിരിക്കുന്നതു്.


  1. അക്ഷരമാലാക്രമം പിന്തുടരുക.

  2. അനുസ്വാരം മയുടെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപമായി പരിഗണിച്ചു് മയുടെ തൊട്ടുമുന്നില്‍ ക്രമീകരിയ്ക്കുക. പംപ < പമ്പ എന്ന പോലെ .

  3. ഓരോ വ്യഞ്ജനവും അതിന്റെ സ്വരസാന്നിദ്ധ്യമില്ലാത്ത രൂപത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമായി കണക്കാക്കുക. അതായതു് ത എന്നതു് ത് എന്ന സ്വരസാന്നിദ്ധ്യമില്ലാത്ത വ്യഞ്ജനത്തിന്റെ കൂടെ അകാരം ഉള്ള രൂപമാണു്. ത = ത് + അ . താ = ത് + ആ എന്നിങ്ങനെ. ഇതില്‍ നിന്നും ത് < ത എന്നു വ്യക്തമാകുന്നു. അതുകൊണ്ടു് ത എന്നതു് ത് കഴിഞ്ഞേ വരൂ. അത് < അതല്ല < അതാണു്. അതേസമയം അത്ഭുതം > അതഭ. കൂട്ടക്ഷരങ്ങള്‍ അതിലെ ആദ്യത്തെ അക്ഷരത്തില്‍ സ്വരചിഹങ്ങള്‍ ചേര്‍ന്ന രൂപങ്ങളെല്ലാം കഴിഞ്ഞേ വരൂ.
    ത്ഭ = ത + ് + ഭ + ് + അ
    തഭ = ത + ് + അ + ഭ + ് + അ
    ആദ്യത്തെ രണ്ടക്ഷരങ്ങള്‍ തുല്യമായതുകൊണ്ടു്, ഇതിനെ നമുക്കു്
    ഭ + ് + അ
    അ + ഭ + ് + അ
    എന്നെഴുതാം. ഭ > അ ആണല്ലോ. അതുകൊണ്ടു് അത്ഭുതം എന്നതു് അതഭ എന്നതിനു ശേഷമേ വരൂ.

  4. ചില്ലക്ഷരങ്ങള്‍ അതാതിന്റെ വ്യഞ്ജങ്ങളുടെ സ്വരമില്ലാത്ത രൂപങ്ങളായതിനാല്‍ മേല്‍പറഞ്ഞപോലെ ക്രമീകരിക്കപ്പെടും. അതായതു് ര്‍ < ര . ഉദാഹരണം:
    അവര്

    അവര്‍

    അവര

  5. സംവൃതോകാരം ഉകാരത്തിനു തൊട്ടു പിന്നില്‍ വരും. അതു് < അതു

  6. മലയാളം അക്കങ്ങള്‍ അവയുടെ അറബി ലിപികളുടെ കൂടെ തന്നെ വരും.
    1

    १०

    2



    3

    ३०
    എന്ന രീതിയില്‍

  7. കൌ, കൗ എന്നിവ തുല്യങ്ങളായി കണക്കാക്കപ്പെടും.
    കൗ

    കൌ
    എന്ന രീതിയില്‍

  8. ഒ, ഓ, ഔ എന്നിവയുടെ സ്വരചിഹനങ്ങള്‍ യഥാക്രമം ൊ , ോ , ൌ എന്നോ െ+ ാ , േ+ ാ , െ+ ൗ എന്നോ എഴുതിയാലും തുല്യമായി കണക്കാക്കും(Canonical Equivalence)



ഈ വിഷയത്തെപ്പറ്റി നടന്ന ചര്‍ച്ചയും കൂടുതല്‍ വിവരങ്ങളും ഇവിടെ . പ്രത്യേകിച്ചു പ്രശ്നങ്ങളൊന്നുമില്ലെങ്കില്‍ യൂണിക്കോഡ് കൊളേഷന്‍ തിരുത്തി ശരിയാക്കാന്‍ ഇതു് അടിസ്ഥാനമാക്കാം.

5 comments:

  1. ര് ര്‍ എന്നിവ തുല്യമായാണോ കണക്കാക്കുന്നതു്?

    ReplyDelete
  2. ര്‍ = ര + ് + zwj ആണല്ലോ, അതിലെ zwj യുടെ പ്രൈമറി കോളേഷന്‍ വെയ്റ്റ് പൂജ്യമാണു്(zwnj യുടെയും).അതുകൊണ്ടു് അതു് ര് ന്റെ വെയിറ്റിനു തുല്യമാകും. പക്ഷേ ര് കഴിഞ്ഞേ ര്‍ വരൂ. താഴെപ്പറയുന്ന സോര്‍ട്ടിങ്ങ് ശ്രദ്ധിക്കുമല്ലോ.
    തമിഴ്നാട്
    തമിഴ്‌നാട്
    നന്മ
    നന്‍മ
    വില്പന
    വില്‍പന
    വില്‌പന
    ഇവിടെ കൊടുത്തിരിക്കുന്ന glibc യുടെ ടേബിള്‍ നോക്കുക.

    ReplyDelete
  3. മലയാളവുമായി മാത്രം ബന്ധപ്പെട്ടതല്ല ഈ ചൊദ്യം

    അക്കങ്ങളുടെ സോര്‍‌ട്ടിങ്ങ് എന്തു കൊണ്ട്

    1

    10

    ...

    ...

    2

    20

    .....



    എന്നിങ്ങനെ ആകുന്നു. എന്തു കൊണ്ടത്

    1

    2

    3

    ...

    ...

    10

    ....

    20



    എന്നിങ്ങനെ ആകുന്നില്ല?

    ഇപ്പോഴത്തെ സോര്‍‌ട്ടിങ്ങില്‍ ഉപയോഗിച്ചിരിക്കുന്ന ലോജിക്ക് എന്താണു്?

    ReplyDelete
  4. ഷിജു,

    ഇതു് മലയാളത്തിന്‍റെ മാത്രം പ്രശ്നമല്ല. വിന്‍ഡോസില്‍ ഈ ‘കുഴപ്പം’ പലേടത്തും കാണാം.

    ഇതും ഇതും വായിച്ചു നോക്കൂ.

    ReplyDelete
  5. This sorting rules are part of GNU C library now. Will be available in GNU/Linux distros soon. Fedora 11 will be the first version with Malayalam sorting.

    ReplyDelete

Note: Only a member of this blog may post a comment.

 
live web stats