alm

  • ХабрахабрФото ANYKS Spell-checker

    ANYKS Spell-checker

    train.json , "locale": "en_US.UTF-8", "smoothing": "wittenbell", "pilots": ["а","у","в","о","с","к","б","и","я","э","a","i","o","e","g"], "w-bin": "./dictionary/3-single.asc", "r-abbr": "./output/alm.abbr", "r-vocab": "./output/alm.vocab", "r-arpa": "./output/alm.arpa", "abbrs": "./texts/abbrs/abbrs.txt", "goodwords": "./texts/whitelist/words.txt", "badwords": "./texts/blacklist/garbage.txt", "alters": "./texts/alters/yoficator.txt", "upwords": "./texts/words/upp", "mix-restwords": "./texts/similars/letters.txt", "alphabet": "абвгдеёжзийклмнопрстуфхцчшщъыьэюяabcdefghijklmnopqrstuvwxyz", "bin-code": "ru", "bin-name": "Russian", "bin-author": "You name", "bin-copyright": "You company LLC", "bin-contacts": "site: https://example.com, e-mail: info@example.com", "bin-lictype": "MIT", "bin-lictext": "... License text ...", "embedding-size": 28, "embedding": { "а": 0, "б":…

    Читать далее »
  • ХабрахабрФото Альтернативное понимание контекста с помощью статистической языковой модели

    Альтернативное понимание контекста с помощью статистической языковой модели

    В интернете полно статей на тему основанных на N-граммах языковых моделей. При этом, готовых для работы библиотек довольно мало. Есть KenLM, SriLM и IRSTLM. Они популярны и используются во многих крупных проектах. Но есть проблемы: Библиотеки старые, не развиваются. Плохо поддерживают русский язык. Работают только с чистым, специально подготовленным, текстом Плохо поддерживают UTF-8. Например, SriLM с флагом tolower ломает кодировку.…

    Читать далее »


Кнопка «Наверх»