Стемминг

Стемминг – это частица алгоритма поиска, чтобы найти основу словоформы. Такой поиск предназначен искать слова в морфологическом изменении. Беря за основу определенное слово, поиск происходит во всей грамматике слова, без окончаний или суффиксов.

Как работает стемминг на русских рессурсах

Большинство поисковых систем в своей работе пользуются услугами стемминга, благодаря которому можно найти слова по морфологии. Этапы работы поиска:

  • Ввод ключевого слова;
  • Происходит мониторинг всех словоформ данного слова с его основой;
  • Выдача необходимого слова по запросу.

 

Система «Яндекс» для такого поиска создала программку mystem. Эта программа является бесплатной и использовать ее может каждый. Она предусматривает работу для всех видов операционных систем. Такая программа позволяет:

  • Приводить слова к их начальной форме;
  • Определить их частоту в русском языке;
  • Обозначить его грамматику.

 

Версия программы 1.0 предусматривает работу с английским текстом. По классификации словоформ можно говорить, что они значительно отличаются от принятых:

  • Время есть прошедшее и непрошедшее;
  • В одном случае некоторые глаголы отличаются суффиксом несовершенного и совершенного видов;

 

Можно говорить, что mystem стала основателем стемминга, который строит морфологические разметки Национальной структуры русского языка. Благодаря такой работе поиска морфологии слова, можно:

  1. отыскать интересующие слова и словоформы;
  2. ускорить процесс необходимой работы;
  3. усовершенствовать свой запас словоформ.

 

Используя такой стемминг с программой mystem, гораздо легче стало проводить различные поиски слов, а также появилась возможность развития словарного запаса. Система просматривает все документы, веб-страницы, контент в которых есть заданное для поиска слово и словоформа. Но существуют и платные и бесплатные версии программ стеммеров.

 5.00 (1)
Оставить комментарий

Тарифы на услуги