Member
Статус: Не в сети Регистрация: 13.11.2003 Откуда: Москва
Пишу программу для классификации текстов.
Проблема в том, что для каждого слова из текста желательно найти найти его начальную форму. Это позволило бы рассматривать, например, слова "книга", "книгу", "книг" как один и тот же термин, а не как 3 разных.
Нашел словарь для русского языка - вот здесь. А вот фрагмент из него. Т.е. выкидываем символ ударения и для очень многих слов можем определить их начальную форму.
Так вот теперь нужен аналогичный словарик для английского языка. Кто-нибудь знает где найти? Т.е. мне нужен любой подходящий словарь, где была бы информация о начальной форме слова и желательно описание - как эту информацию из него вытащить. С тем русским словариком проблем нет, там всё понятно. А для английского никак не найду. Посмотрел WordNet - не понял, как из него вытащить то, что мне надо.
Можно обойтись какими-нибудь алгоритмами, которые бы убирали приставки, суффиксы и окончания, но хотелось бы именно словарик, даже несмотря на большой занимаемый им объем.
Заранее спасибо.
_________________ Внимание! Форум в опасности! ИДИОТ ЗА КЛАВИАТУРОЙ!!!
Member
Статус: Не в сети Регистрация: 13.11.2003 Откуда: Москва
Mosga Прочитал. И по wnsearch и даже по morph. Понял, что возиться со всем этим большого желания не имею. Но также я понял из всей совокупности ответов в этой теме, что никто готовых нужных мне словариков не видел. Придется возиться с этим. Эх tnx anyway!
_________________ Внимание! Форум в опасности! ИДИОТ ЗА КЛАВИАТУРОЙ!!!
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения