Как сделать морфологический поиск?

285

antono

9 февраля 2006, 16:11

5530

Как можно реализовать поиск слов с учетом их морфологии? Не очень навороченный, но хотя бы чтоб окончания слов различал.

Например на банк_рефератов при поиске окончания слов обрезаются и поиск происходит по обрезкам слов. Это получается нужно составить таблицу с окончаниями и обрабатывать поисковый запрос через нее. На верном ли я пути? И где вообще можно почитать по этой теме?

Y

138

Yukko

9 февраля 2006, 17:13

#1

Если лень заморачиваться словарями словоформ, то у длинных слов режем 4 буквы, у средних по длинне слов режем 3 буквы, у коротких 2 и совсем коротких 1, у слов из 3-х букв не режем ничего ;)

Составляем массив стоп-слов, которые просто выкидываем из запроса, и дальше занимаемся проблемами ранжирования, в которых надо учитывать в первую очередь было ли точное вхождение слова или словоформа (за один проход у меня делать не получалось :( ).

285

antono

9 февраля 2006, 17:22

#2

Ага, спасибо, идея ясна, нужно попробвать сначала обрезать слова.

Кстати у меня ищет и целиком слово - придается уму больший вес, и часть члова - соответственно меньший вес, делается за 1 проход.

Y

138

Yukko

9 февраля 2006, 17:36

#3

а по чем поиск производится? по базе? или все как положено?

30

lagif

10 февраля 2006, 13:05

#4

1) Морфологический анализатор, основанный на словаре.

2) Вероятностный стемминг.

Это тоже пройдет...

202

bondarev.pp.ru

10 февраля 2006, 13:10

#5

Достаточно обрезать все существующие в словаре окончания. Их не так много - можно достать в любом справочнике по русскому языку.

Даже такой нехитрый прием значительно повышает качество поска по сравнению с обрезанием определенного количества символов.

bondarevpipes.com (http://ru.bondarevpipes.com/)

Улучшилось качество поиска организаций Вышла новая версия Яндекс.Браузера При создании целей в

285

antono

10 февраля 2006, 13:46

#6

Yukko:
а по чем поиск производится? по базе? или все как положено?

да, по базе

Y

138

Yukko

10 февраля 2006, 14:49

#7

lagif, для простого сайта слишком сложно :)

bondarev.pp.ru:
значительно повышает качество

насчет того, что уж ОЧЕНЬ значительно повышает, я бы не сказал :) хотя рациональное зерно в этом есть, согласен.

345

pelvis

10 февраля 2006, 14:51

#8

lagif, Как думаете, всерьез? Если так, то желаю удачи и многих знаний топикстартеру.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

I

64

itman

10 февраля 2006, 15:11

#9

Поддерживаю,

1) генерите испеллом словоформы

2) по сгенерированным и исходынм словоформам строите автоматический вероятностый анализатор, который, скажем по последним 3-5 буквам определяет наиболее вероятную исходную форму слова.

lagif:
1) Морфологический анализатор, основанный на словаре.
2) Вероятностный стемминг.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

30

lagif

10 февраля 2006, 15:28

#10

Yukko, Что сложного в стемминге?

Если поиск по сайту - тем более, больше места и времени развернуть стемминг при обработке запросов и индексировании. На чем это все реализовывать - совсем ведь другой вопрос...

pelvis, Не знаю, вдруг серьезно :)

itman, :)

antono, Есть уже неплохо отлаженные алгоритмы стемминга. Хотя, они, конечно, не исключают курьезов. Ни один алгоритм точный их здесь не исключает :)

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов