- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Как можно реализовать поиск слов с учетом их морфологии? Не очень навороченный, но хотя бы чтоб окончания слов различал.
Например на банк_рефератов при поиске окончания слов обрезаются и поиск происходит по обрезкам слов. Это получается нужно составить таблицу с окончаниями и обрабатывать поисковый запрос через нее. На верном ли я пути? И где вообще можно почитать по этой теме?
Если лень заморачиваться словарями словоформ, то у длинных слов режем 4 буквы, у средних по длинне слов режем 3 буквы, у коротких 2 и совсем коротких 1, у слов из 3-х букв не режем ничего ;)
Составляем массив стоп-слов, которые просто выкидываем из запроса, и дальше занимаемся проблемами ранжирования, в которых надо учитывать в первую очередь было ли точное вхождение слова или словоформа (за один проход у меня делать не получалось :( ).
Ага, спасибо, идея ясна, нужно попробвать сначала обрезать слова.
Кстати у меня ищет и целиком слово - придается уму больший вес, и часть члова - соответственно меньший вес, делается за 1 проход.
а по чем поиск производится? по базе? или все как положено?
1) Морфологический анализатор, основанный на словаре.
2) Вероятностный стемминг.
Достаточно обрезать все существующие в словаре окончания. Их не так много - можно достать в любом справочнике по русскому языку.
Даже такой нехитрый прием значительно повышает качество поска по сравнению с обрезанием определенного количества символов.
а по чем поиск производится? по базе? или все как положено?
да, по базе
lagif, для простого сайта слишком сложно :)
значительно повышает качество
насчет того, что уж ОЧЕНЬ значительно повышает, я бы не сказал :) хотя рациональное зерно в этом есть, согласен.
lagif, Как думаете, всерьез? Если так, то желаю удачи и многих знаний топикстартеру.
Поддерживаю,
1) генерите испеллом словоформы
2) по сгенерированным и исходынм словоформам строите автоматический вероятностый анализатор, который, скажем по последним 3-5 буквам определяет наиболее вероятную исходную форму слова.
1) Морфологический анализатор, основанный на словаре.
2) Вероятностный стемминг.
Yukko, Что сложного в стемминге?
Если поиск по сайту - тем более, больше места и времени развернуть стемминг при обработке запросов и индексировании. На чем это все реализовывать - совсем ведь другой вопрос...
pelvis, Не знаю, вдруг серьезно :)
itman, :)
antono, Есть уже неплохо отлаженные алгоритмы стемминга. Хотя, они, конечно, не исключают курьезов. Ни один алгоритм точный их здесь не исключает :)