Компания Яндекс разработала и внедрила новую поисковую технологию,
которая позволяет находить совсем свежие документы — через минуты после
их появления в интернете.
Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в
дни важных событий) посвящено событиям, которые случились совсем
недавно. Задавая эти запросы, пользователи ожидают найти в том числе и
документы, которые были созданы только что. Чтобы хорошо отвечать на
такие запросы, Яндекс, во-первых, научился выявлять их среди общего
потока, и во-вторых, внедрил нового поискового робота — Orange. Orange
работает в режиме реального времени. Он умеет находить свежие
документы, как только они появились в интернете, индексировать их и
выкладывать на поисковые сервера буквально за несколько секунд.
Некоторые сайты интернета обновляются не очень часто, а на других —
например, на новостных ресурсах — новые документы создаются постоянно.
Orange обходит такие сайты и добавляет новые документы в поиск по мере
их появления, без задержек.
Чтобы определять, нужна ли свежая информация в ответ на те или иные
запросы, Яндекс разработал несколько детекторов. Они анализируют самую
разную информацию — например, тематику сообщений в СМИ или рост
количества поисковых запросов по той или иной теме.
Напомним, что около полугода назад подобные системы реального
времени были внедрены также на поисковиках Google и Microsoft Bing.
«В интернете сейчас все больше real-time информации, которая нужна
людям прямо сейчас. И мы хотим дать им возможность находить её прямо
сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это
только первый шаг, конечно, мы будем улучшать качество поиска по
новостным запросам и дальше. Новая технология дает возможность делать
это сравнительно легко».
Робот Orange и технология поиска в реальном времени были разработаны
специалистами из Yandex.Labs — калифорнийского офиса компании — в
сотрудничестве с разработчиками из московского офиса.
Как говорится в блоге компании, Orange познает ссылочную структуру
интернета. Для этого ему достаточно скачивать и переобходить только
часть «старых» страниц — хоть и достаточно большую. Полученные знания
позволяют Orange обнаруживать почти все новые страницы, выбирать из
огромного их количества все хоть сколько-нибудь интересные и мгновенно
рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом
Orange документы обрабатывает Real-Time поиск — он подхватывает
выбранные документы, индексирует их и за секунды выкладывает на поиск.
"С помощью Orange мы достигли значительного улучшения свежести базы.
В будущем мы сделаем его еще более агрессивным: Orange будет
использовать все доступные источники информации об изменениях в
интернете и реагировать на эти изменения мгновенно", - говорят в
Яндексе.
Кластер Orange Crawler реализован как распределенная вычислительная
система: на каждой машине одновременно выполняются сотни небольших
задач, результаты их работы в виде маленьких асинхронных сообщений
отправляются на другие машины. На всем кластере сегодня обрабатывается
более 100 000 сообщений в секунду. Подобная архитектура позволяет
исключить задержки при обработке Real-Time информации.