Рупор гугл новостей сообщает, что уже завершена работа над новой системой индексирования веб-сайтов – Caffeine.

По утверждении всемогущего Caffeine на 50% «свежее» предыдущего индекса и представляет собой самую большую коллекцию веб-страниц за нашу историю. Что бы вы ни искали — новости, сообщения в блогах или на форумах, — нужные вам страницы теперь еще быстрее попадут в наш индекс, а вы сможете их быстрее найти.

Несколько слов о принципах работы поисковых технологий

Когда пользователь ищет информацию в поисковике ему будет как правило предоставлена статичная обработанная поисковым роботом и загруженная в базу данных информация по проиндексированных сайтах. Суть технологии легко сравнить с указателем в конце книги, помогающем нам находить нужную информацию.

А теперь попробуем узнать зачем нужно что-то новое в поиске

Причин две, во-первых, количество информации в сети растет, а форматы ее представления становятся все разнообразнее. На современном сайте вы найдете видеоролики, изображения, новости и обновления в реальном времени. Структура страниц становится все сложнее и разнообразнее с все массовым приходом CMS систем. Во-вторых, пользователем интернета нужен более «свежий» поиск. Поскольку информационный поток меняется ежесекундно и востребована только самая актуальная информация.

Что получилось в итоге?

А получилась система Caffeine. При взгляде на картинку, если немного поднапрячься то можно заметить, что от прежнего блочного индекса был седалан переход к информационным «облакам», это я так понимаю, можно конечно назвать это потоками. Картинка конечно не слищком наглядная, но базовое представление обеспечивает.

А теперь от догадок к сути. В старом индексе было несколько слоев, некоторые из которых обновлялись чуть более регулярнее, чем другие. Большая часть индекса обновлялась с периодичностью в две недели. Процессы индексации всей сети достаточно трудоемки и ресурсоемки, следствии чего возникали задержки при анализе всей сети, которые не давали полностью актуальной картины для поисковых запросов пользователей.

Новая система Caffeine, в свою очередь, обеспечивает дискретный анализ информации в Интернете («по частям») с непрерывным обновлением поискового индекса. Это означает, что результаты поиска будут отображать максимально свежую информацию, вне зависимости от времени и места публикации.
 

Производительность Caffeine

Каждую секунду система способна обрабатывать сотни тысяч страниц. Представьте себе что страницы не электронные, а бумажные и стопка из них росла бы со скоростью около 5 км в секунду. Впечатляет? Меня да! В базе данных Caffeine содержится порядка 100 млн. гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день. Вам бы понадобилось 625 тысяч iPod-ов с самым большим объемом памяти, чтобы сохранить такой массив информации.
 

Взгляд в будущее

При создании Caffeine мы ориентировались на будущее Интернета. Мы не собираемся отказываться от учета ссылок, купленных на бирже продажи ссылок. Эта система является отличной основой для построения других, более быстрых и объемных индексов, так как она способна лучше адаптироваться к развитию Сети. Этим летом гугл обещает не останавливаться на достигнутом и информировать нас о нововведениях. Следите за новостями!