Веб-школа
Интернет-технологии

РЕКЛАМА

Разное

Результаты поиска и что за ними стоит

[Сайты - Документы - Сортировка - Ищем все - Архитектура - Заключение]

 Для любого пользователя поисковая система состоит из двух компонент: поисковой странички и странички с результатами поиска. Последнее важнее, поскольку именно страничка с результатами демонстрирует состоятельность системы. Итак, рассмотрим в качестве примера образец результатов поиска Апорта-2000.

Краткие комментарии:

1 - Название и адрес сайта
2 - описание сайта, сделанное человеком (из каталога Апорта)
3 - блок описания самой подходящей (релевантной) из найденных страниц
4 - цитаты из полного текста страницы, где встречаются слова вашего запроса
5 - ссылка на результаты поиска по данному сайту (все найденные страницы)
6 - ссылка на полную реконструкцию текста документа (полезно, если сам сайт недоступен через Интернет)
7 - ссылка на рубрику каталога апорта, к которой относится найденный сайт
8 - подробная информация о сайте
9 - рубрики из каталога на тему вашего запроса

Первое, что мы видим - кроме числа найденных документов (1) Апорт выдает число найденных сайтов (2). Это не просто формальная процедура, дальше вся выдача разбита именно на сайты, а не на документы. Это вовсе не означает, что вы не можете теперь искать отдельные документы - результаты поиска устроены так, чтобы совместить общую информацию и детальные данные. Но - обо всем по порядку.

Сайты

Основной блок выдачи начинается с символа «домик», который обозначает сайт (в противоположность символу «страничка», обозначающему отдельный документ). Тут важно пояснить, что Апорт понимает под сайтом. Многие поисковые системы сегодня так или иначе оперируют понятием сайта, но подразумевают под этим просто адрес сервера типа www.server.com. В этом случае адрес сайта определяется из адреса страницы простым отрезанием хвоста: из http://www.server.com/users/~vasya получается сайт www.server.com. Для больших серверов, где размещены сайты множества фирм или людей, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения того, какая группа страниц является логическим целым (сайтом) Апорт-2000 использует информацию из базы данных своего каталога, информация о сайтах в котором вводится человеком, а потому гораздо точнее, чем то, что дает любой автоматический алгоритм (спецальные алгоритмы тоже используются, но только, если сайт незарегистрирован в каталоге).

Документы

Следуя лучшим традициям своей предыдущей версии, Апорт-2000 дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной (самой подходящей) из найденных на сайте страниц (8). При этом кроме типичного для поисковых машин джентельменского набора (адрес, заголовок, размер и дата файла, и т.п.) Апорт выдает цитаты из документа (9). Важно, что цитаты выбираются из полного текста документа и содержат слова, которые вы искали. Читая цитаты, зачастую легко понять, интересует вас документ или нет. Это очень удобно.

Как и в предыдущей версии Апорта, имеется ссылка на реконструкцию полного текста документа. Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.) В новой версии Апорта реконструкция текста сделана более читаемой, она содержит больше элементов форматирования из оригинального документа.

Если вы хотите заняться сайтом более плотно (желаете получить информацию о всех остальных страницах, которые Апорт нашел на нем), то можете воспользоваться ссылкой, которая замыкает блок результатов. По этой ссылке вам выдается дополнительное окно, в котором открываются результаты поиска только по данному сайту. Они состоят из блоков данных по отдельным страницам. Формат представления информации по каждой странице аналогичен тому, который мы только что обсудили.

Реклама

ВАКАНСИИ (Компьютеры, Интернет). Подробнее >>

Сортировка

Теперь мы просто вынуждены перейти к обсуждению вещей, которые трудно увидеть на страничке Апорта невооруженным глазом, но которые довольно существенно влияют на качество поиска.

Всем понятно, что поиск может считаться хорошим, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом смысле грамотная сортировка очень важна. В Апорте-2000 она существенно переработана и использует ряд новаторских идей. По нашим собственным ощущениям, качество сортировки в Апорте-2000 на голову выше всего, что мы видели до этого.

Если вам интересно, то вот перечень основных критериев, которые Апорт учитывает при сортировке документов (сайтов):

  1. количество искомых слов в тексте документа (в процентах) расстояние между поисковыми словами в тексте документа;
  2. место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.);
  3. внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);
  4. количество ссылок из Интернета на данный документ;
  5. использование искомого слова в тексте ссылок из Интернета на данный документ.

Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей. Часть из них просты и понятны (хотя учитываются далеко не всеми поисковыми машинами), часть требует пояснения, поскольку это новые, практически уникальные решения.

Во-первых, пункт 4 - учет числа ссылок на сайт из Интернета. Идея проста: чем чаще ссылается Интернет-общественность со своих страниц на сайт, тем он популярнее, а потому, видимо, интереснее и заслуживает того, чтобы оказаться в результатах поиска выше. Важно, что этот критерий объективен, его трудно подделать, он является результатом труда множества web-мастеров и владельцев ресурсов, каждый из которых дает ссылки на то, на что хочет. Данный критерий мы называем Site Rank (для сайтов, или Page Rank - для страниц).

Развивая идею учета ссылок, Апорт-2000 идет дальше. Если мы считаем ссылки, то давайте еще будем учитывать и их текст. Если на какой-то сайт есть ссылка, состоящая из слов «современная музыка», то разумно предположить, что эти слова (которые выбрал человек, писавший ссылку) могут довольно хорошо описывать содержимое сайта. Причем, даже в том случае, если на самом сайте эти слова не употребляются (например, автор сайта оперирует исключительно термином «джаз»). В результате, при поиске по слову «музыка» данный сайт должен получить в результатах довольно высокое место, поскольку по данному слову на него ссылаются с других сайтов. Подобный подход также, как и предыдущий, довольно значительно улучшает качество сортировки найденных документов. Но кроме этого он приносит еще один очень интересный результат.

Ищем все

Представьте себе, что Апорт-2000, добавляя в свою базу некий документ с сайта X, нашел ссылку на документ с другого сайта Y, который пока отсутствует в базе Апорта. Благодаря возможности находить документы и сайты по словам из ссылки, Апорт сможет теперь найти сайт Y, хотя он еще не индексировался, а, возможно, и не будет индексироваться (например, если это зарубежный сайт). Это замечательная возможность позволяет находить гораздо больше сайтов меньшими усилиями и искать в зарубежных сайтах, которые Апорт не индексирует, причем использовать запросы с русскими словами.

Таким образом, благодаря индексированию ссылок (что требует небольшого дополнительного времени) поисковое пространство Апорта значительно расширяется, В итоге, Апорт не только быстро добирается до различных закоулков российского Интернета, но и позволяет искать в зарубежной Сети, причем весьма неплохо (поскольку на многие интересные зарубежные ресурсы есть ссылки и с российских сайтов).

Архитектура

Апорт-2000 кардинально изменился и с точки зрения программно-аппаратной архитектуры. Изменился и качественно, и количественно. Здесь мы отметим лишь то, что скорость основных операций (обновление базы и поиск) только программным путем была увеличена в несколько раз.

Заключение

Подводя итог, хочется взять на себя смелость сказать, что Апорт-2000 - это большой шаг вперед и не только по сравнению с предыдущей версией Апорта, но и в области поисковых средств Интернет в целом. Думаем, вы сами сможете в этом убедиться.

Опубликовано с разрешения АПОРТ. Оригинал - http://www.aport.ru/info/.

Вернуться к статье о регистрации в АПОРТе
 

Реклама

Каждому сайту - механизм организации собственной ленты новостей бесплатно! Подробнее >>

ПОИСК по сайту: 
© iD, 2000

Hosted by uCoz