Назад

Купить и читать книгу за 69 руб.

Вы читаете ознакомительный отрывок. Если книга вам понравилась, вы можете купить полную версию и продолжить читать

Интернет-разведка. Руководство к действию

   Согласно расхожему мнению, человек, владеющий информацией, владеет миром. Интернет – гигантская информационная база современности, и необходимость освоения тонкостей работы в сети скоро станет насущной для всех – от специалистов по конкурентной разведке, маркетингу и PR, в жизни которых Интернет уже играет не последнюю роль, до рядовых служащих.
   Как найти в Интернете информацию о конкретных людях, компаниях и товарах? Как организовать продвижение собственного предприятия в Сети? Как уберечься от хакеров и спрятать информацию на своем компьютере от посторонних? Как бороться с вирусами и вредоносными программами? Ответы на эти и многие другие вопросы вы найдете в нашей книге – подробном путеводителе по миру Интернета. Представленные здесь практические советы помогут вам не просто выстоять в конкурентной или информационной борьбе, но и победить в ней, изучив неизвестные рядовому пользователю возможности Всемирной паутины.
   Издание представляет практический интерес для специалистов по бизнес-разведке, маркетингу, рекламе и PR, а также для директоров и менеджеров, желающих эффективно продвигать свое предприятие на современном рынке.


Евгений Ющук Интернет-разведка. Руководство к действию

Введение

   Эта книга предназначена не только для специалистов по конкурентной разведке, но и для всех специалистов, которые используют Интернет в своей повседневной работе как современный, эффективный, быстрый и недорогой инструмент. То есть практически для всех, кто имеет отношение к бизнесу: будь то производственное предприятие, торговая фирма, финансовое учреждение либо консалтинговая компания.
   Представленные здесь практические советы помогут вам не просто выстоять в конкурентной или информационной борьбе, но и победить в ней, опираясь, в том числе, и на скрытые от обычного пользователя возможности Интернета, и персонального компьютера.
   Методы работы, изложенные в книге, прошли «обкатку» в отечественной и зарубежной конкурентной разведке и доказали свою эффективность. Автор лично убедился в реальной пользе практического применения каждого данного им совета. Предлагаемые вашему вниманию рекомендации помогли повысить конкурентоспособность и эффективность работы самых разных организаций – от крупных производственных и дистрибьюторских компаний федерального и регионального уровня, государственных учреждений и силовых структур до розничных торговых сетей и предприятий сферы услуг, небольших кафе и ресторанов.
   Сфера конкурентной разведки, в силу своей специфики, первой находит новейшие, передовые способы работы с информацией, делая выводы о возможных преимуществах и недостатках того или иного решения.
   Современная конкурентная разведка, которая еще недавно воспринималась в нашей стране как часть службы безопасности компании, сегодня шагнула далеко за пределы этих узких рамок и стала инструментом специалистов отделов маркетинга, сбыта, стратегического планирования, равно как и инструментом топ-менеджера, от решения которого зависит успех или провал предприятия на рынке и даже само его выживание.
   Инструменты конкурентной разведки, опираясь на отточенные разведкой общие принципы работы с информацией, эффективно используют специалисты по информационным войнам.
   Вот почему эта книга будет полезна руководителю и менеджеру любой компании в той же мере, что и специалисту по конкурентной разведке. А кого-то, возможно, она подтолкнет к тому, чтобы сделать конкурентную разведку своей второй специальностью.
   Конкурентная разведка как адаптированная к бизнесу версия государственной разведки, не имеет ничего общего с детективами. И она на самом деле гораздо ближе к маркетингу и информационно-аналитической работе, нежели к Службе безопасности компании. Причем, одинаково заблуждаются как те, кто при слове «разведка» представляет себе погони, перестрелки и тайное проникновение во вражеский сейф при непосредственном участии длинноногой блондинки, так и те, кто считает, что разведка заключается в сборе информации.
   Ошибочность таких подходов хорошо иллюстрируют слова Иссура Хареля (Issur Harel), первого главы израильской разведки Моссад, пересказанные нам Артуром Вейсом (Arthur Weiss) в кулуарах конференции SCIP в Лондоне в 2005 г.:
   Мы работаем не с несомненными фактами. Мир разведки – это мир вероятностей. Сбор информации – как правило, не самая сложная задача. Что действительно сложно – так это ее правильная интерпретация. Анализ информации – самая главная часть работы разведки. А Джеймсу Бонду в реальной жизни места нет.[1]
   Для того, чтобы лучше понять, что и скакой целью мы будем рассматривать далее, напомним несколько основных терминов, которые использует конкурентная разведка.
   Специалисты конкурентной разведки оперируют пришедшими из государственной разведки ключевыми понятиями – «объекты» (Targets) и «источники» (Sources).
   Объекты – это люди или документы, которые могут ответить на интересующие вас вопросы. Как правило, это первичные носители нужных сведений.
   Источники – это люди или средства, которые могут помочь получить доступ к нужному человеку и информации напрямую или опосредованно. В этом случае их иногда называют подысточниками.
   Источники, если говорить о человеческих ресурсах, бывают внешними и внутренними.
   Внутренние источники работают на вашем собственном предприятии.
   Внешние источники работают на ваше предприятие, но не являются его сотрудниками. К этой категории обычно относят консультантов и клиентов. Кто-то из них работает за деньги, кто-то – бесплатно (либо бескорыстно, либо решая с вашей помощью какие-то свои задачи). К внешним источникам могут относиться и аналитики, специализирующиеся на исследуемой вами отрасли, и журналисты, пишущие на интересующие вас темы. Нередко такие люди, хорошо информированные в определенных специфических областях, официально продают имеющиеся у них сведения – в форме консалтинговой услуги или аналитического отчета.
   Очень часто бывает, что ваши внутренние источники могут вывести на источники внешние.
   Кроме того, источники подразделяют на первичные и вторичные.
   Первичные источники – те, которые получили информацию непосредственно от объекта и передали ее вам. Полученной из первичных источников можно считать также информацию, которую вы добыли самостоятельно (например, лично посчитали количество грузовиков на парковке перед складом вашего конкурента).
   Вторичные источники (или подысточники) получили информацию «из вторых рук».
   Кроме того, считаем нужным напомнить, что никакая разведка невозможна без четкого целеуказания. Специалист конкурентной разведки не может начинать работу, не имея ясного представления о том, на какой вопрос он ищет ответ. А в идеале он должен еще и представлять себе, что руководитель намерен делать с полученными данными, поскольку в таком случае специалист крнкурентной разведки сможет работать максимально эффективно.
   Надеемся, что этот краткий повтор основных терминов, относящихся к работе с информацией, напомнит вам, что специалист любой разведки не имеет права уклоняться в сторону различных интересных фактов, которые встретятся ему в ходе работы, а должен работать целенаправленно, для того, чтобы найти ответ на вопрос, ради которого вся работа и проводится. Мы уже очертили круг людей, которым эта книга, на наш взгляд, может быть полезна, поэтому для краткости в дальнейшем будем говорить только о специалистах конкурентной разведки, имея в виду при этом всю целевую аудиторию книги.
   Наша книга практически полностью посвящена Интернету как инструменту конкурентной разведки. У человека неподготовленного это может создать иллюзию, что работа с глобальной информационной сетью – и есть конкурентная разведка.
   На самом деле это не так.
   Интернет – ее инструмент. Он имеет свои плюсы и минусы. Случается, что он действительно помогает решить главную задачу, поставленную перед специалистом конкурентной разведки руководителем компании, однако это скорее исключение из общей ситуации. В целом Интернет – важный, но ограниченный в своих возможностях инструмент, играющий в конкурентной разведке заметную роль. Заметную, но все же не ведущую. А потому его нельзя переоценивать, хотя и недооценивать тоже не следует.
   Интернет часто незаменим в начале операции конкурентной разведки, потому что он обычно позволяет быстро и недорого «прицелиться», то есть сориентироваться в ситуации в целом, наметить объекты, располагающие нужной информацией, а также источники, которые позволят эту информацию получить.
   Кроме того, Интернет удобен для получения справочной информации, а также иногда позволяет отслеживать динамику фактов или мнений по тем или иным вопросам.
   Действительно, бывает и так, что Интернет позволяет получить ответы на все вопросы, которые стоят перед специалистом разведки. Иногда складывается ситуация, когда Интернет вообще позволяет получить информацию от первичного источника (например, когда вы получаете на Интернет-форуме ответ на прямо заданный вопрос от человека, личность которого вам достоверно известна, и который является объектом применительно к вашей операции). Однако значительно чаще для выполнения поставленной задачи специалисту конкурентной разведки приходится выходить «в поле» и работать с людьми, либо с документами вне Интернета.
   Работа «в поле» – наиболее значимая по результатам часть конкурентной разведки, но она останется за пределами настоящей книги. Здесь мы сознательно сосредоточимся только на работе с Интернетом и покажем, как выполнить ее максимально эффективно.
   Подобно боевой авиации, которая обеспечивает выяснение обстановки там, куда невозможно просто прийти, и позволяет воздействовать на противника, оставаясь невидимой за облаками, Интернет позволяет удаленное, бесконтактное, а порой и незаметное для объекта наблюдение за ним или поиск его следов на другом конце Земного шара.
   Как и армия без авиации, конкурентная разведка без Интернета работать не может.
   Авиация коренным образом изменила характер войны, систему обороны и саму организацию армии. Интернет же буквально вдохнул новую жизнь в конкурентную разведку.
   Роль Интернета в конкурентной разведке гораздо существеннее, нежели в разведке государственной. Хотя надо отметить, что последняя – в силу всемирной компьютеризации – решает с его помощью все более и более широкий круг вопросов.
   В общем, мы считаем, что не надо рассматривать Интернет как панацею, следует научиться правильно пользоваться им в целях конкурентной разведки, и тогда уже делать вывод о том, насколько эффективным может быть его применение в конкретном виде бизнеса.
   А разные виды бизнеса действительно неодинаково зависят от Интернета. Ведь даже на уровне бытовой логики понятно, что операторы сотовой связи и производители агустителей для йогуртов используют в своем бизнесе глобальную сеть в различной степени.
   Читатель этой книги познакомится с разными аспектами работы с Интернетом. Здесь есть как развернутое объяснение принципов работы поисковых машин и описание языков запросов самых популярных из них, информация о конкретных ресурсах Интернета, полезных в работе специалиста конкурентной разведки, так и тонкости приемов работы и «потайные ходы», которые позволяют в рамках закона и этики решать поставленные задачи.

Интернет как уникальный инструмент маркетинга

   Среди множества преимуществ Интернета как инструмента маркетинга можно выделить два основных.
   Во-первых, Интернет предлагает для исследования практически любых процессов такие возможности, какие не предоставляет никакой другой источник информации. Это относится также и к возможностям продвижения компании или ее продукции.
   Во-вторых, Интернет позволяет следить за тенденциями развития потребительских предпочтений. Более того, он способен их формировать. А принимая во внимание практически равные возможности пользователей сети в донесении до людей своей точки зрения, Интернету под силу вовремя исправлять ситуацию при ее неблагоприятном развитии.

Интернет как инструмент PR

   Всемирная Паутина для специалистов по PR стала инструментом мониторинга и формирования общественного мнения. Немаловажно, что Интернет позволяет проводить мониторинг, не обнаруживая перед окружающими своего интереса к тому или иному событию или явлению.
   Дешевизна, оперативность и относительная (а порой и полная) анонимность вброса информации открывают перед специалистами PR новые возможности, хотя и ставят их перед лицом новых угроз. Так, с одной стороны, удобно, когда можно развить целую дискуссию и увести за собой людей, интересующихся той или иной темой, но с другой стороны, участились и случаи, когда в Интернете инспирируется ложная информация, а затем со ссылкой на нее начинается волна в печатных СМИ. Данная книга покажет, как специалист PR может использовать в своих интересах особенности Интернета, и одновременно научит выявлять, и нейтрализовать активность противника.

Принципы организации и поиска информации в Интернете

   Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.
   Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы.
   Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.
   Часто поисковые системы объединяют в себе как поисковую машину, так и директории.
   Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.
   Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершение же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.
   Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.
   Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.

На чем основан поиск

   Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean).
   Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.
   1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим.
   2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результа том поиска станут документы, в которых содержится хотя бы одно из этих слов.
   Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.
   По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».
   3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, ко торые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исклю чает. Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще.
   На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.
   Давайте рассмотрим примеры работы логического оператора «НЕ».
   По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.
   Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скоби. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки.
   Так, запрос пушистые И (собаки ИЛИ кошки)
   позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки)
   выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.
   Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.

Как поиск реализован

   Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.
   На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком.
   Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.
   Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.
   При этом важно понять, как паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, паук возвращается на нее, н у, например, через две недели. И если видит, что никаких изменений не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. А если и тогда не обнаружит ничего нового, то наведаетсяя сюда еще позже, месяца через полтора-два.
   Вот почему нередко бывает так, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по полученной ссылке безрезультатна – вероятнее всего, никакой страницы уже просто не существует на прежнем месте, но паук на нее давно не заходил, и, соответственно, поисковая система о ее удалении не знает.
   Весь комплекс процессов, описанных выше, называется индексацией.

История развития поисковых машин

   История эволюции поисковых машин наиболее полно, на наш взгляд, представлена в книге признанных экспертов в области невидимого интернета Криса Шермана и Гарри Прайса «Невидимый Интернет».[2]
   До середины 1960-х годов компьютеров было немного. Изолированные друг от друга, они не могли обмениваться информацией.
   В 1962 г. профессор Ликлайдер (Licklider) из ведущего технического вуза США – Массачусетского Технологического института – сформулировал концепцию глобальной компьютерной сети «Galactic Network». Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Робертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Таковы предпосылки возникновения сети «ARPANET», которая затем превратилась в то, что сегодня величают Интернетом. Первый узел «ARPANET» появился в 1969 г., и следующие несколько лет к нему подключались университеты и различные контрагенты, работавшие по заказам военного ведомства США.
   В 1973 г. американское министерство обороны инициировало новую программу, предполагавшую обеспечивать надежную связь компьютеров между собой с помощью очень большого числа различных соединений. Целью такого решения было повышение устойчивости системы к попыткам массированно нарушить электронные средства коммуникации. Поскольку все это происходило во времена «холодной войны», речь шла об устойчивости к устрашающим последствиям, которыми грозило стратегическое ядерное противостояние. Поскольку «ARPANET» представлял собой одну-единственную сеть, что на системном уровне понижало его способность сопротивляться разрушениям, возникла идея создания «сети из сетей», которая теоретически могла бы быть бесконечно большой. Этот проект и назвали «Internetting», а саму сеть «Internet».
   По мере того, как количество присоединенных к Интернету машин увеличивалось, объективно назрел вопрос о необходимости инструментов, позволяющих легко находить текст и другие файлы на удаленном компьютере, в идеале – на любом, где бы он ни располагался в Сети.
   Доступ к файлам на самых ранних этапах развития Интернета осуществлялся в два этапа, каждый из которых выполнялся вручную: специальные команды вводились с клавиатуры. Кстати, тогда компьютеры могли управляться лишь специалистами, способными вводить команды в соответствующую строку. Графического интерфейса, позволяющего комфортно работать с машиной неподготовленному человеку, еще не изобрели. Так вот первым делом с помощью программы Telnet устанавливалось прямое соединение с компьютером, на котором находится нужный файл. На данном этапе лишь налаживалась связь, ничего и никуда в этот момент еще не передавалось. И только затем с помощью специальной программы – FTP – можно было этот конкретный файл взять.
   Очевидно, что на поиски нужного документа уходила масса времени: требовалось знать точный адрес компьютера, на котором он находится.
   Между тем файлов становилось все больше, интерес к ним постоянно рос, и для того, чтобы найти адрес одного из них, обычно приходилось обращаться в дискуссионные группы с просьбой о помощи и в надежде на то, что кто-нибудь из собеседников подскажет заветный адрес, по которому хранится нужная информация.
   В результате, стали появляться специальные FTP-серверы, которые представляли собой хранилище файлов, организованных в директории, по принципу хранения информации на персональном компьютере. Такие серверы существуют и по сей день.
   Первый работоспособный, общедоступный инструмент поиска файлов, хранящихся на FTP-серверах, назывался «Арчи» (Archie) и был создан в 1990 г. группой системных администраторов и студентов старших курсов Университета Мак Джил (McGill) в Монреале. «Арчи» был прототипом сегодняшних поисковых машин, но значительно более примитивным и ограниченным в своих возможностях. Он бродил по Интернету, разыскивал файлы на разных FTP-серверах и загружал список директорий каждого найденного сервера на собственный, формируя общий каталог.
   Этот каталог затем обрабатывался и хранился в центральной базе данных, внутри которой можно было организовать поиск. Поиск на собственном компьютере к тому моменту существовал уже издавна и, несмотря на то, что тоже требовал ввода команд, трудностей в работе не создавал. Однако без специальной подготовки использовать компьютер полноценно человек не мог. База данных находилась в университете Мак Джилл и обновлялась ежемесячно.
   В 1991 г. команда Марка Мак Кахилла (Mark McCahill) из Университета Миннесоты создала программу «Голден Гофер» (Golden Gopher – в переводе с английского «золотоискатель» или «старатель»), которая совмещала в себе оба протокола – Telnet и FTP. Все, что нужно было сделать пользователю для получения доступа к нужной информации, – щелкнуть по гиперссылке, приведенной в меню. Таким образом, впервые в истории вводить какие-либо команды уже не требовалось, так что отныне по ресурсам Интернета люди могли «бродить» и без специальной подготовки.
   Программа показывала пользователю последовательно возникающие пошаговые меню, что позволяло ему без проблем идти в глубь базы директорий, все более приближаясь к специфическим документам, которые и составляли цель поиска. Этот алгоритм, по сути, сохранен и сегодня в Каталогах, расположенных в Интернете.
   Стало возможно получать как текстовые документы, так и графические, и музыкальные, без привязки к какому-то определенному формату. А самое главное, стало в принципе возможно легко найти и получить в Интернете нужную информацию.
   Однако проблемы все же оставались. Одна из них, и довольно серьезная, была связана с тем, что компьютеры были построены на разных платформах, которые порой не понимали друг друга. Тут можно провести аналогию с людьми, которые говорят на совершенно разных языках и потому не могут построить более или менее осмысленную беседу. В те времена между собой конкурировали не операционные системы, как сейчас, а производители компьютерного «железа». Сегодня в меньшей степени важно, кто произвел компьютер. Гораздо существеннее, что на нем установлено: Windows, Linux, Mac OS или какая-то другая система. А тогда именно производители «железа» определяли лицо Интернета.
   Объективно назревала идея, согласно которой компьютеры разных платформ должны иметь возможность работать в одном протоколе, позволяющем просматривать страницы вне зависимости от того, на какой конкретно машине эти страницы созданы. Требовалось придумать такой универсальный протокол и сделать его удобным для пользователей. Первым, кто догадался объединить известную к тому времени простую форму гипертекста с универсальными коммуникационными протоколами, был Тим Бернерс-Ли (Tim Berners-Lee).
   Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language, то есть Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором человек открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на машине, работающей под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл будет выглядеть точно так же и на компьютере, работающем под управлением Windows.
   Затем Бернерс-Ли придумал Universal Resource Identifier – метод стандартизации адресов, при котором компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL, это то, что в привычном для пользователя виде обычно начинается с «www»). Наконец, изобретатель собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.
   Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития глобальной Сети преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появилось несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем отправляться за чем-то в Интернет, предлагали поискать необходимые сведения на этих серверах.
   При этом основная проблема заключалась в том, чтобы отыскать страницы, которые в принципе можно бы было индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственный способ, позволявший добиться этого, состоял в поиске ссылки на страницу и переходе по этой ссылке, с последующим добавлением найденного ресурса к индексу.
   Однако вскоре возникла еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, так как на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенным множество других адресов, пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая позволила бы игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых. Иначе это грозило проблемой с ресурсами.
   В 1993 г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный «World Wide Web Wanderer» или просто «Вандерер», что в переводе с английского означает «скиталец» или «странник». Дело в том, что Грей заинтересовался статистикой. Результатом такого увлечения стало появление «странника»: изобретение было призвано помочь студенту проанализировать размеры Интернета и скорость его роста. «Вандерер» просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого найденного адреса. Несмотря на то, что создатель робота не преследовал никаких других целей, его детище, фактически дебютировавшее в «забеге» прогрессивных интернет-находок, легло в основу более сложных программ, которые к умению «скитальца» перемещаться по Сети добавили способность сохранять содержимое страниц в базе данных после их посещения.
   Случилось так, что 1994 г. стал переломным в истории создания поисковых машин. Студент выпускного курса Вашингтонского университета Брайан Пинкертон (Brian Pinkerton) устал от бесконечной череды электронных писем, которые посылали ему друзья, с информацией о хороших сайтах, найденных ими в Интернете. Безусловно, сайты ему были нужны, однако шквал посланий с их адресами раздражал, а посещение всех страниц отнимало уйму времени. Однако Пинкертон нашел решение проблемы – он создал робота, которого назвал WebCrawler (что-то вроде «вездеход для Интернета»). «ВебКраулер», как и «Вандерер», ползал со страницы на страницу, запоминая при этом весь текст Web-документа и сохраняя его в базе данных, которая была доступна поисковым словам. Изобретатель представил свое детище публике в апреле 1994 г., причем сделал это виртуально – через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю она начала расширяться, причем ежедневный прирост составлял более 100 новых серверов. Так родилась первая поисковая машина.
   Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.
   Ну а далее ситуация развивалась еще более стремительно. Крис Шерман и Гари Прайс приводят такую хронологию возникновения и развития современных поисковых машин.
   1994 г. – WebCrawler, Lycos, Yahoo!
   1995 г. – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.
   1996 г. – HotBot, LookSmart.
   1997 г. – NorthernLight.
   1998 г. – Google, InvisibleWeb.com.
   1999 г. – FAST.
   2000 г. и далее – Сотни новых поисковых машин.
   Русскоязычные поисковые машины появлялись в такой последовательности:
   1996 г. – Rambler (www.rambler.ru);
   1997 г. – Yandex (www.yandex.ru);
   2004 г. – русскоязычная версия Google (www.google.ru) и русскоязычная версия Yahoo! (http://ru.yahoo.com).

Из чего состоит сайт

   Прежде, чем перейти к описанию языка запросов поисковых машин, рассмотрим, из каких элементов, с которыми предстоит работать пауку, состоит обычно сайт.
   Надо сказать, что язык HTML достаточно прост и логичен. Он представляет собой способ разбивки текста с помощью специальных элементов – тегов, которые определяют структуру и внешний вид текста при просмотре его в браузере. О тегах следует знать, что они всегда парные и что они бывают открывающими (обозначают начало определенного форматирования) и закрывающими (обозначают его окончание). Закрывающий тег – такой же по написанию, как открывающий, но перед ним стоит косая черта.
   Приведем пример очень простого сайта (рис. 1).


   Рис. 1. Пример сайта, как его видно в браузере Мозилла Файрфокс.

   Наверху страницы, изображенной на рисунке, то есть не в тексте сайта, а на верхнем поле рамки страницы, рядом с круглым значком браузера, расположена надпись: «Показываем устройство сайта». Она находится в так называемом заголовке страницы (который заключен между открывающим тегом <TITLE> и закрывающим тегом </TITLE>). Обращаем ваше внимание на то, что это заголовок именно всей страницы, а не текста.
   Посередине представленного рисунка жирным курсивом выведено: «Это простой сайт». Данная надпись – и есть заголовок текста. Шрифт фразы «Это простой сайт» по размеру превосходит шрифт текста на сайте, он специально выделен как заголовок текста. При разметке с помощью HTML этот текст расположен ниже тега <TITLE>, но при этом вместе с тегом <TITLE> находится внутри тега <Head>. То есть содержимое, заключенное в <TITLE>, – это часть того, что находится в <Head>. Такое расположение дает дополнительную возможность пауку лучше определять ключевые слова на сайте. Ведь если слова вынесены в заголовок текста или, тем более, всей страницы, вероятность того, что страница и текст посвящены теме, формулируемой этими словами, повышается.
   Ниже фразы «Это простой сайт» приведены четыре варианта написания основного текста сайта:
   – обычный;
   – жирный (пишется под тегом <B>);
   – курсив (пишется под тегом <i>);
   – текстовая гиперссылка (пишется под тегом <A HREF=http://www.url. ru>«Текст гиперссылки»</A>).
   Основной текст сайта, вне зависимости от того, каким вариантом шрифта он написан, располагается внутри тега <BODY>. Именно содержимое тега <BODY> представляет собой основной объект для паука и рассматривается им как текст страницы (собственно, это действительно текст страницы).
   Чтобы увидеть внутреннюю разметку сайта, надо в браузере Мозилла Файрфокс навести курсор на любой незанятый текстом участок поля и нажать правую кнопку мыши. В всплывающем меню следует выбрать пункт «Просмотр исходного кода страницы».
   Применительно к сайту, который мы рассматривали на рис. 1, этот исходный код будет выглядеть следующим образом:
   <HTML>
   <HEAD>
   <TITLE>
   Показываем устройство сайта:
   </TITLE>
   <CENTER>
   <B><I>
   <SPAN STYLE=«font-size: large»>Это простой сайт</SPAN>
   </CENTER>
   </B></I>
   </HEAD>
   <BODY>
   <P>
   Это текст на сайте. Обычный шрифт.
   </P>
   <P>
   <B>
   Жирный шрифт.
   </B>
   </P>
   <P>
   <I>
   Курсив. </I>
   </P>
   <A HREF=http://www.url.ru>«А это – гиперссылка»</A>
   </BODY>
   </HTML>
   Здесь можно увидеть все элементы, описанные нами выше. Кроме того, в исходном коде видны теги <P>, которые обеспечивают расположение текста в новой строке и с промежутком по отношению к тексту, расположенному в предыдущей строке.
   Разметка HTML по умолчанию не предполагает переноса текста и его форматирования. Поэтому текст, не содержащий никаких тегов, воспроизводится подряд, но с соблюдением пробелов между словами. Для того чтобы текст оказался написан не просто в новой строке, а с промежутком относительно находящейся выше строки, используется, как мы уже показали, тег <P>, а для того, чтобы текст был написан в новой строке, но без промежутка между выше– и нижерасположенной строками, применяется тег <BR>.
   Начало сайта, созданного с помощью разметки HTML, отмечено тегом <HTML>, а его окончание – тегом </HTML>.

Описание языков запросов различных поисковых машин

Язык запросов поисковой машины Яндекс

   Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его ресурсе[3] постоянно проводятся дополнительные исследования, отслеживаются и оцениваются изменения в работе операторов указанной поисковой машины.
   Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на Булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете.
   При изучении этого вопроса, не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос, исходя из того, что он будет обработан компьютером буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая свое обращение.
   Лучше всех эту мысль проиллюстрировал летом 2005 г. Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса на следующем примере.
   Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного. В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чем это. Вот она.
   Эти типы стали есть в прокатном цехе.
   И что тут написано? Я знаю, минимум, три разных смысла. Не подглядывайте в ответ
   сразу (он ниже). Попробуйте сначала самостоятельно…
   Обычно, когда это предложение видит зал, сначала становится тихо (видно, что думают),
   потом начинаются смешки (до кого-то дошло), потом хихикают уже все.
   Но к делу, что же здесь все-таки написано?
   1. Скучный такой вариант.
   Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе.
   2. Более творческий, с элементами мизантропии.
   Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе.
   3. Несколько надуманный, конечно, но…
   Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе.
   Вот видите, даже протеиновые мозги не справляются, а вы хотите, чтобы у силиконовых это получалось.
   Текст запроса мы будем помещать в квадратные скобки [] для того, чтобы визуально выделить его из текста книги. Если уважаемый читатель решит ввести приведенные ниже запросы в поисковую строку поисковой машины, чтобы проверить их работоспособность на практике, то эти квадратные скобки вводить не надо.
   Итак, перейдем непосредственно к операторам запросов Яндекса.
   1. Логическое «И».
   Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развитая, практически уникальная система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете, который максимально качественно выбирает нужную информацию и отсекает ненужную.
   1.1. Пробел.
   Слова, разделенные пробелом, должны располагаться недалеко друг от друга. Специалисты поясняют, что термин «недалеко» отнюдь не фиксированная величина и меняется в зависимости от того, с какими словами указанный оператор в каждом конкретном случае используется. Если они часто употребляются, то «недалеко» – значит, на расстоянии нескольких слов друг от друга. Если же они редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко».
   При этом, несмотря на то, что логическое «И» в общем виде Булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс, тем не менее, действительно выдает сначала те документы, в которых есть все ключевые слова, представленные в запросе. После чего начинает выдавать документы, в которых на одно ключевое слово меньше, чем в запросе, затем – на два слова меньше и так далее.
   Запрос: [маркетинг менеджмент]
   Результат поиска: страниц – 2 442 393, сайтов – не менее 1456
   В выдаче: Маркетинг, Финансы, Реклама, Менеджмент
   1.2. Амперсанд (&).
   Слова, разделенные амперсандом, находятся в одном предложении. Важно: амперсанд должен быть отделен пробелами с двух сторон от любых других слов.
   Запрос: [маркетинг & менеджмент]
   Результат поиска: страниц – 1 190 379, сайтов – не менее 1093
   В выдаче: … Филип Котлер в краткой форме представляет все наиболее значительные и интересные положения самой известной своей работы «Маркетинг менеджмент»…
   1.3. Двойной амперсанд (&&).
   Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа.
   Важно: между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.
   Запрос: [маркетинг && менеджмент]
   Результат поиска: страниц – 3 641 056, сайтов – не менее 1 295
   В выдаче, к примеру, будут присутствовать учебные планы вузов, в которых слова «маркетинг» и «менеджмент» находятся в разных частях текста, в том числе – на разных страницах опубликованного в Интернете многостраничного плана занятий.
   Чтобы увидеть это наглядно, читатели могут нажать в результатах выдачи гиперссылку «Найденные слова», которая приводится во всех итогах поиска. И тогда слова, которые есть в запросе, будут подсвечены и не придется тратить время на их «отлавливание» в тексте.
   2. Логическое «НЕ».
   Логическое «НЕ» представлено двумя операторами.
   Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска: «Зачем нужно логическое „НЕ“? Его ведь можно и вовсе не вводить, и тогда оно нам не понадобится!». Отвечаем: если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что часто в выдаче принудительно оказывается «мусор» и другого способа избавиться от него, кроме как убрать эти слова при помощи логического «НЕ», у нас нет. Так, например, если вас интересует конек крыши, то по слову «конек» в выдаче окажется информация и о роликовых, и о фигурных коньках, и даже о Коньке-Горбунке. Для таких-то случаев логическое «НЕ» и придумано.
   Итак, вернемся к нашим операторам.
   2.1. Тильда (~).
   Знак тильды – это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей SHIFT. Как и амперсанд, тильда должна быть отделена пробелами с обеих сторон. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг этого знака.
   Тильда означает, по аналогии с диаметрально противоположным символом – амперсандом, что слова не должно быть в предложении.
   Запрос: [маркетинг ~ менеджмент]
   Результат поиска: страниц – 12 604 153, сайтов – не менее 4442
   В выдаче: … комплексный подход к услуге интернет-маркетинга, охватывающий все возможности для продвижения интернет-представительств компаний в сети Интернет.
   2.2. Двойная тильда (~~).
   По аналогии с двойным амперсандом, двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон.
   Она означает, что слова, которое за ней расположено, не должно быть в документе совсем.
   Запрос: [маркетинг ~~ менеджмент]
   Результат поиска: страниц – 9 675 995, сайтов – не менее 3 976
   В выдаче: Форум по маркетингу и рекламе – Маркетинг и Реклама, маркетинговые коммуникации, виды рекламы: реклама в СМИ (печатная реклама, телереклама, радиореклама), наружная реклама, BTL: POS-материалы, У вас есть вопрос по маркетингу и рекламе?
   Обратите внимание: в результатах выдачи слова «маркетинг» и «маркетингу» выделены как релевантные, «маркетинговые» же – нет. Это происходит потому, что термин «маркетинг» – существительное, а «маркетингу» – его словоформа, тогда как «маркетинговые» – совсем другая часть речи, а отнюдь не производное от слова «маркетинг». Подобное явление надо учитывать, если вы рассчитываете на способность Яндекса самостоятельно перебирать словоформы. Игнорирование этого факта нередко приводит к искажению результатов выдачи и также является частой ошибкой начинающих специалистов по поиску в Интернете.
   На самом деле, в Яндексе есть еще один оператор логического «НЕ», который обозначается знаком «минус». По мнению Дениса Фурсова, с которым автор полностью согласен, _ «минус» – это не всегда корректно работающая двойная тильда, поэтому пользоваться им смысла нет. Мы не знаем наверняка, но предполагаем, что знак «минус» в качестве логического «НЕ» – это способ унифицировать Яндекс с другими поисковыми машинами, поскольку в большинстве своем они обозначают логическое «НЕ» именно этим знаком. Мы не пользуемся оператором «минус» при поиске в Яндексе.
   3. Логическое «ИЛИ» (оператор |).
   Логическое «ИЛИ» представлено оператором, имеющим вид вертикальной черты |.
   На клавиатуре этот оператор находится обычно выше (реже он расположен ниже) клавиши Enter и вводится в английском регистре, при нажатой клавише SHIFT.
   В подавляющем большинстве случаев оператор | и слова, с которыми он используется, заключаются в скобки, так как чаще всего этот оператор относится сразу к двум и более словам.
   Если мы хотим сделать запрос, который должен показать, что нас интересует документ, содержащий в одном предложении слова «маркетинг» и «менеджмент», но при этом нигде по тексту не должно быть слов «курс», «работа», «конференция», «теория», «книга», «семинар», «бизнес», «прибыль», «клиент», то сформулировать его необходимо следующим образом:
   [маркетинг & менеджмент ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)]
   Результат поиска: страниц – 46 082, сайтов – не менее 1483
   В выдаче: Форумы на Sostav.ru / Доска объявлений / Продам Маркетинг Менеджмент Котлера
   Или:
   Ответы к госам по дисциплине Маркетинг – Менеджмент (по конспектам преподавателей СПбГУ)
   Обратите внимание, что скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить действие оператора «двойная тильда» на все слова, расположенные внутри них.
   Кстати, для удобства восприятия этот запрос лучше оформить так, чтобы слова «маркетинг» и «менеджмент» были сгруппированы. Смысловой нагрузки это не несет, а потому и на выдачу не влияет, однако снижает вероятность того, что вы сами запутаетесь в своем запросе, если он будет достаточно длинным. Соответственно, мы бы советовали обратиться к поисковику так:
   [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)]
   4. Яндекс учитывает морфологию слов.
   Это означает, что Яндекс по запросу «Учет» выдаст результаты, содержащие слова «Учету», «Учетом», «Учетов» и т. п., которые он выделяет как релевантные теме поиска.
   Запрос: [Учет]
   В выдаче: Последний день сдачи индивидуальных сведений персонифицированного учета истекает 1 марта 2006 года.
   Результат поиска: страниц – 23 287 782, сайтов – не менее 13 745
   Запрос: [Учетом]
   ведение бухгалтерского учета поставщика, прежде всего учета реализации
   В выдаче: Учет русской морфологии Подсветка найденных…Yandex поисковая система с учетом морфологии русского языка Россия…
   Результат поиска: страниц – 23 675 161, сайтов – не менее 13 745
   5. Можно отключить поддержание морфологии слов.
   Если слова с изменяющимися окончаниями «замусоривают» результаты, то можно принудительно заставить Яндекс искать только слова в нужной словоформе. Это бывает полезно, например, при совпадении названия компании с общеупотребительными словами. Скажем, маловероятно, чтобы фирма «Река» упоминалась в публикациях со словами «Реке» или «Реку».
   Для того чтобы принудительно искать только нужную словоформу в Яндексе, используют оператор восклицательный знак. Он пишется слитно со словом, которое за ним следует, как если бы этот символ был первой его буквой.
   Запрос: [!Река]
   В выдаче: Рекламное агентство Река – размещение рекламы…
   Результат поиска: страниц – 2 267 142, сайтов – не менее 4976
   А если запрос сделать без восклицательного знака: Река
   В выдаче: Речные круизы по рекам России и Европы
   Результат поиска: страниц – 10 470 689, сайтов – не менее 13 932
   Видно, что количество страниц и сайтов в случае запроса с оператором «восклицательный знак» уменьшается почти в пять раз за счет исключения форм слова «река», таких как «реки», «рекой», «рекам» и пр.
   6. Заглавные и строчные буквы.
   Яндекс периодически меняет некоторые нюансы в этом вопросе, стараясь, однако, придерживаться главного правила: слова, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной, а слова, написанные с заглавной буквы, будут выдаваться только с заглавной. Изменения, которые периодически происходят в подходах Яндекса к этой проблеме, обычно касаются попыток исправить наиболее распространенные ошибки пользователей. Ознакомиться с текущим состоянием дел можно как на странице помощи самого поисковика, так и в работе Дениса Фурсова. Однако для эффективной работы достаточно просто следовать приведенному в этом разделе правилу.
   Если же слово написано целиком заглавными буквами, Яндекс будет рассматривать его как представленное прописными. То есть, результаты ввода в поисковую строку понятия «РИТЕЙЛЕР» будут такими же, как и в том случае, если мы оформим запрос иначе – «ритейлер».
   Запрос: [бухгалтерский Учет]
   Результат поиска: страниц – 556 606, сайтов – не менее 1984
   В выдаче: … Положение по бухгалтерскому учету «Учет основных средств» ПБУ 6/01»
   Запрос: [бухгалтерский учет]
   Результат поиска: страниц – 5 742 378, сайтов – не менее 2169
   В выдаче: …постановка, восстановление и ведение бухгалтерского учета
   7. Обязательное включение слов запроса в выдачу.
   Чтобы искомые слова непременно присутствовали в документах к выдаче, используется оператор «плюс» (+).
   Для того чтобы наглядно показать работу этого оператора, сделаем запрос со словами, которые редко оказываются в одном документе. При этом разделим их пробелом.
   А затем сделаем точно такой же запрос, но поставим знак «плюс» перед каждым словом, запретив тем самым Яндексу выдавать документы, в которых набор искомых терминов неполный.
   Результаты отличаются разительно – вместо тридцати трех тысяч страниц в первом случае, во втором мы имеем всего восемь!
   Запрос: [литейщик провизор стоматолог маркшейдер]
   Результат поиска: страниц – 33 005, сайтов – не менее 1192
   Запрос: [+литейщик +провизор +стоматолог +маркшейдер]
   Результат поиска: страниц – 8, сайтов – не менее 4 В выдаче:
   ОК 010-93: Общероссийский классификатор занятий (ОКЗ)
   … 222 1 Специалисты в здравоохранении (кроме медицинских сестер) 2221 5 Врачи 2222 9
   Стоматологи 2223 2 Ветеринары 2224 6 Фармацевты 2229 4 Специалисты-…
   Образование в Кузбассе
   Литейщик пластмасс Литейщик цветных металлов…
   № 257 від 27/07/1995, Покажчик, Класифікатор, Держстандарт України для детского и подросткового возраста 2222.1 23667 – Научный сотрудник (стоматология) 2222.2 20459 – Врач-стоматолог 2222.2 20462 – Врач-стоматолог… 8122.2 13382 7 Листобойщик 8122.2 13384 2 Литейщик вакуумного, центробежно-вакуумного и центробежного литья 8122.2 13388 19 Литейщик изделий из…
   Оператор «плюс» бывает незаменим и в тех случаях, когда есть необходимость обязательно включить в выдачу стоп-слова.
   Очень хорошо это описано в работе Дениса Фурсова.
   Если какие-то слова должны быть в результатах, поставьте перед ними +'. Помогает со стоп-словами. Сейчас Яндекс, кажется, учитывает стоп-слова только в запросе из трех и менее слов (даже не операндов!). +не покупай (samsung|lg) позволит найти негативные отзывы о продукции этих фирм (сравните с простым 'не покупай (samsung|lg)).
   Запрос: [+не покупай (samsung | lg)]
   Результат поиска: страниц – 5 314, сайтов – не менее 1227
   В выдаче:
   phorum – Основной форум – Re: ЛЮДИ, не покупайте Samsung 753 DFX в Wellcome
   ЛЮДИ, не покупайте Samsung 753 DFX в Wellcome новое
   Запрос: [не покупай (samsung | lg)]
   Результат поиска: страниц – 779 096, сайтов – не менее 629
   В выдаче: Купля продажа мобильных телефонов на Buy-Mobile.ru – Мобильный друг ждет!
   текст ссылок: купить lg бу дешево… купить lg или sony…
   Правда, Яндекс игнорирует стоп-слова как-то бессистемно. Так, запросы:
   [+не покупай (троллейбус | автобус)]
   и
   [не покупай (троллейбус | автобус)] —
   дают одинаковое количество результатов, в которых слово «не» учитывается как релевантное. Тем не менее, поскольку нет возможности проверить, как Яндекс отреагировал на запрос в каждом конкретном случае, мы рекомендуем воспользоваться советом Дениса и ставить «плюс» перед стоп-словами, как, впрочем, и перед теми словами, которые вы обязательно хотели бы видеть в выдаче.
   8. Поиск точной фразы.
   Не исключено, что вам понадобится найти определенную цитату либо рекламный слоган какой-либо компании.
   Для этого используется оператор «двойные кавычки», аналогичные тем, что применяются в прямой речи.
   В выдаче при поиске цитаты будут присутствовать документы, содержащие все слова искомой фразы, в той же форме и последовательности, что и в оригинальной ее версии.
   Важно помнить, что точной цитата будет лишь в том случае, если кроме фразы, указанной в кавычках, в запросе не будет никаких лишних слов. Если помимо фразы в кавычках появится еще хотя бы одно слово, Яндекс будет выдавать документы, которые содержат все слова цитаты, сохранит их последовательность, варьируя при этом их формы. Как следствие, количество документов в выдаче заметно возрастет. Яндекс называет это «слова идут подряд».
   Запрос: [ «ты всегда думаешь о нас»]
   Результат поиска: страниц – 2905, сайтов – не менее 778
   В выдаче:
   Tefal – ты всегда думаешь о нас! Онли!!
   Tefal, ты всегда думаешь о нас!
   X-файлы – Тефаль, ты всегда думаешь о нас.
   Тефаль, ты всегда думаешь о нас! (антиреклама 1) (Николай Якимчук) | Проза. ру…
   Электронный журнал со свободной публикацией произведений. Ежедневные редакторские обзоры лучших произведений.
   Интересно понаблюдать при такой слаженности результатов за тем, как работает оператор исключения слова из предложения:
   Запрос: [ «ты всегда думаешь о нас» ~ (tefal | тефаль)]
   Результат поиска: страниц – 307 773, сайтов – не менее 1197
   В выдаче:
   Конференции – АвтоКазань – АвтоКазань. Ru
   а я вот всегда думал (+) >> OldDaddy 20.05.2005 17:21:24
   Chel.ru – Новости бизнеса. Справочник промышленных, торговых, общественных и…
   Почему-то я всегда думала, что практические статьи д.б. написаны ПОНЯТНЫМ языком.
   Открытки Всегда думаю о тебе!!
   > Красивые фотографии, открытки > Открытки > Всегда думаю о тебе!! Я Всегда думаю о тебе!!
   9. Слова находятся на определенном расстоянии.
   Этот оператор очень часто используется на практике, так как позволяет достаточно четко ограничить поиск. Вид он имеет следующий: /n, где n, по определению самого Яндекса, – это «максимально допустимое расстояние между двумя любыми словами запроса».
   Денис Фурсов дает такое определение оператору: «Расстояние между словами».
   Мы предлагаем следующим образом запомнить значение цифры в операторе: эта цифра (n) показывает, каким по счету будет второе слово после первого.
   Например, если в запросе написано:
   [годовой /1 отчет],
   то в выдаче будет присутствовать фраза «годовой отчет». Потому что слово «отчет» будет первым после слова «годовой». Если в запросе написано:
   [годовой /2 отчет]
   то в выдаче может появиться «годовой финансовый отчет», потому что слово «отчет» может быть вторым после слова «годовой», а первым может быть любое другое слово.
   Надеемся, мы объясняем доступно, потому что хотим рассказать еще о двух нюансах оператора расстояния между словами.
   На самом деле, по запросу:
   [годовой /2 отчет]
   документы, содержащие выражение «годовой отчет», также будут выданы, потому что меньшее значение расстояния возможно, а большее – нет. Мало того, в выдачу попадет не только сочетание «годовой отчет», но и «отчет годовой». Расстояние между словами распространяется на оба слова.
   Если же есть необходимость ограничить выдачу фразой «годовой отчет», исключив из нее выражение «отчет годовой», то оператор можно написать вот так:
   [годовой /+1 отчет].
   Это практически эквивалентно запросу: [годовой /1 отчет ~ «отчет годовой»].
   Количество документов в выдаче совпадает, и в первых рядах в момент составления запроса был документ:
   Годовой отчет – 2005. О книге.
   Только с «Годовым отчетом – 2005» от журнала «Главбух» вы получите удобный мини-справочник по годовому отчету
   Мы не будем чрезмерно загружать читателя описанием оператора расстояния между словами, так как сказанного вполне достаточно для работы, а изучение всех нюансов функционирования поискового движка Яндекса не входит в круг основных наших задач.
   Чтобы увидеть разницу между наличием и отсутствием знака «плюс» в операторе расстояния между словами, проведем напоследок такой эксперимент: сначала сделаем запрос, который позволяет появиться в выдаче документам, содержащим, согласно оператору расстояния, как фразе «годовой отчет», так и «отчет годовой», при этом исключив из результатов «годовой отчет»; а затем создадим запрос, требующий, за счет написания оператора расстояния между словами, выдачи только «годового отчета», и убедимся, что при попытке исключения конкретной фразы «годовой отчет» результат получить не удастся.
   Запрос: [годовой /1 отчет ~ «годовой отчет»]
   Результат поиска: страниц – 2042, сайтов – не менее 701
   В выдаче:
   Энциклопедии и словари
   Энциклопедии и словари
   ОТЧЕТ ГОДОВОЙ
   Запрос: [годовой /+1 отчет ~ «годовой отчет»]
   Результат поиска: страниц – 0
   10. Числоформы (термин, введенный Денисом Фурсовым).
   Для того чтобы при запросе какого-либо нужного номера (например, номера приказа или телефона) в выдаче вам не попадались посторонние ИНН, маркировки радиоламп и микросхем, а также прочие лишние результаты, рекомендуется перед номером, который вы ищете, поставить восклицательный знак или взять его в кавычки.
   Сами номера надо написать во всех возможных вариантах, разделив их оператором «ИЛИ» и объединив в круглую скобку.
   Запросы:
   [(тел | телефон) (!123-45-67 |!1234567)]
   и
   [(тел | телефон) («123-45-67» | «1234567»)] —
   дадут одинаковые результаты, в выдаче мы увидим следующее:
   Все услуги через телефоны доступа – Услуги – Главная страница || Инфосвязь. Например, чтобы позвонить из Москвы в Москву на номер 123-45-67, достаточно ввести телефон 1234567, что будет аналогично введению номера 84951234567!… абонента (в этом случае на дисплее вашего мобильного телефона будет отображаться следующая запись, например для телефона 123-45-67 в Санкт-Петербурге…
   11. Поиск на определенном сайте.
   Оператор имеет вид url=www.url.ru/cat*. Хотим обратить внимание читателя на то, что на сайте Яндекса этот оператор имеет вид url=www.url.ru/cat/* с косой чертой в конце. Наш опыт показывает, что эта косая черта ухудшает результаты выдачи, поэтому мы рекомендуем записывать оператор без нее, как было показано в начале этого подраздела.
   Что касается знака «звездочка» в конце адреса, то это символ маски, который означает, что нас устраивает любая страница сайта, адрес которой начинается так, как написано слева от указанного символа.
   Чтобы воспользоваться оператором, позволяющим проводить поиск на определенном сайте, лучше скопировать этот оператор целиком из таблицы на сайте Яндекса, нежели вводить вручную, а затем заменить в нем адрес на нужный пользователю. Так можно свести к минимуму риск орфографической ошибки.
   Операторы поиска на определенном сайте можно сгруппировать так, чтобы поиск проводился на группе сайтов. Денис Фурсов приводит такой пример поиска слова «работа» на сайтах www.ko.by и www.superjob.ru, который находит в общей сложности порядка 800 страниц:
   Запрос: [работа && (#url=«www.ko.by*» | #url=«www.superjob.ru*»)]
   Результат поиска: страниц – 791, сайтов – не менее 2
   В выдаче:
   Работа, вакансии, подбор персонала, резюме, поиск работы – SuperJob.ru
   Работа: быстрый поиск работы
   Еще работа»
   www.superjob.ru (25 КБ) 05.03.2006
   и
   Кадровое агентство Коллекция Открытий —… кадры, работа в Минске, работа в… Кадровое агентство Коллекция Открытий – работа, подбор персонала, кадровые агентства, трудоустройство, персонал, кадровый, кадры главная | о нас | подбор персонала | поиск работы | контакты | карта www.ko.by (16 КБ) 16.11.2005
   12. Оператор ссылки (link).
   Этот оператор показывает, какие внешние сайты содержат ссылку на сайт, указанный в запросе. Это один из самых важных для конкурентной разведки операторов, поскольку позволяет найти друзей или союзников конкурента, часто ведет на личные странички бывших либо нынешних сотрудников компаний, может обнаружить размещенные членами их персонала объявления о поиске работы или, например, выявить аффилированные структуры.
   Записывается оператор следующим образом:
   link=www.url.ru/cat/*
   Как и в предыдущем случае, мы рекомендуем убирать последнюю косую черту, после которой следует символ «звездочка». Если надо найти ключевое слово в ссылающихся на сайт страницах, то оператор link сочетается с обычными ключевыми словами, отделяясь от них двойным амперсандом. Например, зададим поиск понятия «креатив» в сайтах, ссылающихся на адрес издательства «Вершина»: www.vershinabooks.ru.
   Запрос: [креатив && link=www.vershinabooks.ru*]
   Результат поиска: страниц – 238, сайтов – не менее 26
   В выдаче:
   Консалтинг и тренинги Москвы | Новости | Вышла книга Блестящие ответы на трудные…
   ТРИЗ и технологии креатива
   msk.treko.ru/show_news_476 (23 КБ) 02.03.2006
   При этом можно еще раз проиллюстрировать влияние знака «плюс» на результат выдачи в Яндексе. При запросе:
   [+креатив && link=www.vershinabooks.ru*]
   Результат поиска: страниц – 10.
   Остальные страницы, показанные в предыдущем запросе, ссылались на сайт издательства «Вершина», но слова «креатив» не содержали.
   13. Оператор поиска в заголовке страницы.
   Для тех, кто не занимается сайтами профессионально, напомним, что заголовок страницы – это то, что написано на синем (для Windows XP) поле в самом верху экрана, как бы уже за пределами страницы, на ее рамке. А с точки зрения разметки HTML, эта часть сайта заключена внутри тега <TITLE>.
   Яндекс справедливо считает, что если ключевое слово содержится в самом заголовке страницы, значит, она однозначно имеет непосредственное отношение к запросу.
   Синтаксис оператора выглядит таким образом (на примере поиска слова «разведка» на страницах, содержащих в заголовке словосочетание «ИПК УГТУ»):
   Запрос: [+разведка && $title (ИПК УГТУ)]
   Результат поиска: страниц – 1
   В выдаче:
   Институт переподготовки кадров УГТУ (ИПК УГТУ) – Екатеринбург, Свердловская…
   … проф. бухгалтеров, семинары и тренинги по управлению недвижимостью, изменениями, бизнес-разведке, технологиям продаж, тренинги личностного роста. www.uralfirm.ru/catalog/card/66.19517 (13 КБ) 18.06.2005
   Остальные операторы языка запросов Яндекса представляют меньший практический интерес, хотя и значительно расширяют возможности поиска. Ознакомиться с ними можно на странице помощи в Яндексе,[4] пройдя по ссылкам Помощь > Синтаксис запросов.

Поиск в Гугле (Google)

   Гугл (google.ru) становится все более популярным. За ним стоит колоссальный финансовый ресурс, которым грамотно распоряжаются. Так, по информации из интервью инженера по программному обеспечению Google Мэта Катса, уже в 2002 г. «каждые 28 дней Google индексировал 3 млрд веб-документов, в том числе более трех млн новых страниц каждый день».
   Этот поисковик в чем-то проигрывает Яндексу, а в чем-то выигрывает у него. Поскольку Для удобства читателя при рассказе об операторах Гугла будем в ряде случаев проводить их сравнение с аналогичными операторами Яндекса.
   1. Основы поиска.
   Чтобы ввести запрос, напечатайте ключевые слова и нажмите ENTER либо щелкните кнопку «Поиск в Google».
   Гугл использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по вашему запросу. Для этого система анализирует не только саму страницу, которая соответствует запросу, но и те, которые на нее ссылаются, чтобы определить ценность этой страницы для целей вашего поиска. Кроме того, Гугл предпочитает страницы, на которых ключевые слова, введенные вами, расположены недалеко друг от друга.
   2. Показ ключевых слов в результатах.
   Каждый раз в списке найденных страниц Гугл показывает отрывок из текста на странице, выделяя в нем ключевые слова. Тем самым облегчается их обнаружение по всему тексту.
   Второй способ увидеть ключевые слова – загрузить страницу по ссылке «Сохранено в кэше». Недостаток данного способа (хотя конкурентной разведкой это нередко рассматривается как преимущество) – в том, что вы видите не ту страницу, которая есть сегодня, а т у, которая сохранена в базе Гугла. Изначально эта опция была придумана для того, чтобы сохранить возможность просмотра страницы даже в тех случаях, когда сервер, на котором она расположена, недоступен.
   Третий способ – традиционный для просмотра текста в браузере – заключается в использовании сочетания клавиш CTRL+F. В результате должно появиться окно «найти», в которое необходимо ввести искомые слова. Раскладка клавиатуры, установленная в этот момент на компьютере, значения не имеет.
   3. Логическое «И».
   В отличие от Яндекса, в Гугле всего одно логическое «И», оно наиболее близко к рассмотренному ранее поисковому механизму «&&» в сочетании с оператором «плюс», поставленным перед каждым словом запроса.
   Это логическое «И» позволяет выдавать документы, которые принудительно содержат ключевые слова в любом месте текста. По умолчанию при написании слов запроса через пробел Гугл ищет документы, содержащие все слова запроса.
   Запрос: [литейщик провизор стоматолог маркшейдер]
   Результаты 1 – 10 из примерно 18 для литейщик провизор стоматолог маркшейдер
   В выдаче:
   Общероссийский классификатор занятий ОК 010-93 (ОКЗ) (утв…
   Общероссийский классификатор занятий ОК 010-93 (ОКЗ) (утв. постановлением Госстандарта
   РФ от 30 декабря 1993 г. N 298) Russian Classification of Occupations…
   Работа для вас в Самаре. Поиск работы, подбор персонала, вакансии…
   Медсестра (стоматологический кабинет, ЕТС). Тел. 39-52-53, Адрес: ул… провизор (аптека, в/о,
   наличие сертификата, опыт работы в производственной аптеке,…
   Интересно, что Гугл может показать и те источники, кoтopые ключевых слов не содержат, однако они присутствуют в ссылках на показанную страницу. В таком случае при просмотре информации с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу».
   Описанный механизм работы Гугла хорошо виден, если посмотреть ключевые слова на странице сайта о работе в Самаре, сохраненной в кэше.
   Эти слова выделены:
   литейщик провизор маркшейдер
   А это слова присутствеют только в ссылках на страницу:
   стоматолог
   4. Логическое «ИЛИ».
   Оно пишется с помощью оператора OR. Обратите внимание: оператор этот должен быть написан заглавными буквами и отделен пробелами с обеих сторон от слов, расположенных перед ним и после него.
   Важно знать, что, в отличие от Яндекса, Гугл не поддерживает такой оператор, как скобки.
   Запрос: [литейщик OR провизор OR стоматолог OR маркшейдер]
   Результаты 1 – 10 из примерно 2 030 000 для литейщик OR провизор OR стоматолог OR маркшейдер
   5. Заглавные буквы или строчные?
   В отличие от Яндекса Гугл не различает регистр букв. Все буквы воспринимаются как строчные, вне зависимости от того, как их вводили в поисковую строку. Запросы:
   [Эйфелева Башня], [Эйфелева башня] и [эйфелева башня]
   дадут одинаковые результаты.
   Результат поиска на момент написания книги:
   Результаты 1 – 10 из примерно 543 000 для Эйфелева Башня.
   Результаты 1 – 10 из примерно 543 000 для эйфелева башня.
   6. Стоп-слова.
   Во вспомогательных инструкциях (хэлпах) написано, что Гугл, подобно большинству поисковых систем, игнорирует стоп-слова. Кроме того, хэлпы утверждают, будто, как и многие другие поисковики, Гугл имеет механизм принудительного включения стоп-слов в результаты поиска. К таким элементам относится большинство артиклей английского языка, союзов и предлогов русского языка.
   В реальности ситуация, похоже, складывается иначе.
   Тест: вводим по-русски букву [в]
   Результат:
   Результаты 1 – 10 из примерно 48 600 000 для в.
   Вводим по-английски артикль [the]
   Результат:
   Результаты 1 – 10 из примерно 8 670 000 000 для the.
   7. Оператор «Плюс» (+).
   Тем не менее, бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву «I» («ай»). Если сделать запрос просто как:
   [Star Wars Episode I], —
   то результат будет следующий:
   Результаты 1 – 10 из примерно 13 200 000 для Star Wars Episode I.
   В том числе в выдаче появятся слова
   «Episode II», «Episode IV» и т. п.
   Если сделать запрос:
   [Star Wars Episode +I], —
   то результат будет такой:
   Результаты 1 – 10 из примерно 9 290 000 для Star Wars Episode +I.
   И в него войдут только тексты, содержащие слово «Episode I».
   8. Морфология слов.
   Гугл не поддерживает морфологию слов. Их изначально следует вводить в нужных формах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы проверить утверждение об отсутствии поддержки морфологии, возьмем такое языковое сочетание, по которому можно увидеть все без исключения результаты. А сочетание следующее: «Глоклая куздра».
   Тест:
   Запрос:
   [глоклая куздра]
   Результаты 1–4 из примерно 16 для глоклая куздра.
   В выдаче три адреса:
   Запрос:
   [глоклую куздру]
   Результаты 1–1 из 1 для глоклую куздру.
   В выдаче один адрес:
   gb.anekdot.ru/vm.html?file=vm&date=1998-08-07
   Запрос:
   [глоклой куздре]
   Результат: Не найдено ни одного документа, соответствующего запросу глоклой куздре.
   Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное встречается на странице выдачи, но не в кэше.
   Просто для сравнения приведем результат Яндекса. По всем трем запросам о «глоклой куздре» система дала на момент написания книги одинаковый результат:
   Результат поиска: страниц – 13, сайтов – не менее 5.
   9. Улучшение запроса во время поиска.
   Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но обнаружили в ходе его выполнения в найденных текстах. В ряде случаев это помогает улучшить результат. Подчеркнем особо – это должны быть именно отдельные запросы. Добавление же новых слов к уже имеющемуся списку порой приводит к излишнему сужению диапазона результатов, ведь Гугл будет пытаться выдать документ, в котором содержатся все искомые слова.
   10. Исключение слов из запроса. Логическое «НЕ».
   Как известно, часто при составлении запроса встречается информационный мусор. Чтобы его удалить, стандартно используется оператор исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Здесь он идентичен поисковому механизму Яндекса «двойная тильда» («~~»), исключающему слово из всего документа. Используя его, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
   Тест:
   Запрос:
   [Журавль колодец]
   Результаты 1 – 10 из примерно 778 для Журавль колодец.
   Запрос:
   [Журавль колодец-птица]
   Результаты 1 – 10 из примерно 715 для Журавль колодец – птица.
   Запрос:
   [Журавль —колодец-птица]
   Результаты 1 – 10 из примерно 120 000 для Журавль – колодец – птица.
   Запрос:
   [Журавль – колодец-птица – птиц]
   Результаты 1 – 10 из примерно 106 000 для Журавль – колодец – птица – птиц.
   Запрос:
   [Журавль – колодец – птица – птиц – журавли]
   Результаты 1 – 10 из примерно 104 000 для Журавль-колодец-птица-птиц-журавли.
   11. Поиск точной фразы.
   Найти точную фразу, как мы уже говорили, требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание. В отличие от Яндекса, который может менять формы слов, входящих в текст, заключенный в кавычки, Гугл такой способностью не обладает. Мы отмечали, что эта система словоформы вообще не поддерживает.
   Чтобы справиться с поиском точной фразы при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи).
   Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н. М. Шанского, где на стр. 45 предлагается разделить текст на абзацы. Автор – М. Шолохов. Произведение не указано. Приведем фрагмент текста:
   [ «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.»].
   Введем этот текст в кавычках в Гугл и получим следующий результат:
   Результаты 1 – 10 из примерно 15 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки».
   Как выяснилось, этот фрагмент относится к произведению «Тихий дон» (книга четвертая). Курьез же состоит в том, что у М. Шолохова этот текст оказался вообще не разбитым на абзацы.
   Гугл воспринимает в качестве знаков, связывающих слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.
   Результаты 1 – 10 из примерно 27 400 для мать-и-мачеха.
   Результаты 1 – 10 из примерно 27 300 для мать/и/мачеха.
   Результаты 1 – 10 из примерно 27 300 для мать=и=мачеха.
   Результаты 1 – 10 из примерно 27 300 для мать.и. мачеха.
   Результаты 1 – 10 из примерно 27 300 для мать'и'мачеха.
   Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже:
   «Мать-и-мачеха (Tussilago farfara) – одно из самых раноцветущих растений: зацветает в… Как лекарственное растение мать-и-мачеха применяется, прежде всего,…».
   При этом все три слова:
   «мать», «и», «мачеха» —
   рассматриваются как отдельные, но стоящие рядом и в этой же самой последовательности.
   Интересно, что по запросу:
   [мать-и-мачеха] —
   оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:
   Результаты 1 – 10 из примерно 27 300 для «мать-и-мачеха».
   Чтобы прояснить этот казус, введем следующий запрос:
   [мать-и-мачеха «мать-и-мачеха»].
   В итоге получим:
   Результаты 1 – 10 из примерно 27 для мать-и-мачеха – «мать-и-мачеха».
   В выдаче появятся тексты такого содержания:
   Санкт-Петербургская Федерация Настольного Футбола Матьимачеха. Королев Петр Трушков Кирилл. 2. Экспромт. Гриневич Василий… Матьимачеха – игроки получают по 60 рейтинговых очков; Экспромт – игроки… www.kickerclub.spb.ru/tournaments/2005-09-03.html– 17k.
   12. Количество слов в строке поиска.
   Во многих источниках встречается информация, согласно которой поисковая строка Гугла вмещает 10 слов или что Гугл проводит поиск лишь по 10 словам. Проведенный нами эксперимент эти данные не подтвердил. Так, введем запрос из 23 слов:
   [крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр]
   Результат:
   Результаты 1–3 из примерно 5 для крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр.
   Ресторан. Ru | Кулинария | Кулинарные рецепты | Вторые блюда | С…
   (салат, помидоры, огурцы, гамбургеры, булочки, сыр, майонез)… (макароны, лук, перец, помидоры, мука, масло, рубленое мясо, мясной бульон, сыр)…
   В КЭШе подчеркнуты все 23 слова, и в тексте они также присутствуют. Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат прогнозируемо меняется, но все слова в выдаче по-прежнему выделены Гуглом.
   [крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр]
   Результат:
   Результаты 1 – 10 из примерно 3 430 000 для крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр.
   13. Стемминг (а также wildcard).
   Стемминг – возможность усечения слова до его корня. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова.
   Техника поиска по маске (wildcard) предствавляет собой написание базового слова (или части слова), после которых идет символ маски – «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника особенно удобна, когда вам неизвестно точное написание конкретного слова, либо когда вы хотите включить все возможные варианты слова в свой поиск. Например, когда по запросу
   [тарт*]
   получают как «тарталетку», так и «тартар».
   Так вот, Гугл эти технологии не поддерживает (как, впрочем, и Яндекс). Зато он поддерживает вариант, когда вместо целого слова вводится звездочка.
   Например, по запросу:
   [красная * площадь]
   будет выдано:
   «Красная и Манежная площади»,
   с подчеркиванием всех этих слов, в том числе буквы «и». В какой-то степени это похоже на поиск с расстоянием между словами, применяемый в Яндексе. По запросу:
   [красная * площадь – «красная площадь»] —
   будут получены результаты:
   «Красная (Семеновская) площадь»,
   где слово «Семеновская» не считается релевантным и не подчеркивается Гуглом.
   14. Дополнительные операторы.
   14.1. Оператор cache:
   Поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем. Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэширо-ванная страница показывается в том виде, в котором она хранится в базе данных поисковой машины, и при показе пользователю сопровождается надписью наверху страницы о том, что это страница из кэша. Там же содержится информация о времени создания кэшированной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом. Например:
   «Это сохраненная в кэше G o o g l e копия страницы http://www.kickerclub.spb.ru/tournaments/2005-09–03.html, записанная 4 янв 2006 06:07:09 GMT.».
   Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом: Так, запрос:
   [cache:www.bstm.ru]
   будет сразу выдавать версию страницы www.bstm.ru из кэша, а не проверять ее нынешнее состояние.
   Внимание: пробела между оператором cashe: и URL’ом запрашиваемой страницы быть не должно.
   Если вы хотите, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe: и адреса страницы.
   Например:
   [cache:www.bstm.ru библиотека].
   14.2. Оператор info:
   Оператор info: позволяет увидеть информацию, которая известна Гуглу об этой странице.
   Например, запрос:
   [info:www.bstm.ru]
   дает следующий результат:
   BSTM – Бизнес-школа технологий менеджмента | Екатеринбург: Новости phpsm, phpsitemanager… Президентская программа. О программе – Стратегический менеджмент – Менеджмент качества – Маркетинг на предприятии…www.bstm.ru/ Google может показать следующую информацию об этом адресе:
   Показать сохраненную в Google версию www.bstm.ru
   Найти страницы, похожие на www.bstm.ru
   Найти страницы, ссылающиеся на www.bstm.ru
   Найти страницы на сайте www.bstm.ru
   Найти страницы, упоминающие ссылку «www.bstm.ru»
   Внимание: пробела между оператором info: и URL’ом запрашиваемой страницы быть не должно.
   14.3. Оператор site:
   Этот оператор ограничивает поиск конкретным доменом. То есть, если сделать запрос:
   [маркетинг разведка site:www.acfor-tc.ru], —
   то результаты будут получены со страниц, содержащих слова «маркетинг» и «разведка» именно в домене «acfor-tc.ru», а не в других частях Интернета. Если сделать запрос:
   [scip site: ru], —
   то будут получены документы, содержащие слово «scip» и расположенные в доменной зоне «.ru».
   Внимание: пробела между оператором site: и URL’ом запрашиваемой страницы быть не должно.
   14.4. Оператор link:
   Этот оператор позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос. Например, по запросу:
   будут получены известные Гуглу ссылки на статью о поиске через Яндекс, написанную liveuser.
   Внимание: пробела между оператором link: и URL’ом запрашиваемой страницы быть не должно.
   14.5. Оператор allintitle:
   Если запрос начать с оператора allintitle:, что переводится как «все – в заголовке», то Гугл выдаст тексты, в которых все слова запроса содержатся в заголовках (внутри тега Title в HTML).
   Например, запрос:
   [allintitle: википедия яндекс] —
   даст результаты, где слова «википедия» и «яндекс» содержатся внутри тега Title на просмотренных поисковой машиной страницах. На момент написания статьи результат был таким:
   Результаты 1–3 из примерно 7 для allintitle: википедия яндекс.
   14.6. Оператор intitle:
   Показывает страницы, в заголовке которых содержится слово, расположенное непосредственно после опретора intitle:,; все остальные слова запроса могут находиться в любом месте текста. Если поставить оператор intitle: перед каждым словом запроса, это будет эквивалентно использованию оператора allintitle:
   [intitle: википедия яндекс].
   На момент написания статьи результат был таким:
   Результаты 1 – 10 из примерно 888 для intitle: википедия яндекс.
   Внимание: пробела между оператором intitle: и последующим словом быть не должно.
   14.7. Оператор allinurl:
   Если запрос начинается с оператора allinurl:, то поиск ограничивается теми документами, в которых все слова запроса содержатся исключительно в адресе страницы, то есть в URL.
   Так, на момент написания статьи для запроса:
   [allinurl: narod razvedka] —
   результат был таким:
   Результаты 1 – 10 из примерно 14 для allinurl: narod razvedka.
   Внимание: оператор allinurl: работает лишь со словами, а никак не со служебными фрагментами URL. Такие специальные символы, как слэш или точка, не окажут положительного влияния на результат. Напротив, влияние будет отрицательным, поскольку они могут быть восприняты Гуглом как попытка ввести в запрос точную фразу.
   Например, запрос:
   [allinurl: narod.razvedka],
   равно как и
   [allinurl: narod/razvedka] —
   результата не дал вообще.
   14.8. Оператор inurl:
   Слово, написанное слитно с оператором inurl:, будет найдено лишь в адресе страницы Интернета, а остальные слова – в любом месте такой страницы.
   Например, для того, чтобы найти слово «разведка „на сайтах, содержащих в адресе сочетание букв «tc“, можно сделать такой запрос:
   [inurl: tc razvedka].
   Результат на момент написания статьи:
   Результаты 1–1 из 1 для inurl: tc razvedka.
   Был представлен следующим текстом:
   «Otryady-5
   Razvedka okazalas' neskol'ko utomitel'noi (obratno shli V lavirovku). Poetomu k pirsu my podoshli sovershenno izmuchennye: no ne stol'ko samoi razvedkoi…. www-lat.rusf.ru/tc/tc08/08otr5.htm».
   Если оператор inurl: поставить перед каждым словом запроса, это будет эквивалентно использованию оператора allinurl:.
   Внимание: пробела между оператором inurl: и последующим словом быть не должно. Внимание: оператор inurl: работает только со словами и не работает со служебными фрагментами URL. Такие специальные символы, как слэш или точка, не окажут положительного влияния на результат. Влияние будет отрицательным, так как они могут быть восприняты Гуглом как попытка ввести в запрос точную фразу.
   Например, запрос
   [inurl: tc/razvedka],
   равно как и
   [inurl: tc.razvedka] —
   результата не дал вообще. Результат мог бы быть, если бы в адресе какой-то страницы содержалась точная фраза «tc/razvedka» или «tc.razvedka».
   В этом можно убедиться, введя запрос:
   [inurl: kubok].
   Результаты 1 – 10 из примерно 28 400 для inurl: kubok.
   И этот результат начинается с текста:
   «Кубок Яндекса. Как искать эффективно
   – Вопросы и ответы
   – Предложение организаторам соревнований
   – Форум
   – Кубок в LiveJournal kubok…kubok.yandex.ru/»
   По запросу:
   [inurl: kubok/45852]
   Результаты 1–2 из примерно 44 для inurl: kubok/45852.
   И этот результат начинается с текста:
   «kubok: Хозяйке на заметку. Хозяйке на заметку. Материал рассчитан на подготовленного читателя, знающего, что такое стоп-слова и операнды, чем ~~ отличается от && и зачем их…www. livejournal.com/community/kubok/45852.html».
   14.9. Оператор related:
   Этот оператор описывает страницы, которые «похожи» на какую-то конкретную страницу. Так, запрос
   [related: it2b.ru]
   дает результат:
   Результаты: 1 – 10 из приблизительно 29 подобных it2b.ru.
   Мы не считаем, что все страницы действительно подобны странице сайта it2b. ru, с точки зрения человека, а не робота. Хотя некоторые из них действительно посвящены схожей тематике.
   На самом деле первым в выдаче стоит сайт it2b.ru, который специализируется на вопросах использования технологий разведки для бизнеса. А вот вторым – сайт компании «SW-Trans», предлагающей услуги по перевозке грузов.
   Можем предположить, что основанием для сравнения двух сайтов послужило упоминание на ресурсе грузовой компании услуг по охране маршрутов, их сопровождению машинами со спецсигналами, о предусмотренных в таких случаях пропусках и о «решении всех возможных дополнительных проблем, возникающих при транспортировке». Наряду с транспортной компанией, Гугл включил в «подобные» страницы и такие источники, как журнал «Sales/Business (Продажи)», в котором встречается немало публикаций о предпринимательских рисках и о конкурентной разведке, а также компанию «Информзащита», работающую в области обеспечения информационной безопасности.
   Внимание: пробела между оператором related: и последующим словом быть не должно.
   14.10. Оператор define:
   Этот оператор выполняет роль, своего рода, толкового словаря, позволяющего быстро получить определение того слова, которое введено после оператора.
   Например:
   [define: разведка].
   Результат:
   Определения разведка в интернете:
   совокупность мер для сбора данных о действительном или возможном противнике.
   Интересная особенность оператора define: состоит в его способности искать толкования конкретных выражений. В качестве фразы он понимает все слова, написанные после оператора, в том числе и без кавычек, просто через пробел. Например:
   [define: большой взрыв].
   Результат:
   Определения большой взрыв в интернете:
   Большой Взрыв – взрывной процесс в котором, по данным современной науки, наша Вселенная родилась из так называемой космологической сингулярности.
   ru.wikipedia.org/wiki/Большой_Взрыв.
   Правда, иногда этот оператор может и повеселить, представив материал, в котором мало кто разберется. Например, по запросу
   [define: ложка] —
   результат будет следующим:
   Определения ложка в интернете:
   *блесна, основанная на подражании раненой рыбке.
   fisherman.com.ua/files/fishsay.php.
   А по запросу:
   [define: осел] —
   результат такой:
   Похожие фразы: буриданов осел
   Определения осел в интернете:
   *строгий, собранный в кучу, материал
   astro.rin.ru/htmls/nostradamus/astro1826-5.html.
   ВНИМАНИЕ: наличие или отсутствие пробела между оператором define: и последующим словом на результате не сказывается.
   14.11. Поиск синонимов
   В хэлпе Гугла сказано, что если вы хотите найти тексты, содержащие не только ваши ключевые слова, но и их синонимы, то можно воспользоваться оператором «~».
   Нам не удалось найти подтверждения этому заявлению.
   Так, мы сравнили два запроса и не нашли разницы:
   [~опережающий ~разведка]
   Результаты 1 – 10 из примерно 33 100 для ~опережающий ~разведка.
   [опережающий разведка]
   Результаты 1 – 10 из примерно 33 100 для опережающий разведка.
   14.12. Поиск числовых значений
   Для тех, кому приходится работать с цифрами, Гугл дал возможность искать диапазоны между числами. Для того чтобы найти все страницы, содержащие числа в неком диапазоне «от – до», надо между этими крайними значениями поставить две точки.
   Например, по запросу
   [численность населения 1913..1917]
   будут выданы страницы:
   Народная энциклопедия городов и регионов России. Города. Санкт… Подчиненные поселки городского типа, численность населения на 1.01.2000… Вскоре после начала Первой мировой войны актом от 18 (31) августа 1914 г… rfdata.al.ru/auto/city/18/667.HTM —
   с выделенным числом «1914», а также:
   Известия Уральского государственного университета № 9(1998…
   За 192 года своего существования с 1723 по 1915 гг. численность населения города увеличилась в 28 раз, достигнув 112 тыс. чел. Следует отметить, что город… proceedings.usu.ru/…/0009(03_05-1998)&xsln=showArticle.xslt&id=a14&doc=../content.jsp
   с выделенным числом «1915». Подобный пример приведен в хэлпе Гугла на примере цены DVD:
   [DVD player ..0].
   14.13. Кнопка «Мне повезет» (в английском варианте – «I'm Feeling Lucky»)
   Кнопка «Мне повезет» расположена на главной странице Гугла. На наш взгляд, это замечательная идея. По этой кнопке система выдает наиболее релевантный, с ее точки зрения, результат. Обычно это помогает при быстром поиске какой-то фактической информации, когда не требуется подробного изучения вопроса. После нажатия кнопки «Мне повезет» вы попадаете непосредственно на сайт, который Гугл предлагает в качестве искомого. Например, запрос по указанной кнопке:
   [активные формы] —
   открывает непосредственно сайт одноименной консалтинговой компании

Поиск в Рамблере

   Операторы Рамблера в данном разделе рассматриваются в сравнении с операторами Яндекса и Гугла. И, соответственно, те из них, которые имеют аналоги в двух других поисковых системах, здесь будут описаны не слишком подробно. Детальную характеристику мы сочли необходимым дать отличиям Рамблера от Яндекса и Гугла.
   Рамблер, на наш взгляд, – третья по значимости поисковая машина для работы с русскоязычными текстами. Причем, это третье место находится на очень значительном расстоянии от первых двух. Мы нечасто обращаемся к Рамблеру, поскольку, в зависимости от задачи, обычно начинаем поиск с Яндекса, после чего переходим в Гугл, или наоборот – начинаем с Гугла, а затем уточняем результат в Яндексе. В большинстве случаев этого бывает достаточно при работе с каким-то фактическим материалом, главным критерием которой выступает не полнота ответа, а его правильность.
   Вместе с тем, и специалисты конкурентной разведки, и представители других специальностей, которым часто приходится заниматься профессиональным поиском в Интернете, сходятся во мнении, что лишь использование нескольких поисковых машин может дать результат, претендующий на полноту ответа на вопрос. Одна поисковая система не способна справиться с подобной задачей. Связано такое положение вещей с тем, что, во-первых, поисковые роботы физически не успевают угнаться за стремительно растущим Интернетом, а во-вторых, с тем, что у разных поисковых машин – разные алгоритмы обработки собранной информации, а значит, и разные результаты этой обработки.
   Как следствие, нет и не может быть полного совпадения результатов поиска, особенно когда речь идет о редком запросе.
   Например, поиск во всех трех системах точной фразы (фрагмента песни) «дым, дым в твоих глазах» дал на момент написания статьи такие результаты:
   Запрос:
   [ «дым, дым в твоих глазах»]
   Результат:
   Яндекс: Результат поиска: страниц – 0
   Гугл: Не найдено ни одного документа, соответствующего запросу «дым, дым в твоих глазах».
   Рамблер: Вы искали: «дым, дым в твоих глазах», найдено сайтов: 1, документов: 1
   Результат этого поиска можно увидеть здесь:
   Это не значит, что Рамблер лучше всех. Знать заранее, в какой поисковой системе и что именно удастся найти, невозможно. В этом смысле показателен пример с поиском фразы – фрагмента редкой песни: «аэропорт аэропорт ночное зарево огней».
   Запрос:
   [ «аэропорт аэропорт ночное зарево огней»]
   Результат:
   Яндекс: Результат поиска: страниц – 133, сайтов – не менее 4.
   http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Yandex.html Гугл: Результаты 1–6 из примерно 32 для «аэропорт аэропорт ночное зарево огней».
   Рамблер: Не найдено ни одного документа, полностью соответствующего запросу «„аэропорт аэропорт ночное зарево огней“». http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Rambler.html
   Итак, перейдем к рассмотрению работы с Рамблером. Основу этой работы составляет раздел «Помощь», расположенный по адресу: http://www.rambler. ru/doc/help.shtml – и форма расширенного поиска, находящаяся по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www.
   1. Какие ресурсы Рамблер индексирует.
   По утверждению создателей системы, Рамблер индексирует сайты, размещенные в следующих доменах первого уровня:
   Российская Федерация:.ru,su
   Украина:.ua
   Белоруссия:.by
   Казахстан:.kz
   Киргизия:.kg
   Узбекистан:.uz
   Грузия:.ge
   Сайты, находящиеся в других доменах, поисковик игнорирует.
   Для тех, кто хочет, чтобы их сайт, расположенный в другой доменной зоне, был проиндексирован Рамблером, эта поисковая машина оставляет небольшую надежду на успех.
   Если Ваш сайт находится вне названных доменов (например, в зонах. com,org,net), но существенная часть сайта содержит русскоязычные материалы или, по Вашему мнению, он может представлять интерес для русскоязычной аудитории Рамблера, Вы можете отослать письмо на адрес search.support@rambler-co.ru с просьбой включить Ваш сайт в число сканируемых, либо заполнить форму обратной связи. Наши сотрудники рассмотрят эту просьбу и примут решение о целесообразности такого включения.
   Кроме того, Рамблер утверждает, что «умеет извлекать гиперссылки из объектов Macromedia Flash», но не индексирует непосредственно сами тексты flash-объектов. Для таких технически продвинутых сайтов специалисты поисковой системы советуют создавать HTML-копию.
   2. Поддержка морфологии слов.
   По умолчанию, Рамблер поддерживает морфологию слов. Отключение поддержки морфологии предусмотрено, но требует использования специального оператора – слово должно быть взято в кавычки.
   Наш эксперимент подтвердил, что система морфологию слов действительно поддерживает.
   3. Скобки.
   Рамблер позволяет использовать скобки для группировки слов и применения ко всем словам, расположенным в скобках, одного оператора, который пишется перед скобкой. В этом описываемая в данном разделе система ничем не отличается от Яндекса, поэтому подробнее применение скобок мы рассматривать не станем.
   4. Транслитерация.
   Люди довольно часто делают ошибки при вводе текста и вместо русских букв печатают их английских «близнецов». Например, букву «с». Рамблер говорит, что старается исправлять такие огрехи, однако не гарантирует результата.
   Эксперимент показал, что система действительно справляется с опечатками транслитерации, если количество таких ошибок в слове невелико. Убедитесь сами.
   Запрос (все буквы русские):
   [ «глОКлАя кУздРА»]
   Результат: Вы искали: «глОКлАя кУздРА», найдено сайтов: 5, документов: 37.
   Запрос (заглавные буквы – латинские):
   [ «глOKлAя кYздPA»]
   Результат: Не найдено ни одного документа, полностью соответствующего запросу ««глOKлAя кYздPA»».
   Запрос (заглавные буквы – латинские):
   «глOклая куздPа»
   Результат: Вы искали: ««глOклая куздPа»», найдено сайтов: 5, документов: 37.
   Чтобы не загружать читателя лишними примерами, скажем лишь, что при трех опечатках правильный поиск еще проводился, но после появления четвертой неправильно написанной буквы результат поиска стал нулевым. Рамблер в комментариях к результату поиска в этом случае просто порекомендовал пользователям быть внимательнее при вводе текста.
   5. Регистр букв.
   Как правило, Рамблер не учитывает регистр букв, причем он распространяет это правило не только на слова запроса, но и на операторы.
   Действительно, запросы «глоклая куздра» и «ГлоКЛаЯ КУздРа» дали одинаковые результаты.
   Запрос:
   [ «глоклая куздра»]
   Результат: Вы искали: «„глоклая куздра“«, найдено сайтов: 8, документов: 45
   Запрос:
   [ «ГлоКЛаЯ КУздРа»]
   Результат: Вы искали: «„ГлоКЛаЯ КУздРа“«, найдено сайтов: 8, документов: 45
   Однако Рамблер сообщает, что он делает исключение из этого правила: если в запросе, как минимум, два слова, идущих подряд, написаны с заглавной буквы, система, как утверждают ее создатели, старается искать эти слова также с заглавной буквы. То есть, Рамблер пытается помочь тем, кто ищет имена собственные или географические названия.
   Проведенный нами эксперимент этого не подтвердил.
   Запросы:
   [слава зайчиков] и [Слава Зайчиков]
   выдали в Рамблере одинаковое количество страниц в выдаче.
   Вы искали: слава зайчиков, найдено сайтов: 813, документов: 2621
   Вы искали: Слава Зайчиков, найдено сайтов: 815, документов: 2621.
   Это похоже на результаты Гугла, который не различает заглавные и прописные буквы:
   Результаты 1 – 10 из примерно 138 000 для слава зайчиков
   Результаты 1 – 10 из примерно 138 000 для Слава Зайчиков.
   Тогда как в Яндексе, который различает заглавные и прописные буквы, результат был иным:
   Запрос: [слава зайчиков]
   Результат поиска: страниц – 403, сайтов – не менее 173.
   Запрос: [Слава Зайчиков]
   Результат поиска: страниц – 64, сайтов – не менее 33.
   Совершенно идентичные предыдущим результаты были получены и на запросах из трех слов:
   [одна баба сказала] и [Одна Баба Сказала]
   Результат: Вы искали: одна баба сказала, найдено сайтов: 42056, документов: 619112
   Результат: Вы искали: Одна Баба Сказала, найдено сайтов: 42054, документов: 619112.
   6. Стоп-слова и оператор «кавычки».
   Подобно Яндексу, Рамблер при обработке запроса может проигнорировать стоп-слова. Авторы системы утверждают, что для принудительного включения указанных элементов (или каких-либо других, подобных им) в выдачу, нужное слово следует заключить в кавычки.
   Эксперимент расставил акценты иначе. Стоп-слова, независимо от того, закавычены они или нет, одинаково попадают в выдачу.
   А вот остальным словам (не входящим в список стоп-слов), которые необходимо в обязательном порядке включить в выдачу, кавычки действительно обеспечивают обязательное включение в результат. Это эквивалентно оператору «плюс» в Яндексе и Гугле.
   Вы искали: «с» пингвином, найдено сайтов: 15468, документов: 166651
   Вы искали: с пингвином, найдено сайтов: 15468, документов: 166651.
   Вы искали: «the» apple please, найдено сайтов: 2700, документов: 16047
   Вы искали: the apple please, найдено сайтов: 2700, документов: 16047.
   Пример работы кавычек в иных случаях, а не только со стоп-словами, приведен в следующем разделе – Логическое «И».
   Кроме того, как мы уже говорили, кавычки могут выступать аналогично оператору «восклицательный знак» в Яндексе. Слово, указанное в запросе в кавычках, будет присутствовать в результатах поиска лишь в той форме, в которой вы его зададите.
   7. Логическое «И».
   Как и в Яндексе с Гуглом, роль логического «И» в Рамблере выполняет пробел. В принципе, можно ввести вместо пробела слово AND, но на практике, по вполне понятным причинам, так обычно не делается.
   Подобно Яндексу, Рамблер достаточно вольно обращается со словами, которые соединены пробелом – он может легко выдать не только те документы, где присутствуют ВСЕ слова запроса, но и те, где на одно-два слова меньше.
   В этом можно убедиться, сравнив два запроса:
   [кошки собаки верблюды зебры носороги]
   Вы искали: кошки собаки верблюды зебры носороги, найдено сайтов: 42, документов: 296
   и
   [ «кошки» «собаки» «верблюды» «зебры» «носороги»]
   Вы искали: «кошки» «собаки» «верблюды»…, найдено сайтов: 9, документов: 53
   Во втором случае все без исключения элементы запроса принудительно включены в выдачу – за счет кавычек, поэтому документов в выдаче значительно меньше.
   8. Логическое «ИЛИ».
   Написание этого оператора приспособлено как для любителей Яндекса, так и для тех, кто предпочитает работать с Гуглом.
   Как и в Яндексе, в Рамблере логическое «ИЛИ» может быть представлено вертикальной чертой |.
   Для тех, кто привык к логическому «ИЛИ» Гугла, данная система предоставляет возможность пользоваться также оператором OR.
   Приоритета нет ни у одного из этих двух указанных вариантов.
   Наример:
   Вы искали:
   дуоденогастрэктомия OR циклопентанпергидрофенантрен,
   найдено сайтов: 266, документов: 813.
   Вы искали:
   дуоденогастрэктомия | циклопентанпергидрофенантрен,
   найдено сайтов: 266, документов: 813
   9. Логическое «НЕ».
   Логическое «НЕ» в Рамблере похоже на таковое в Гугле и распространяется на весь документ. Сузить запрос, подобно Яндексу, до предложения, эта система не позволяет. Записывается логическое «НЕ» как NOT.
   Запрос: [журавль]
   Вы искали: журавль, найдено сайтов: 43085, документов: 554542
   Запрос: [журавль NOT колодец]
   Вы искали: журавль NOT колодец, найдено сайтов: 41447, документов: 528644
   Запрос: [журавль NOT (колодец | птица)]
   Вы искали: журавль NOT (колодец | птица), найдено сайтов: 33059, документов: 390789
   Запрос: [журавль NOT (колодец | птица | «журавль»)]
   Вы искали: журавль NOT (колодец | птица | «журавль»), найдено сайтов: 23824, документов: 225549
   Запрос: [журавль NOT (колодец | птица | «журавль» | «журавлей»)]
   Вы искали: журавль NOT (колодец | птица | «журавль» | «журавлей»), найдено сайтов: 21197, документов: 192387
   10. Стемминг (а также wildcard).
   Рамблер НЕ поддерживает ни стемминг, ни вилдкард.
   11. Поиск с заданным расстоянием.
   Рамблер не очень качественно поддерживает поиск с расстоянием, несмотря на то, что его «Помощь» утверждает обратное.
   Рамблер говорит о том, что когда он ищет слова «в документе», то он реально ищет их на расстоянии не более 40 слов друг от друга. Это, конечно, не поиск с расстоянием, а скорее ограничение расстояния, но, по крайней мере, это прямо заявленное ограничение.
   Однако при этом Рамблер утверждает, что уменьшить расстояние в 40 слов можно. Запрос, при котором слова должны находиться рядом, в «Помощи» выглядит так:
   [2, красная армия]
   Интересно, что при проверке этого утверждения мы обнаружили, что поисковик, похоже, – рекордсмен по числу сайтов, которые можно реально открыть в результатах запроса. Так, в случае с запросом про «красную армию» Рамблер показал более двух с половиной тысяч сайтов и был готов демонстрировать их и дальше, если бы мы не прекратили свой эксперимент.
   Результат можно увидеть по адресу:
   Еще нам показался необычным (и неудобным) способ перехода к следующей группе сайтов в результатах выдачи. Так, если в Яндексе можно уйти, например, на 20-ю страницу выдачи, после чего внизу страницы с результатами последней доступной для просмотра в группе страниц станет 30-я, то в Рамблере для того, чтобы эта 30-я страница стала видна, требуется сначала выбрать переход к следующей группе сайтов вверху страницы, под строкой с запросом, и только после этого можно выбрать последнюю страницу следующей группы сайтов и перейти на нее. Подобная организация перехода в два приема совершенно непонятна. Однако вернемся к непосредственным результатам запроса
   [2, красная армия], —
   который, согласно хэлпу Рамблера, должен рассматривать цифру «2» как служебную информацию о расстоянии между словами, и выдавать результаты, где слова «красная» и «армия» находятся рядом.
   Наше внимание привлекло то, что цифра «2», которая в поиске должна была играть роль элемента оператора запросов, в выдаче обозначалась как слово, релевантное искомому.
   Чтобы не пролистывать результаты по «красной армии» до 47-тысячного сайта, мы попробовали испытать поиск с расстоянием, как он описан в разделе «Помощь», на другом запросе и не полчили положительного результата. Для того чтобы провести такую работу, мы взяли за основу фразу из песни: «Майскими короткими ночами, отгремев, закончились бои».
   Запрос: [2, «майскими» «ночами» +отгремев]
   Вы искали: 2, «майскими» «ночами» +отгремев, найдено сайтов: 48, документов: 293.
   В выдачу попали документы, не содержащие слова запроса непосредственно рядом друг с другом, более того, цифра «2» опять оказалась рассмотрена в качестве части введенного в поисковую строку выражения:
   Фотографии, рекомендованные автором Roman Mezenin:: Галерея:: Клуб Foto.ru
   … Портрет Комм. 6 / Рек. 2 Майскими короткими ночами / отгремев, закончились бои
   05.06.2005 – 26 Kb – http://www.club.foto.ru/gallery/photos/recommended… – Восстановить текст – Найти похожие – Рубрика: Фото
   Морской интернет-клуб
   Майскими короткими ночами, Отгремев, закончились бои. Где же вы теперь, друзья – однополчане, Боевые спутники мои? Страницы: 1 2 3 4 5 6 7
   18.10.2005 – 10 Kb – http://randewy.ru/pes/stol2.html – Восстановить текст – Найти похожие.
   Остальные операторы Рамблера вынесены в «Форму расширенного поиска», расположенную по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www.
   11.1. Поиск в заголовках страниц (<title>).
   Этот оператор, существующий в Яндексе и Гугле как самостоятельный, в Рамблере тоже есть, но в «Помощи» системы он не указан и найти его нам удалось лишь в «Форме расширенного поиска».
   Ссылка на форму расширенного поиска находится непосредственно справа от поисковой строки Рамблера.
   11.2. Поиск ссылающихся страниц (link).
   Этот оператор также встретился нам только в «Форме расширенного поиска».
   Возможность использования его на практике проверена. Работает.
   12. Язык документа.
   Принудительное назначение конкретного языка документа возможно в «Форме расширенного поиска». При этом Рамблер предлагает на выбор один из трех языков: русский, украинский или английский.
   По умолчанию в поле выбора языка отмечен вариант «любой».
   13. Формат документа.
   Выбор форматов, как и языков, по современным меркам не впечатляет. Предлагаются HTML, Word (.doc) и Adobe Acrobat (.pdf).
   14. Дата документа.
   Рамблер, подобно Яндексу, предлагает интересную возможность выбора даты в «Форме расширенного поиска», но если Яндекс, помимо конкретного диапазона с датами, позволяет выбрать, скажем, «последние 2 недели» или «последний год», то в Рамблере можно провести выборку лишь в конкретном временном диапазоне.
   15. Поиск на определенном сайте.
   Представлен строкой в «Форме расширенного поиска» с названием: «Искать документы только на следующих сайтах:».
   Таким образом, на наш взгляд, Рамблер представляет определенный интерес для поиска страниц, когда требуется полнота выборки, но чаще эта поисковая система выполняет роль «запасного игрока» – на тот случай, если запросы, введенные в Яндекс и Гугл, не дадут желаемых результатов.
   Сам Рамблер, похоже, с этим смирился и не стремится каким-либо образом менять ситуацию, о чем косвенно свидетельствует довольно бедный набор возможностей настройки запроса.
   Однако порой система может быть весьма полезна, что вновь и вновь подтверждается практикой.

Визуальный поисковик Quintura Search

   Наряду с рассмотренными выше поисковыми машинами, существует довольно необычный продукт – визуальный поисковик. Примером такой системы служит бесплатная программа Quintura Search. Вы можете выбрать поисковую машину, на которой будет основываться дальнейший поиск (на момент написания книги в дистрибутив по умолчанию входили Яндекс, Google и Рамблер, но на сайте программы можно было добавить плагины, позволяющие пользоваться практически любым известным поисковиком). Затем вы получаете результаты в виде слов, расположенных вокруг ключевого понятия. Справа от этого круга расположены непосредственно результаты поисковых запросов по этим словам. При наведении курсора на какое-то одно из них, результат в правом окне меняется – он содержит те ключевые слова, на которые наведен курсор.
   Так, например, если ввести слово «электровоз», то в правом окне появятся сайты, которые Яндекс выдает в ответ на этот запрос. Вокруг него размещены слова, которые встречаются рядом с ним в системе – такие, как «грузовой», «постоянный», «контактный», «купить» и другие. Это видно на рис. 3.
   При наведении курсора на любое из этих слов справа появляются дополнительные слова, и в левой части окна программы запроса набор их также меняется (рис. 4).
   Вот как характеризуют программу Quintura Search специалисты, которые ее создали.
   Quintura Search ищет так, как ищут люди. Теперь поиск в интернете – это уже не просто поиск слов запроса, это визуализированный поиск с учетом контекста запроса, а также группировка результатов, визуализация и управление контекстом.
   Quintura Search предлагает для уточнения смысла запроса использовать термины (подсказки), которые по смыслу связаны со словами запроса

Невидимый Интернет

   Феномен невидимого Интернета и принципы работы с ним детально описаны в лучшей, на наш взгляд, книге по этому вопросу Криса Шермана и Гэри Прайса «Невидимый Интернет».
   Видимый Интернет – это та часть ресурсов, содержимое которой может быть обнаружено с помощью поисковых машин. К Невидимому Интернету относятся ресурсы, которые существуют в Глобальной Сети, и к которым можно получить доступ, если знать, где эти ресурсы находятся. Однако с помощью поисковых машин найти содержимое ресурсов Невидимого Интернета нельзя.
   По мнению разных авторов, к видимому Интернету относится порядка 20–30 % содержимого Сети. Самые смелые источники указывают другую цифру – не более 50 %. Таким образом, можно утверждать, что невидимый Интернет – это основная часть ресурсов, доступных онлайн.

Причины существования невидимого Интернета

   Невидимый Интернет существует в силу целого ряда причин, как технического, так и организационного характера.
   Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, главное – обнаружить содержимое страницы. Некоторые виды контента не индексируются информационными системами потому, что «пауки» сознательно настроены так, чтобы игнорировать те или иные адреса.
   К каким-то ресурсам доступ ограничили сами владельцы страниц.
   А некоторые страницы имеют такой формат, который пока еще не поддерживается поисковыми машинами.
   Вот что говорят о невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс.
   Парадокс невидимого Интернета в том, что легко понять, почему он существует, но трудно точно его определить в конкретных, специфических терминах.
   Невидимый Интернет трудно точно определить и классифицировать по нескольким причинам.
   1. Большинство страниц невидимого Интернета могут быть проиндексированы технически, но не индексируются, потому что поисковые системы решили их не индексировать. Это очень важный момент для невидимого Интернета – что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т. к. они были заблокированы.
   Есть много причин, почему так происходит. Если поисковик изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета.
   2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть – нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета.
   Некоторые сайты могут быть проиндексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным – например, по причине стоимости или потому, что данные настолько короткоживущие, что индексировать их просто бессмысленно – например, прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т. п.
   Мы рассмотрим каждую из основных причин существования невидимого Интернета более подробно.

Ограничения возможностей поисковых машин

   1. Физические ограничения скорости. Информационные системы имеют физические ограничения по скорости поиска новых страниц. Скажем так, скорость, с которой сегодня паук пытается найти новые страницы, оказывается ниже, чем скорость появления новых страниц. Ежесекундно идет негласное соревнование:
   в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.
   2. Поиск информации – мероприятие довольно дорогостоящее. Содержание сер веров, обеспечение подключений пользователей, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – все это требует немалых затрат.
   Понимая, что проиндексировать все документы в Сети не реально, а расходы надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, лимитируют глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые ресурсы, на которые никто никогда не ходит, либо регламентируют частоту их повторных посещений пауком, в результате чего часть страниц устаревает.
   В любом случае, когда принимается решение о вводе ограничений на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, чего, однако, сделано не было.
   Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим по полноте охвата информационными системами.
   3. Принцип попадания страниц в индекс при помощи пауков.
   Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо по которым делались запросы в поисковые системы с целью уточнения рейтинга страницы в поисковой системе, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» («Add URL»). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.
   Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями ресурс изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.
   Таким образом, существуют две задержки по времени в индексировании страниц: когда сайт создан, но еще неизвестен поисковику, и когда паук проиндексировал страницу, но не посетил ее повторно.
   4. Необычные слова на странице, интересующей пользователя.
   Страница, которая нужна пользователю, может содержать слова, отличные от тех, которые он, вероятнее всего, введет в поисковую строку. В результате, человек, не обладающий большим опытом поиска информации в Интернете, не сможет найти нужную страницу с помощью поисковой машины.
   5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.
   Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковые системы обычно сориентированы их владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.
   Хотя бывают исключения из этого правила. Существуют специализированные поисковики, которые добывают информацию, копая вглубь и напрочь отметая критерий скорости ее нахождения. Но они при этом «ходят» лишь на тематические сайты. Примером такой специализированной системы может служить, по информации Гэри Прайса Law Crawler (http://lawcrawler.lp.findlaw.com/) или Politicalinformation.com (http://www.politicalinformation.com).
   6. Ориентация поисковых машин на поиск текстов в разных вариантах.
   Поисковые машины изначально сориентированы на поиск текстов. На раннем этапе развития Интернета – представленных в формате HTML, после чего стали добавляться и другие их разновидности – Word (.doc), Adobe Acrobat (.pdf), Flash. Однако и эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.

Типы контента в невидимом Интернете

   Разные типы контента по разным причинам могут стать частью невидимого Интернета.
   1. Быстрое устаревание или изменение информации.
   Некоторые виды информации устаревают или меняются столь стремительно, что пауки просто не в состоянии ее проиндексировать своевременно. При этом часто владельцы поисковых систем вообще не пускают спайдеров на такие страницы, дабы не тратить ресурсы на бесполезное занятие.
   Примером такого контента может служить сайт о погоде в реальном масштабе времени.
   2. Ресурсы состоят преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами.
   Как, скажем, страница, содержание которой ограничивается одним лишь изображением.
   3. Содержимое страницы генерируется по запросу и формируется пошагово.
   Примером в данном случае может служить ресурс, на котором осуществляется расчет цены автомобиля, в зависимости от комплектации и материала отделки салона. Для получения такой страницы пользователь пошагово заполняет формы на сайте, и конечный результат каждый раз формируется заново. Содержимое такой страницы не может быть проиндексировано по той простой причине, что без запроса страницы не существует, а заполнять формы паук не умеет.
   4. Содержимое баз данных.
   Результат из базы данных также появляется лишь после ввода определенного запроса в форму обращения к ней. Паук, как и в предыдущем случае, не может ни заполнить форму запроса, ни проиндексировать содержимое самой базы.
   5. Страница не вводилась в форму добавления сайта, не вводилась ни в какие формы проверки рейтинга на поисковых системах и при этом на нее не ведут никакие ссылки.
   Паук никоим образом не может узнать о существовании подобной страницы, а потому никогда ее не посетит.
   Эти страницы, кстати, могут представлять большой интерес для конкурентной разведки, поскольку на практике известны случаи, когда на них содержались эксклюзивные предложения для некоторых клиентов. Информация такого рода ориентирована на целевые группы и выкладывается на сайте, клиентам же присылаются ссылки на нужные страницы. Последние представляют бесценную находку для компаний, работающих на рынках с высокой конкуренцией, поскольку содержат ответ на вопрос о том, по каким ценам соперник реально продает свою продукцию.
   Мы сталкивались с ситуацией, когда компания смогла вычислить алгоритм составления адресов таких страниц конкурентом, после чего была долгое время в курсе всех его специальных предложений – до момента смены системного администратора конкурента.

Примеры поведения поисковой машины при посещении страницы в Интернете

   Придя на страницу, паук первым делом определяет, есть ли на сайте что-либо, что его владелец запрещает индексировать.
   Подобный запрет может быть реализован двумя способами. Первый заключается в том, что на сайте создается специальный файл robots.txt либо используется особый тег – так называемый, метатег <noindex>. В этот файл или под метатег «прячут» содержимое страницы, которое, по мнению владельца контента, не должно индексироваться поисковыми машинами.
   Единственное отличие между ними состоит в том, что <noindex> работает на той странице, на которой он расположен, тогда как robots.txt может быть использован с целью предотвращения индексации любых отдельных страниц, групп файлов или даже всего веб-сайта.
   По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.
   На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега <noindex> потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.
   Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.
   После того, как паук попал на страницу, которая не защищена паролем и не внесена в список запрещенных, события развиваются по-разному, в зависимости от того, что на этой странице находится. Рассмотрим возможные их варианты, а также попытаемся понять, к видимому или к невидимому Интернету эти варианты относятся (по Крису Шерману и Гэри Прайсу).
   Вариант 1. Паук обнаруживает страницу, написанную в HTML и содержащую графические элементы.
   В таком случае паук может проиндексировать лишь название графического файла, и тогда такой документ будет найден при поиске картинок по ключевому слову, совпадающему с тем, которое есть в названии. Если имя файла не имеет ничего общего с его наполнением, он не сможет быть найден поисковой машиной, даже если будет содержать фотографию с изображением ключевого слова.
   Вариант 2. Паук внутри сайта столкнулся со страницей, которая написана на HTML, но содержит поля, требующие заполнения пользователем – например, ввода логина и пароля.
   В этом случае есть техническая возможность индексирования содержимого, но только того, к которому имеется доступ. Спрятанная под пароль часть страницы не может быть просмотрена и, как следствие, не может быть проиндексирована спайдером.
   Здесь наиболее часто встречаются два варианта. Первый: допустим, на сайте лежат готовые к просмотру страницы, на которые существуют ссылки в Интернете (например, фраза: «Я недавно интересную статью прочитал, она находится здесь:» – и далее следует прямой адрес статьи). В этом случае страница с формой, требующей заполнения, создана лишь для того, чтобы пользователь мог выбрать нужный ресурс из имеющихся. Текст на странице с формой будет виден пауку и проиндексируется, а сами страницы, на которые ведет форма, индексируются «в обход» процедуры ее заполнения, в другое время и, возможно, другим пауком, за счет ссылок на внутренние страницы сайта из других источников. В таком случае и страница с формой, и внутренние страницы будут относиться к видимому Интернету.
   Во втором варианте форма собирает информацию, на основании которой впоследствии создается необходимая пользователю страница. То есть, никакой внутренней страницы просто не существует до тех пор, пока форма не будет заполнена. Паук этого сделать не может. Данные, которые находятся внутри такого сайта, не могут быть получены никаким иным путем, кроме как посредством заполнения формы, а потому всегда относятся к невидимому Интернету.
   Вариант 3. Паук приходит на сайт, содержащий динамические данные, меняющиеся в реальном масштабе времени.
   К таким сайтам относится биржевая информация или, скажем, сведения о прибытии авиарейсов (рис. 2). Эти ресурсы обычно причисляют к невидимому Интернету, но не потому, что их технически нельзя проиндексировать, а потому, что их индексация не имеет практического смысла.


   Рис. 2. Пример мониторинга движения рейсов на сайте www.airagency.ru

   Вариант 4. Паук попадает на страницу, которая содержит текст в формате, не поддерживаемом данной поисковой машиной.
   Например, Рамблер, как мы уже говорили, не поддерживает документы Power Point (.ppt). Ряд поисковых машин не индексируют документы в Postscript-файлах (это формат, в котором могут сохраняться для передачи в типографию файлы, созданные в программе Microsoft Publisher). До недавнего времени к таким форматам относился и PDF, однако сначала Гугл, а за ним и остальные поисковые машины стали индексировать подобные документы. Первоначально ограничение в работе с PDF-файлами было обусловлено тем, что на каждый новый формат приходилось расходовать дополнительные средства, распространенность же PDF-файлов вначале была невелика. Однако, по мере того, как правительственные организации многих стран стали выкладывать в Интернет документы именно в этом формате, поисковые машины начали с ним работать.
   

notes

Примечания

1

   Артур Вейс, в личной беседе, из неопубликованного, 2006 г.

2

   Price G., Sherman С. The Invisible Web: Uncovering Information Sources Search Engines Can't See. CyberAge Books, 2001.

3

   http://community.livejournal.com/kubok/45852.html.

4

   http://help.yandex.ru/search/
Купить и читать книгу за 69 руб.

Вы читаете ознакомительный отрывок. Если книга вам понравилась, вы можете купить полную версию и продолжить читать