Главная страница «Первого сентября»Главная страница журнала «Библиотека в школе»Содержание №3/2009

Александр Дуванов

Часть II. Поиск информации

Продолжение. Начало читайте, пожалуйста, в номере 19, 20, 21, 23, 24–2008, 02–2009.


Обязательное включение нескольких слов

Элементы языка запросов: знак & (уровень предложения) и знаки && (уровень документа).

Если нужен документ, в котором обязательно присутствуют несколько ключевых слов, в запросе они соединяются знаком & (слова обязаны быть в одном предложении) или знаком && (слова обязаны быть в одном документе). Управляющие знаки отделяются от слов пробелами с обеих сторон.

Таким образом, по запросу:

Шарик & удивление & обморок

будет найден (среди прочих) документ, в котором присутствует предложение:

Шарик даже в обморок упал от удивления.

По запросу:

заметка && Федор && примета && сообщение

будет найден (среди прочих) документ с таким фрагментом:

– Надо заметку в газете напечатать, что пропал мальчик. Зовут дядя Фёдор. И все его приметы описать. Если кто увидит, пусть нам сообщит.

Вариант исключения объекта (уровень предложения и документа)

Элементы языка запросов: знак ~ (уровень предложения) и знаки ~~ (уровень документа).

Эти знаки (они обрамляются пробелами с обеих сторон) можно использовать в запросах следующего формата:

что искать ~ что исключить (уровень предложения)

что искать ~~ что исключить (уровень документа)

Пример из справочника Яндекса:

Если вы ищете информацию о г-же Кузькиной, то более информативные результаты даст запрос Кузькина ~ мать, который ищет страницы со словом Кузькина, исключая страницы, где в одном предложении с ним есть слово мать.

Пример из справочника Яндекса:

Если вы ищете информацию о Задорнове (но не министре), можете задать запрос Задорнов ~~ министр. Будут найдены все страницы, где есть слово Задорнов и нет слова министр.

Задание вариантов

Элемент языка запросов: знак |.

В простом запросе (без использования элементов языка) Яндекс считает наиболее релевантными документы, в которых встречаются все слова заданной ключевой фразы.

Но часто одни и те же вещи авторы называют по-разному. Например, педант пишет: «персональный компьютер», а минималист: «ПК».

Поиск на «персональный компьютер» не покажет статьи минималиста, а поиск на «ПК» – статьи педанта.

Знак | можно использовать в качестве логической операции ИЛИ для разделения возможных вариантов.

Так по запросу:

«персональный компьютер» | ПК

будут найдены статьи и педанта, и минималиста.

Комбинированные запросы

Элементы языка запросов: ( и ).

Разные конструкции языка можно применять в одном запросе, дополнительно используя круглые скобки для группировки.

Например, по запросу:

устройство & («персонального компьютера» | ПК) ~ продажа

будут найдены документы с описанием устройства персонального компьютера, в которых речь не идёт о продаже.

Пример из справочника Яндекса:

Если вы ищете описание мумие, но не хотите наталкиваться на прайсы Интернет-магазинов, можете задать такой запрос:

мумие && (лечение | лечебный | болезни) ~~ (цена | прайс | рубли | доллар | фирма | магазин)

Будут найдены все страницы, где есть слово мумие, а также любое из слов лечение, лечебный или болезни, и нет ни одного из слов, перечисленных после оператора ~~.

2.4.7. Популярные индексы

Ниже приводится краткое описание нескольких популярных индексов Интернета.

Яндекс

Адрес в Интернете: www.yandex.ru

Вид главной страницы (рис. II.74):

Рис.1

Рис. II.74. Вид главной страницы Яндекса

Адрес «облегчённого» варианта: www.ya.ru

На время написания материала – самый популярный индекс Рунета.

Яндекс – большой портал Рунета. В состав этой системы входят: каталог, индекс, специализированные поисковые службы (поиск товара, картинок, музыки, определений, карт, адресов…). Яндекс предлагает провайдерские услуги (почта, место под сайт), интернет-кошельки (Яндекс. Деньги), справочный материал разного характера (новости, погода, афиша, телепрограмма…).

Описание всех служб Яндекса можно найти на странице: www.yandex.ru/all_services.html

История Яндекса подробна описана на: company.yandex.ru/history

Google

Адрес в Интернете (вариант для России): www.google.ru

Вид главной страницы (рис. II.75):

Рис.2

Рис. II.75. Вид главной страницы Google

На время написания статьи  – один из самых популярных (если не самый популярный) индексов Интернета. И это несмотря на то что компания Google Inc. очень молода: она была основана в сентябре 1998 года Ларри Пейджем (американец) и Сергеем Брином (уроженец Москвы).

Сегодня Google абсолютный мировой лидер по объёму проиндексированных документов, быстроте обработки запроса и корректности ранжирования результатов поиска.

Google – это не только индекс. В арсенале системы: собственный каталог, поиск картинок, почтовая служба, списки рассылки (группы Google), географические интерактивные карты.

Группы Google: groups.google.com

Почтовая служба Google: mail.google.com

Интерактивные карты Google: maps.google.com

Следующие элементы языка запросов Google работают так же, как в Яндексе:

Элемент языка

Пример запроса

Описание

""

золотой теленок

Поиск точной фразы

+

+золотой теленок

Обязательное слово

-

-золотой теленок

Исключение слова

|

фото | фотография | снимок

Поиск страниц, содержащих любое из слов, связанных знаком |

Запросы нечувствительны к регистру символов.

Круглые скобки в запросе использовать можно, но на них Google (увы!) не обращает внимания.

Применение спецсимвола ~ дает Google команду искать не только указанное слово, но и его синонимы (которые Google для каждого слова подбирает самостоятельно).

Интересен спецсимвол *, который задаёт подстановку в запрос одного любого слова. Применяя знак несколько раз, можно задавать точные промежутки между частями поисковой фразы.

Так для запроса

«дерево * * * птичка»

подходит фраза:

Встало солнышко, лучи позолотили верхушки деревьев, захрюкали свиньи, запели птички.

но не подходит фраза:

Среди ветвей деревьев порхали птички.

Ещё одна интересная возможность: если перед словом (или фразой) в запросе записать define :, Google попытается найти страницы с определениями этого слова или фразы.

Так по запросу

define:язык программирования

будет найдена страница, содержащая определение:

Язык программирования – формальная знаковая система, предназначенная для описания алгоритмов в форме, которая удобна для исполнителя (например, компьютера).

Рамблер

Адрес в Интернете: www.rambler.ru

Рис.3

Вид главной страницы (рис. II.76):

Рис. II.76. Вид главной страницы Рамблера

«Минимальная» страница: www.r0.ru

Не так давно Рамблер был лучшим поисковым порталом Рунета. Сейчас индекс Рамблера существенно уступает индексу Яндекса, но Рамблер по-прежнему остаётся лучшим рейтингом Рунета.

По числу сервисов портал Рамблер не уступает, а даже превосходит портал Яндекс: индекс, рейтинг сайтов, рейтинг магазинов, почта, покупки, словари, географические карты, новости, спорт, погода, юридическая консультация, рассылки…

Все сервисы Рамблера: www.rambler.ru/all.shtml

Справочная служба Рамблера: help.rambler.ru

Язык запросов Рамблера поддерживает круглые скобки, кавычки и знак | в тех смыслах, что и Яндекс:

Аналогом указания Яндекса ~~ для Рамблера является ключевое слово NOT:

что искать NOT что исключить (уровень документа)

Знак ~ Рамблер использует в качестве логической операции И (обязательное включение), но указание относится к уровню документа, а не к уровню предложения, как в Яндексе.

Апорт!

Адрес в Интернете: www.aport.ru

Рис.4

Вид главной страницы (рис. II.77):

Рис. II.77. Вид главной страницы индекса Aport!

«Минимальная» страница: au.ru

Turtle

Адрес в Интернете: www.turtle.ru

Рис.5

Вид главной страницы (рис. II.78):

Рис. II.78. Вид главной страницы индекса Turtle

«Минимальная» страница: www.turtilla.ru

2.5. Метапоиск

Базы данных поисковых систем Интернета отличаются как по объёму, так и по содержанию. Кроме того, вычисление релевантности результатов выполняется по разным алгоритмам. Вот почему мощный Яндекс порой не выдаёт нужного результата (на обозримом количестве первых ссылок), а младший брат Апорт неожиданно выкладывает «горячую» информацию на первую страницу.

В сложных случаях приходится пользоваться услугами нескольких поисковых систем. Именно поэтому в Сети завоёвывают популярность поисковики нового типа: метапоисковые машины.

У этих поисковиков нет собственных баз данных. Они обращаются к «настоящим» поисковым системам (индексы, каталоги, рейтинги), переадресуя им запрос пользователя, а затем суммируют результаты, удаляя дублирующиеся записи и сортируя сводный список по релевантности.

Кроме метапоисковых систем в Сети существуют более простые мультипоисковые машины или мультипоисковые формы – они не объединяют результаты, полученные от поисковиков, а предлагают их для обозрения в отдельных окнах.

На рисунке II.79 показан интерфейс такой мультипоисковой системы xRambler.ru:

Рис.6

Рис. II.79. Вид главной страницы индекса xRambler.ru

Адрес в Интернете: xrambler.ru

Примеры популярных метапоисковых систем рассмотрим более подробно.

MetaBot

Адрес в Интернете: www.metabot.ru

Вид главной страницы (рис. II.80):

Рис.7

Рис. II.80. Вид главной страницы индекса MetaBot

Возможность явного задания набора поисковиков отсутствует.

Если выбран «русский» поиск, он выполняется при помощи серверов:

Для поиска по всему миру используются:

Система сортирует общий список результатов по релевантности, указывая для каждой записи, какими поисковиками она была найдена.

Немного удивляет, что в русском поиске отсутствует Яндекс, а в мировом – Yahоо и Google. Вероятно, это объясняется правовыми нормами. Скажем, компания Яндекс ограничивает подобное использование своего сервера:

Из лицензии на использование поисковой системы Яндекса:

Вы не имеете права делать автоматические запросы в Яндексе иначе как с соблюдением требований, изложенных в лицензии проекта Яндекс.XML, в частности, предварительно зарегистрировав IP-адрес вашего автомата. <...>

Яндекс позволяет бесплатно делать до 1000 XML-запросов в сутки для личного некоммерческого использования. Для задания большего количества запросов в сутки или коммерческого применения предусмотрено платное использование.

В дополнение к обычному поиску MetaBot поддерживает язык запросов, в котором присутствуют элементы, работающие так же, как в Яндексе:

Элемент языка

Пример запроса

Описание

" "

газета из рук в руки

Поиск точной фразы

+

карта + московской области

Обязательное включение объекта

-

+ отдых –отдых в турции

Исключение объекта

|

фото | фотография | снимок

Поиск страниц, содержащих любой из объектов, связанных знаком |

MetaBot утверждает, что использование этого синтаксиса приведёт к корректной переадресации запросов используемым поисковым системам.

Nigma

Адрес в Интернете: nigma.ru

Вид главной страницы (рис. II.81):

Рис.8

Рис. II.81. Вид главной страницы индекса Nigma

Есть возможность явно задать набор систем поиска.

В каждой результирующей записи присутствует ссылка на поисковики. Кроме того, для каждого запроса система создаёт мини-каталог, по разделам которого разносит найденные записи (кластеризация), – это очень удобно.

Например, по результатам запроса Дуванов Nigma «на лету» построила такой каталог (рис. II.82):

Рис.9

Рис. II.82. Каталог на слово «Дуванов»

 

Практикум

Представлены задания по темам:

Поиск на странице

Цель практикума: освоить поиск в документе на странице браузера.

Задание 1

Используя поисковые средства браузера, ответьте на вопросы по тексту повести Аркадия и Бориса Стругацких «Понедельник начинается в субботу». Страницу с текстом повести можно скопировать с адреса: lib.ru/STRUGACKIE/ponedelx.txt

Вопросы

1. Как звали человека, который первым сделал отверстие в камне? Как звали его детей? Как он погиб?

2. Какой инвентарный номер имел диван-транслятор по бумагам Модеста Матвеевича?

3. В каком месте города стоял Привалов, когда ему показалось, что он сидит на диване?

4. По заявке какого товарища из НИИЧАВО был приобретён диван-транслятор и как официально назывался этот прибор?

5. Одним сотрудником НИИЧАВО были найдены стихи, которые он расценил как определение понятия счастья. Найдите стихи, фамилию автора стихов и фамилию сотрудника, который нашёл эти стихи.

6. Почему Маги не любили воскресений и праздников?

7. Какое определение смысла жизни выдвинули Маги из НИИЧАВО?

Ответы

1. Питекантроп Аыуыхх; дети: самец Ад-Амм, самка Э-Уа; съеден пещерным медведем во время охоты. Возможный образец поиска: камн.

2. 1123. Возможный образец поиска: инвентарный.

3. Проспект Мира. Возможный образец поиска: диван.

4. По заявке товарища Бальзамо. Транслятор двухходовой ТДХ-80Е Китежградского завода. Возможный образец поиска: товарищ.

5. Автор стихов: Кристофер Лог. Сотрудник НИИЧАВО: Редькин Магнус Федорович. Возможный образец поиска: счастье.

6. Они любили свою работу. В воскресенье и в праздники им было скучно. Возможный образец поиска: воскресен.

7. Смысл жизни – в непрерывном познании неизвестного. Возможный образец поиска: смысл жизни.

 

Поиск на сайте

Цель практикума: освоить поиск информации на сайте.

Задание 1

На страницах сайта «Роботландия» найдите ответы на поставленные вопросы. Сайт «Роботландия»: http://www.botik.ru/~robot/

Вопросы

1. Сколько команд обучалось в Роботландском университете в 2001/2002 учебном году?

2. Кто нарисовал ASCII-символами собаку Герцог?

3. Сколько узлов в жукосети?

4. Кто по профессии мама Васи Кука?

5. В каком году вышло первое издание книги «Необычайные приключения Пети Кука в Роботландии»?

6. Кто такой Маг и какие преимущества он имеет на курсах Роботландского университета?

7. Что сказала Бердышева Юля из Благовещенска про обучение на курсах Роботландского университета?

Ответы

1. 275 команд. Где найдено: Роботландия/университет/история. Как найдено. В вопросе речь идёт об истории Роботландского университета, поэтому выбор страницы очевиден. На странице «история» находим ответ поиском по образцу 2001/2002.

2. Старкова Полина. Где найдено: Роботландия/Кук/собаки. Как найдено. После нескольких попыток находим страницу «собаки» в разделе «Кук». На странице «собаки» находим ответ поиском по образцу герцог.

3. 21. Где найдено: Роботландия/Кук/жук. Как найдено. После нескольких попыток находим страницу «жук» в разделе «Кук». На странице «жук» находим ответ в самом её начале.

4. Надежда Степановна Кук – учитель музыки. Где найдено: Роботландия/Кук/Куки. Как найдено. Выбор страницы «Кук» в меню главной страницы напрашивается сам собой. Далее – спуск в раздел «Куки» и поиск по образцу мам.

5. В 1993 году. Где найдено: Роботландия/история/статьи. Как найдено. Выбор страницы «история» в меню главной страницы очевиден. Самым подходящим потомком этой страницы является страница «статьи». Ищем ответ при помощи страничного поиска по образцу приключения.

6. Маг – это руководитель группы, которая когда-либо заняла в курсовом конкурсе Кукарачи или Корректора первое место. Где найдено: Роботландия/университет/курсы/маги и магистры. Как найдено. Сначала выбираем страницу «университет», затем страничным поиском ищем образец маг в каждой странице-потомке. В первом же потомке «набор» обнаруживаем ссылку «маги – бесплатно!». Переходим по этой ссылке и находим ответ на открывшейся странице.

7. «Кажется, что эту задачу решить просто невозможно, а потом каждый говорит то, о чём думает, появляется интересная мысль и вырисовывается ход решения. Это очень здорово – решать трудные задачи вместе. А сколько у всех радости, когда задача уже решена и Кукарача делает именно то, что мы хотим». Где найдено: Роботландия/университет/мнения/Евладова Н.В. Как найдено. Сначала выбираем страницу «университет», затем – «мнения». На странице «мнения» поиск по образцу Бердышев ничего не даёт. Тогда заходим в каждый потомок этой страницы и выполняем поиск. Ответ находится на странице «Евладова Н.В.».

Задание 2

На страницах сайта «Библиотека Мошкова» найдите ответы на поставленные вопросы. Библиотека Мошкова: lib.ru

Вопросы

1. Как звали персонажа повести Стругацких «Улитка на склоне», любимая присказка которого была «шерсть на носу»?

2. Почему дежурные механики из повести Стругацких «Улитка на склоне» играли в крестики-нолики, а трубку не слушали?

3. Кто автор следующих стихов и как называется жанр, в котором написаны эти стихи?

Я хризантемы,
Тронутые инеем,
Собрал бы все,
Если бы это было
В моих силах и власти.

4. Кто автор следующих строк и как называется стихотворение, из которого взят этот отрывок?

Как прекрасно – жить да жить,
Не боясь машины встречной,
Всем на свете дорожить,
Кроме жизни скоротечной!
Хорошо – ходить конём,
Власть держать над полным залом,
Не дрожать над каждым днём –
Вот уж этого навалом!

5. Кто автор следующих строк и как называется стихотворение, из которого взят этот отрывок?

Моя душа тоской объята.
Я потерял не клад богатый, –
Иная, тяжкая, утрата
Гнетет певца.
Меня любила, точно брата,
Моя овца.

6. Определите имена персонажей по отрывку из текста:

– Вещь, которую я сейчас прочитаю, – произнес он, – была написана специально для того, чтобы тебя развлечь.
<???> поняла, что придется ей его выслушать. Она села и грустно сказала:
– Спасибо.
Зимой, когда белы поля,
Пою, соседей веселя.
– Это так только говорится, – объяснил <???>. – Конечно, я совсем не пою.

Ответы

1. Кулак. Где найдено: www.lib.ru/STRUGACKIE/ulitka.txt Как найдено. Страница с повестью найдена поиском по сайту с образцом: Улитка на склоне. Далее поиск по странице при помощи браузера с образцом: шерсть.

2. Потому что ничего не было слышно. Механики провода перерезали. Где найдено: www.lib.ru/STRUGACKIE/ulitka.txt Как найдено. Страница с повестью найдена поиском по сайту с образцом: Улитка на склоне. Далее поиск по странице при помощи браузера с образцом: крестики.

3. Автор: Осикоти-но Мицунэ. Жанр: танка. Где найдено: www.lib.ru/JAPAN/japan100.txt Как найдено. Включаем полнотекстовый поиск и ищем на сайте по образцу Тронутые инеем. Затем на найденной странице ищем средствами браузера по прежнему образцу.

4. Юнна Мориц, «Хорошо – быть молодым!». Где найдено: www.lib.ru/POEZIQ/MORIC/stihi.txt Как найдено. Включаем полнотекстовый поиск и ищем на сайте по образцу Кроме жизни скоротечной! Затем на найденной странице ищем средствами браузера по прежнему образцу.

5. Роберт Бёрнс, «Элегия на смерть моей овцы, которую звали Мэйли». Где найдено: www.lib.ru/POEZIQ/burns.txt Как найдено. Включаем полнотекстовый поиск и ищем на сайте по образцу Иная, тяжкая, утрата. Затем на найденной странице ищем средствами браузера по прежнему образцу.

6. Приводится разговор Алисы с Шалтаем из повести Льюиса Кэрролла «Алиса в Зазеркалье» (перевод Н.Демуровой). Где найдено: www.lib.ru/CARROLL/alisa2.txt

 

Поиск в коллекциях ссылок

Цель практикума: освоить поиск информации при помощи коллекций ссылок.

Задание

Выполните задания при помощи коллекций ссылок, список которых приводится.

Коллекции ссылок

Вопросы

1. Найдите бесплатную программу для просмотра графических файлов в операционной системе Windows XP, наилучшую по оценкам пользователей.

2. Найдите почтовый адрес Медицинского института в городе Новосибирске.

3. Найдите телефонный код города Луховицы Московской области.

4. Найдите почтовый индекс города Рязани Рязанской области.

Продолжение читайте, пожалуйста, в следующем номере