AltaVista

Справка из http://altavista.telia.com/cgi-bin/telia?country=ru&lang=ru

Справка только для Сложных Запросов. Не для Простых Запросов!

Для построения Сложного Запроса используются операторы и синтаксические выражения. Правила для определения слов и фраз, использования в написании заглавных букв и универсальных символов, однако, те же, что и для Простых Запросов.

Использование бинарных операторов AND, OR, и NEAR, и унарного оператора NOT

kayak AND "San Juan Islands"
Оператор AND гарантирует, что оба аргумента присутствуют в найденных документах. Оператор AND образует менее жесткую связь, чем сопоставление.
"Digital Equipment Corporation" OR DEC
Оператор OR гарантирует, что хотя бы один из аргументов присутствует в найденных документах. Оператор OR образует менее жесткую связь, чем оператор AND.
Louis NEAR Monier
Оператор NEAR гарантирует, что аргументы отстоят друг от друга не дальше, чем на десять слов в выбранных документах. Оператор NEAR образует менее жесткую связь, чем оператор NOT и просмотр происходит справа налево. Данному запросу удовлетворяют Louis Monier , Louis M. Monier и Monier, Louis.
vegetable AND NOT "brussel sprouts"
Оператор NOT используется для исключения слов или фраз из запроса. Оператор NOT образует менее жесткую связь, чем оператор OR. Этому запросу равноценен следующий vegetable and (not "brussel sprouts"). Не используйте vegetable NOT "brussel sprouts"; это синтаксически неправильный запрос.


Примеры, показывающие, как важно использовать скобки

gold OR silver AND platinum
gold OR (silver AND platinum
(gold OR silver) AND platinum
Первые два запроса - равнозначны. Они возвращают документы, содержащие и слово silver, и слово platinum, вместе с документами, содержащими gold.
Если вам нужно найти документы, содержащие platinum и, кроме того, чтобы в каждом из них присутствовало либо слово gold, либо silver, Вы можете воспользоваться третьим образцом запроса.

not gold and silver
(not gold) and silver
not (gold and silver)
Первые два запроса - равнозначны. Они возвращают документы, содержащие silver, но не содержащие gold.
Если Вам нужно, чтобы по запросу исключались документы, содержащие как gold, так и silver, воспользуйтесь третьим образцом.

gold near silver and platinum
(gold near silver) and platinum
(gold near silver) and (gold near platinum)
Здесь первые два запроса - равнозначны. Они возвращают документы, содержащие слово gold, расположенное рядом с silver, и, кроме того, содержащие слово platinum.
Если требуется составить запрос для подбора документов, содержащих слово gold, расположенное рядом с silver, содержащих к тому же gold рядом с platinum, используйте третий образец запроса.

not gold near silver
not (gold near silver)
silver and not (gold near silver)
Первые два запроса - равнозначны. Они исключают из выборки все документы, содержащие слово silver, расположенное недалеко от слова gold.
Если Вы хотите сделать выборку документов, содержащих silver, но хотите исключить те, которые содержат слово gold, находящееся рядом с silver, используйте третий образец запроса.

gold near silver or platinum
(gold near silver) or platinum
Оба приведенные выше запроса - равнозначны. Они находят документы, содержащие слово gold, находящееся рядом со словом silver, вместе с документами, содержащими слово platinum.

gold near (silver or platinum)
(gold near silver) or (gold near platinum)
Оба эти запроса - равнозначны. Они находят документы, содержащие слово gold, находящееся рядом silver, вместе с документами, в которых слово gold расположено рядом с platinum.

Как осуществляется поиск: Сложные Запросы

Для упрощения последующего описания, мы будем называть поле ввода, помеченное как "Критерий Выбора" (Selection Criteria), полем поиска,, а поле, имеющее метку "Критерий упорядочивания результатов" (Results Ranking Criteria), назовем полем критерия..
Как AltaVista выполняет запросы
Обладая одним и тем же механизмом поиска, Простые Запросы и Сложные Запросы представляют различные интерфейсы. А поскольку это так, и Вы, возможно, будете удивлены, когда при определенных условиях явно идентичные запросы приведут к несколько различным результатам в зависимости от того, были ли они представлены как Простые или как Сложные.

Сравните, например, Простой Запрос, состоящий из одного слова plato, с тем же словом, указанным для Сложного Запроса, но без какого-либо упорядочивания. Точнее, этот последний запрос содержит слово plato в поле поиска, а поле критерия оставлено пустым. Каждый из этих двух запросов выберет "около 20000" документов, но упорядочены они будут в каждом случае по-разному.

Объяснение разницы в упорядочивании документов довольно сложное, но коротко говоря, AltaVista выполняет Простые Запросы как Сложные. Точнее, Простой Запрос вместе с группой слов для упорядочивания результатов преобразуется в булевское выражение.

В приведенном примере AltaVista выполнит Простой Запрос, состоящий из одного слова, plato, как Сложный Запрос с пустым полем поиска, и словом plato в поле критерия. Напоминаем, что в этом примере Сложный Запрос имел plato в поле поиска и пустое поле критерия; другими словами, эти два запроса не идентичны, а следовательно, и результаты будут упорядочены по-разному.

Если Вы готовите другой запрос, на этот раз со словом plato как в поле поиска, так и в поле критерия, результат упорядочивания выбранных документов будет также идентичен тому, который получился при Простом Запросе для слова plato.

Подводя итог, скажем, что все три следующие запроса выберут одни и те же документы, выстроенные в одинаковом порядке.

        Тип запроса           поля            Слово запроса 
      ============================================================
        Простой               только поиск         plato 
      ------------------------------------------------------------
        Сложный               поиск                 ---  
                              критерий             plato
      ------------------------------------------------------------
        Сложный               поиск                plato 
                              критерий             plato
      ------------------------------------------------------------
  
       
Следующий запрос представит Вам те же документы, что и предыдущие два, однако их порядок будет несколько другой.
       Тип запроса           поля            Слово запроса
      ============================================================
       Сложный               поиск               plato 
                             критерий             ---
      ------------------------------------------------------------



Как AltaVista упорядочивает документы при Сложных Запросах
Используйте поле ввода, помеченное как Критерий упорядочивания результатов, для ввода слов и фраз, которые определят порядок упорядочивания результатов поиска. Вспомните из предыдущего раздела, что упорядочивание при Сложном Запросе такое же, как и при Простом Запросе; в обоих случаях используется один и тот же алгоритм оценки и присвоения баллов. Документы с высоким баллом стоят в начале списка. Высокие баллы получает документ, в котором выбранное в качестве критерия слово появляется среди первых нескольких слов (например, в названии Web-страницы или в заголовке), или это слово встречается в нем более одного раза.

Вот пример запроса, выполняющегося с неопределенным значением в поле критерия.
      Поле поиска           (gold near silver) and platinum
      Поле критерия         
      Результат             2000 документов найдено и расположено 

                            без определенного порядка.
   
2000 найденных документов будут содержать слово gold, находящееся рядом со словом silver и, кроме того, в каждом из этих документов будет слово platinum. Если теперь Вы зададите слово platinum для упорядочивания результатов поиска, то получите, как Вы возможно и ожидали, те же 2000 документов, но расположенные так, что те, которые получили наивысший балл по запросу platinum будут стоять в списке первыми.

      Поле поиска           (gold near silver) and platinum
      Поле критерия         platinum
      Результат             2000 документов найдено и упорядочено так, что
                            имеющие больше баллов для слова

                            platinum стоят первыми. 
     
Возможно, Вы захотите продолжить дальше. Предположив, что документы, содержащие названия этих металлов, содержат также и ссылки на другие металлы, Вы, возможно, захотите найти их. Но обратите внимание, что произойдет теперь с результатами поиска.
      Поле поиска            (gold near silver) and platinum
      Поле критерия          palladium
      Результат              200 документов найдено
В этом случае по Сложному Запросу не были показаны 2000 документов, которые были найдены и упорядочены так, что только те из них, в которых упоминается palladium, поставлены первыми. После второго уровня фильтрации результатов поиска, 1800 документов, в которых не упоминалось слово palladium, были отброшены. Иначе говоря, если поле критерия не пусто, документы, не содержащие ни одного из слов, находящихся в нем, отбрасываются.

Ограниченные поиски

Существует возможность ограничить поиски определенной частью документов, используя специальный синтаксис. Ключевое слово (ссылка, заголовок, изображение, ...) должно содержать в написании только строчные буквы; сразу после него должно стоять двоеточие.

Ограниченный поиск в Web-страницах:

anchor:click-here
Подбирает страницы, содержащие фразу click here в тексте гиперссылки.
applet:NervousText
Подбирает страницы, содержащие название класса Java applet, обнаруженное в метке applet; в данном случае, NervousText.
host:digital.com
Подбирает страницы, содержащие фразу digital.com в имени хоста Web-сервера.
image:comet.jpg
Подбирает страницы, содержащие comet.jpg в признаке изображения.
link:thomas.gov
Подбирает страницы, имеющую хотя бы одну ссылку на страницу, содержащую thomas.gov в своем URL.
text:algol68
Подбирает страницы, содержащие слово algol68 в любой части видимого текста страницы (т.е., например, слово найдено не в ссылке или не в изображении)
title:"The Wall Street Journal"
Подбирает страницы, содержащие фразу The Wall Street Journal в заголовке.
url:home.html
Подбирает страницы, содержащие слова home и html , находящиеся вместе в URL данной страницы. Аналогично url:"home html".

Ограниченный поиск в статьях новостей Usenet

from:napoleon@elba.com
Подбирает статьи новостей, содержащие слова napoleon@elba.com в From: поле.
subject:"for sale"
Подбирает статьи новостей, содержащие фразу for sale в Subject: поле.
Можно использовать сочетание этого признака со словом или фразой. Например, subject:"for sale" "victorian chamber pots".
newsgroups:rec.humor
Подбирает статьи новостей, отправленные (или перенаправленные) почтой в группы новостей, содержащих rec.humor в названии.
summary:invest*
Подбирает статьи, содержащие слово invest, investment, investiture, и т.д., в резюме.
keywords:NASA
Подбирает статьи, содержащие слово NASA , представленное заглавными буквами в списке ключевых слов.

Еще о словах, фразах, использовании заглавных букв, ударениях и знаке *

Слова

AltaVista рассматривает любую Web-страницу и любую статью новостей Usenet как последовательность слов. Слово представляет собой любую последовательность букв и цифр, ограниченных знаками пунктуации или другими символами, не входящими в алфавит(например, &, %, $, /, #, _, ~), либо пробелами (пробелы, знаки табуляции, конца строки, начала документа, конца документа). Чтобы алфавитно-цифровая строка считалась словом, она не обязательно должна иметь правильную орфографию или могла бы быть найдена в словаре. Единственное требование - это чтобы строка входила в состав Web-страницы или статьи новостей Usenet как одно слово. Так, следующие строки символов считаются словами, если они встречаются в документе разделенными ограничительными символами: HAL5000, Gorbachevnik, 602e21, www, http, EasierSaidThanDone, и т.д. Все приведенные ниже строки символов воспринимаются как два отдельных слова, поскольку они имеют внутри себя разделяющие знаки пунктуации: don't, digital.com, x-y, AT&T, 3.14159, U.S., All'sFairInLoveAndWar.

Для AltaVista в документе существенное значение имеют только слова. AltaVista не индексирует знаки пунктуации или пробелы, поэтому может использоваться только для поиска слов и фраз, но не пунктуации.

Фразы

Фразой считается строка слов в документе, которые являются соседними, даже если их разделяет любое количество пробелов или знаков пунктуации. Они не должны удовлетворять грамматическим требованиям ни одного языка, а должны только встречаться в документе как последовательность слов, соседних друг с другом. Несколько примеров:

Поскольку знаки пунктуации и пробелы не имеют для AltaVista существенного значения (кроме того, что служат для разделения слов), фразы, приведенные выше, ничем не будут отличаться от следующих фраз:

Существует два соглашения о написании фраз в запросах. Наилучший способ, во избежание двусмысленности, писать фразу как "последовательность слов разделенных пробелами и заключенных в двойные кавычки". Однако, в качестве альтернативы, Вы можете использовать знаки пунктуации (без пробелов), разделяя ими каждую пару слов. Например, все приведенные запросы идентичны:

Обычно рекомендуется первый способ. Учтите, что знаки & | ! и ~ имеют определенное значение в сложных Запросах, а * применяется только как знак *, используемый для составления как Простых, так и сложных Запросов.

Использование заглавных букв

Заглавные буквы различаются от строчных. Когда слово в Web-странице или статье новостей найдено, вид его написания остается неизменным при сохранении слова в индексе.

Поэтому, при написании слова запроса, всегда надежнее - и обычно рекомендуется делать именно так - писать его строчными буквами, т.к. при этом ему сопоставляются также и слова, имеющие в написании заглавные буквы. Наличие заглавных букв в слове, заданном в запросе, конкретизирует поиск.

Так, слову запроса turkey будут поставлены в соответствие turkey, Turkey, tUrKeY или TURKEY если они встретятся в документе. Но если в слове запроса есть заглавные буквы - Turkey - ему будет сопоставлено только слово Turkey из документа, и никакие другие варианты написания, в которых тоже используются заглавные буквы.

Ударения

Ударения обрабатываются так же, как и заглавные буквы. Если в слове запроса проставлено ударение - это конкретизирует поиск. Например, если Вы указываете слово elephant в своем запросе, то выбирается только французская орфография названия животного. Однако если Вам все равно, будут или нет проставлены ударения в окне поиска (что зависит от окна просмотра, платформы и клавиатуры), всегда надежнее опустить ударения, тем самым подбирая в соответствие и английский, и французский варианты написания слов.

Знак *

Для нахождения всех встречающихся групп слов, сходных с каким-либо шаблоном, AltaVista предлагает знак *. Например, Вы хотите найти все документы, где встречаются слова sing, singer, singers, singing. Для этого поместите знак * в конец слова, влияние которого Вы хотели бы учесть при поиске: sing*. Но здесь нужно сделать одно предостережение. AltaVista выберет также слова, лексически не относящиеся к слову запроса. Так, запросу sing* будут сопоставлены и слова singe, single, singular, а также иностранные слова, например французское singulier.

Знаком * нельзя пользоваться неограниченно. Чтобы такие запросы вообще имели смысл, AltaVista требует, чтобы перед знаком * стояло не меньше трех букв. Знаку * сопоставляются от нуля до пяти строчных букв. Цифры и заглавные буквы знаку * не сопоставляются.

Знак * иногда может быть полезен при поиске различных вариантов написания слова: например, запросу cantalo* будут выбраны cantaloup, cantaloupe, cantalope, и формы множественного числа этих слов. Однако, позаботьтесь о том, как составить слово запроса. Например, если Вам требуется включить в поиск оба слова color and colour, запрос типа col*r будет не самый удачный. Этому запрос будут также сопоставлены слова collector и collider. В этом случае, наиболее удачным запросом, удовлетворяющим условию поиска, будет colo*r, который обнаружит как color , так и colour.

Наконец, если Ваш запрос, использующий знак *, привел к подбору слишком большого числа соответствий, AltaVista проигнорирует его. Запрос типа inte*, например, даст такой результат:

Ignored  inte*: 4292323  
No documents match this query


META-метка: Управление индексацией Вашей Web-страницы с помощью AltaVista

При отсутствии какой-либо другой информации, AltaVista проиндексирует все слова Вашего документа (кроме комментариев), и будет использовать первые несколько слов документа в качестве короткого резюме.

Однако, у Вас есть возможность управлять индексацией своей страницы, используя для этого META-метку, с помощью которой определяются: дополнительные ключевые слова для индекса и короткое описание. Предположим, Ваша страница содержит


<META  name="description" 

content="We specialize in grooming pink poodles.">

<META  name="keywords" content="pet grooming, Palo Alto, dog">

AltaVista сделает две вещи:
Pink Poodles Inc
We specialize in grooming pink poodles.
http://pink.poodle.org/ - size 3k - 29 Feb 96

AltaVista индексирует описание и ключевые слова, содержащие до 1,024 знаков.



Copyright © 1996 Digital Equipment Corporation. All rights reserved.

[Back] [Home]