AltaVista
Справка из http://altavista.telia.com/cgi-bin/telia?country=ru&lang=ru
Справка только для Простых Запросов. Не для Сложных Запросов!
- paris "petite galerie" louvre
- Ищет документы, содержащие как можно большее количество этих слов и фраз,
упорядочивая их таким образом, что первым стоит документ, содержащий наибольшее
число совпадений.
- Фразой считается любая строка смежных слов. Предпочтительный способ
образования фразы из слов - использование кавычек.
- Если слово, заданное для поиска, содержит только строчные буквы, то ему
сопоставляются также и слова, содержащие в написании заглавные буквы. Например,
слову, paris будет поставлено в соответствие paris, Paris, и
PARIS.
- Наличие заглавных букв в слове, заданном в запросе, конкретизирует поиск.
Будет найдено именно целое
слово. Например, если подготовлен запрос на слово parIS , то по нему
будут выбраны только слова parIS. (Не удивляйтесь, если их совсем не
окажется.)
- +noir +film -"pinot noir"
- Соответствия могут быть требуемые или запрещенные. Предваряйте требуемое
слово или фразу знаком "+", а запрещенное - знаком "-". Этот запрос найдет
документы, содержащие film и noir, но не содержащие
pinot noir.
- antique;pump;organ
- Для соединения слов во фразы можно, наряду с кавычками, использовать
пунктуацию. Знаки пунктуации воспринимаются как пробелы, таким образом, этому
примеру соответствует "antique pump organ" (три слова, заключенные в
кавычки).
- quilt*
- Данному запросу будут соответствовать страницы, содержащие хотя бы одно из
слов quilt, quilts, quilting, quilted,
quilter и т.д. Совет: Знак * полезен также для поиска
различных вариантов написания. Например, запросу alumi*m удовлетворяет
как aluminum , так и Британский вариант написания -
aluminium. Дополнительно об использовании Простых Запросов
Примеры Простых Запросов
Для подбора документов, наиболее точно удовлетворяющих Вашим требованиям,
составьте свой запрос как можно более конкретно. AltaVista упорядочивает
найденные документы таким образом, что те из них, которые содержат наибольшее
число слов и фраз, соответствующих запросу, находятся в списке первыми. Однако и
при таком расположении документов, Вы можете не найти того, что ищете даже в
начале списка, если запрос составлен слишком пространно.
Для примера предположим, что Вам нужна информация о языках Американских
Индейцев, но Вы не знаете, о каких конкретно языках. Вы можете начать со
следующего запроса: american indian language. (Приведенные
здесь числа, отражающие количество найденных слов (word count), не
корректируются по мере индексации новых страниц. Они служат только для примера.)
- american indian language
- Результат:
- word count: indian 395185, language 2048030, american 2654433.
Найдено 100000 документов, содержащих возможно большее количество указанных
слов, без различия заглавных и строчных букв.
- замечание:
- Этот запрос слишком пространный. Среди первых десяти найденных документов
несколько оказались подходящими, а остальные посвящены языкам Азии.
- стратегия:
- Выясните, как Вы хотите чтобы был произведен разбор Вашего запроса. Иначе
говоря, соедините american и indian в одну фразу. Учтите
множественное число слова language в своем запросе, используя знак *.
- "american indian" language*
- результат:
- word count: american indian 30000, language* 2050463.
Найдено 20000 документов.
- замечание:
- Найденные документы не относятся к информации о языках Американских
Индейцев, давая Вам возможность усовершенствовать свой дальнейший поиск.
Предположим, например, что Вы хотите более подробно узнать о языке ojibwe,
который упоминался в одном из документов, найденных по данному запросу.
- стратегия:
- Потребуйте, чтобы слово ojibwe и различные варианты его написания
ojibway и ojibwa были включены в Ваш следующий запрос.
Поскольку это слово Американских индейцев, Вы можете теперь опустить
american indian из условия поиска.
- language* +ojibw*
- результат:
- word count: ojibw* 3625, language* 2050463. Найдено 1000 документов.
- замечание:
- Bingo!
Упорядочивание результатов Простых Запросов
При Простых Запросах AltaVista упорядочивает результаты поиска, основываясь на
алгоритме подсчета баллов; документы с наибольшим количеством баллов оказываются
в начале полученного списка. Документ имеет наивысший балл, если выполняется
следующее:
- слова или фразы запроса обнаружены в первых нескольких словах документа
(например, в заголовке Web-страницы или в заглавиях статей групп новостей
Usenet).
- слова или фразы запроса в документе обнаружены рядом друг с другом.
- документ содержит более одного включения слова или фразы запроса.
Вы, вероятно, найдете то, что Вам нужно, где-то в начале получившегося
упорядоченного списка.
Ограниченные поиски
Существует возможность ограничить поиски определенной частью документов,
используя специальный синтаксис. Ключевое слово (ссылка, заголовок, изображение,
...) должно содержать в написании только строчные буквы; сразу после него должно
стоять двоеточие.
Ограниченный поиск в Web-страницах:
- anchor:click-here
- Подбирает страницы, содержащие фразу click here в тексте
гиперссылки.
- applet:NervousText
- Подбирает страницы, содержащие название класса Java applet, обнаруженное в
метке applet; в данном случае, NervousText.
- host:digital.com
- Подбирает страницы, содержащие фразу digital.com в имени хоста
Web-сервера.
- image:comet.jpg
- Подбирает страницы, содержащие comet.jpg в признаке изображения.
- link:thomas.gov
- Подбирает страницы, имеющую хотя бы одну ссылку на страницу, содержащую
thomas.gov в своем URL.
- text:algol68
- Подбирает страницы, содержащие слово algol68 в любой части видимого
текста страницы (т.е., например, слово найдено не в ссылке или не в
изображении)
- title:"The Wall Street Journal"
- Подбирает страницы, содержащие фразу The Wall Street Journal в
заголовке.
- url:home.html
- Подбирает страницы, содержащие слова home и html ,
находящиеся вместе в URL данной страницы. Аналогично url:"home html".
Ограниченный поиск в статьях новостей Usenet
- from:napoleon@elba.com
- Подбирает статьи новостей, содержащие слова napoleon@elba.com в
From: поле.
- subject:"for sale"
- Подбирает статьи новостей, содержащие фразу for sale в
Subject: поле.
- Можно использовать сочетание этого признака со словом или фразой. Например,
subject:"for sale" "victorian chamber pots".
- newsgroups:rec.humor
- Подбирает статьи новостей, отправленные (или перенаправленные) почтой в
группы новостей, содержащих rec.humor в названии.
- summary:invest*
- Подбирает статьи, содержащие слово invest,
investment, investiture, и т.д., в резюме.
- keywords:NASA
- Подбирает статьи, содержащие слово NASA , представленное заглавными
буквами в списке ключевых слов.
Еще о словах, фразах, использовании заглавных букв,
ударениях и знаке *
Слова
AltaVista рассматривает любую Web-страницу и любую статью новостей Usenet как
последовательность слов. Слово представляет собой любую
последовательность букв и цифр, ограниченных знаками пунктуации или другими
символами, не входящими в алфавит(например, &, %, $, /, #, _, ~), либо
пробелами (пробелы, знаки табуляции, конца строки, начала документа,
конца документа). Чтобы алфавитно-цифровая строка считалась словом, она не
обязательно должна иметь правильную орфографию или могла бы быть найдена в
словаре. Единственное требование - это чтобы строка входила в состав
Web-страницы или статьи новостей Usenet как одно слово. Так, следующие строки
символов считаются словами, если они встречаются в документе разделенными
ограничительными символами: HAL5000, Gorbachevnik,
602e21, www, http, EasierSaidThanDone, и
т.д. Все приведенные ниже строки символов воспринимаются как два отдельных
слова, поскольку они имеют внутри себя разделяющие знаки пунктуации:
don't, digital.com, x-y, AT&T,
3.14159, U.S., All'sFairInLoveAndWar.
Для AltaVista в документе существенное значение имеют только слова. AltaVista не
индексирует знаки пунктуации или пробелы, поэтому может использоваться только
для поиска слов и фраз, но не пунктуации.
Фразы
Фразой считается строка слов в документе, которые являются соседними, даже если
их разделяет любое количество пробелов или знаков пунктуации. Они не должны
удовлетворять грамматическим требованиям ни одного языка, а должны только
встречаться в документе как последовательность слов, соседних друг с другом.
Несколько примеров:
- President of the U.S.A. (фраза из 6-ти слов)
- http://www.election.digital.com (фраза из 5-ти слов)
Поскольку знаки пунктуации и пробелы не имеют для AltaVista существенного
значения (кроме того, что служат для разделения слов), фразы, приведенные выше,
ничем не будут отличаться от следующих фраз:
- President of the U S A
- http www election digital com
Существует два соглашения о написании фраз в запросах. Наилучший способ, во
избежание двусмысленности, писать фразу как "последовательность слов разделенных
пробелами и заключенных в двойные кавычки". Однако, в качестве альтернативы, Вы
можете использовать знаки пунктуации (без пробелов), разделяя ими каждую пару
слов. Например, все приведенные запросы идентичны:
- "President of the U S A"
- President-of-the-U-S-A
- President/of/the/U/S/A
- President.of.the.U-S-A
Обычно рекомендуется первый способ. Учтите, что знаки & | ! и ~ имеют
определенное значение в сложных Запросах, а * применяется только как знак *,
используемый для составления как Простых, так и сложных Запросов.
Использование заглавных букв
Заглавные буквы различаются от строчных. Когда слово в Web-странице или статье
новостей найдено, вид его написания остается неизменным при сохранении слова в
индексе.
Поэтому, при написании слова запроса, всегда надежнее - и обычно рекомендуется
делать именно так - писать его строчными буквами, т.к. при этом ему
сопоставляются также и слова, имеющие в написании заглавные буквы. Наличие
заглавных букв в слове, заданном в запросе, конкретизирует поиск.
Так, слову запроса turkey будут поставлены в соответствие
turkey, Turkey, tUrKeY или TURKEY если они
встретятся в документе. Но если в слове запроса есть заглавные буквы -
Turkey - ему будет сопоставлено только слово Turkey из
документа, и никакие другие варианты написания, в которых тоже используются
заглавные буквы.
Ударения
Ударения обрабатываются так же, как и заглавные буквы. Если в слове запроса
проставлено ударение - это конкретизирует поиск. Например, если Вы указываете
слово elephant в своем запросе, то выбирается только
французская орфография названия животного. Однако если Вам все равно, будут или
нет проставлены ударения в окне поиска (что зависит от окна просмотра, платформы
и клавиатуры), всегда надежнее опустить ударения, тем самым подбирая в
соответствие и английский, и французский варианты написания слов.
Знак *
Для нахождения всех встречающихся групп слов, сходных с каким-либо шаблоном,
AltaVista предлагает знак *. Например, Вы хотите найти все документы, где
встречаются слова sing, singer, singers,
singing. Для этого поместите знак * в конец слова, влияние которого Вы
хотели бы учесть при поиске: sing*. Но здесь нужно сделать одно
предостережение. AltaVista выберет также слова, лексически не относящиеся к
слову запроса. Так, запросу sing* будут сопоставлены и слова
singe, single, singular, а также иностранные слова,
например французское singulier.
Знаком * нельзя пользоваться неограниченно. Чтобы такие запросы вообще имели
смысл, AltaVista требует, чтобы перед знаком * стояло не меньше трех букв. Знаку
* сопоставляются от нуля до пяти строчных букв. Цифры и заглавные буквы знаку *
не сопоставляются.
Знак * иногда может быть полезен при поиске различных вариантов написания слова:
например, запросу cantalo* будут выбраны cantaloup,
cantaloupe, cantalope, и формы множественного числа этих
слов. Однако, позаботьтесь о том, как составить слово запроса. Например, если
Вам требуется включить в поиск оба слова color and colour, запрос типа col*r будет не самый удачный. Этому запрос будут также
сопоставлены слова collector и collider. В этом случае,
наиболее удачным запросом, удовлетворяющим условию поиска, будет
colo*r, который обнаружит как color , так и colour.
Наконец, если Ваш запрос, использующий знак *, привел к подбору слишком большого
числа соответствий, AltaVista проигнорирует его. Запрос типа inte*,
например, даст такой результат:
Ignored inte*: 4292323
No documents match this query
META-метка: Управление индексацией Вашей Web-страницы с помощью
AltaVista
При отсутствии какой-либо другой информации, AltaVista проиндексирует все слова
Вашего документа (кроме комментариев), и будет использовать первые несколько
слов документа в качестве короткого резюме.
Однако, у Вас есть возможность управлять индексацией своей страницы, используя
для этого META-метку, с помощью которой определяются: дополнительные ключевые
слова для индекса и короткое описание. Предположим, Ваша страница содержит
<META name="description"
content="We specialize in grooming pink poodles.">
<META name="keywords" content="pet grooming, Palo Alto, dog">
AltaVista сделает две вещи:
- Проиндексирует оба поля как слова, так, что поиск как по
poodles , так и по dog будет удовлетворительным.
- Вернет описание, содержащее URL. Иначе говоря, вместо отображения первой пары строк страницы, мы получим следующее:
- Pink Poodles Inc
- We specialize in grooming pink poodles.
http://pink.poodle.org/ - size 3k - 29 Feb 96
AltaVista индексирует описание и ключевые слова, содержащие до 1,024 знаков.
Copyright © 1996
Digital Equipment Corporation.
All rights reserved.