разное Недокументированные операторы языка запросов Яндекса 

Дата публикации  Дата изменения28.01.15  КомментарииНет   Просмотры4825

Курсы

За время своего существования язык запросов Яндекса претерпел существенные изменения. Причем изменения эти были далеко не в лучшую сторону для пользователя. Постепенно исчезло много операторов, применение которых пытливому исследователю позволяло творить чудеса. Так, в 2006-м году исключительно применением стандартного функционала языка запросов можно было полностью восстановить формулу текстового ранжирования Яндекса в аналитическом виде. И частично – формулу ссылочного ранжирования. Например, можно было установить, что вхождение термина в тег title ровно в два раза весомее вхождения в body. И многие другие интересные факты. С той поры исчезли замечательные операторы, такие как link (поиск по ссылающимся документам), anchor (поиск по текстам ссылок), : и :: (разные варианты присвоения веса термину из запроса), softness (настройка мягкости для фильтрации по кворуму) и другие. Текущий список документированных операторов можно найти в помощи Яндекса.

Однако, до сих пор в поиске продолжают использоваться операторы, которые исчезли из документации. Например, оператор << (неранжирующее логическое «И») бывает очень полезен при построении достаточно сложных конструкций в запросе. Более того, до сих пор используются операторы, которые никогда не были задокументированы. По крайней мере для большого поиска.

В свое время в разделе помощи Яндекса, посвященной Яндекс.Серверу (приложению для поиска в корпоративных сетях и поиска по сайту), содержался многостраничный документ «Яндекс.Сервер. Руководство по установке и эксплуатации» (до сих пор отдельные версии этого документа для различных сборок, закачанные на сторонние сайты, можно найти в глубинах сети). Там довольно подробно описывался язык запроса, который был несколько шире задокументированного языка запросов для большого поиска по вебу. Но что самое интересное, многие операторы из руководства Яндекс.Сервера работали (и до сих пор работают) в большом поиске. Рассмотрим самые, на мой взгляд, интересные из них.

Оператор intext

Пожалуй, наиболее интересный оператор. Выдача с его использованием не пустая и отличается от выдачи без его использования:

Заявлено, что этот оператор используется для поиска только в текстах документов. И это действительно похоже на правду. Например, документы, найденные по ссылке, этим оператором, не ищутся:

То есть, при ранжировании по сути игнорируется анкор-файл. Этот оператор может быть весьма полезен при исследовании текстовой релевантности документов.

Оператор inlink

Заявлено, что оператор используется для поиска в ссылках на документы. Однако, к большому сожалению, если этот оператор применять целиком ко всей поисковой фразе, выдача пуста:

Выдача становится непустой, если хотя бы одно слово запроса вынести из-под данного оператора:

Однако трудности с интерпретацией полученных результатов сводят к минимуму полезность этого оператора.

Оператор inpos

Выдержка из руководства: «Специальное имя атрибута для указания точного диапазона позиций, в которых должен находиться предыдущий лист или скобка. Имеет синтаксис inpos:N1..N2, где N1 и N2 — целые положительные числа». Применение различных интервалов к запросу дает любопытные эффекты. Например, при достаточно малом диапазоне выдача сужается до документов, содержащих ключевые слова только в адресе документа:

Оператор linkint

Сильно ужатая версия былого оператора link, осуществляющая поиск внутренних ссылок на определенный документ. Однако может быть полезен при решении определенных задач.

Оператор anchorint

Аналогичным образом ужатая на внутренние ссылки версия отмененного оператора anchor. Осуществляет поиск по документам, содержащих ключевую фразу в текстах своих ссылок, ведущих на внутренние страницы того же сайта. Любопытна конструкция, объединяющая операторы linkint и anchorint (аналогичным образом в свое время можно было объединить в одном запросе операторы link и anchor), и позволяющая найти все внутренние страницы сайта, ссылающиеся на данную страницу заданной ключевой фразой:

Менее любопытны, но на мой взгляд, заслуживают упоминания операторы, позволяющие искать по определенным фрагментам текста документов:

address – поиск внутри текстов, заключенных в теге

quote – поиск внутри текстов, заключенных в теге

Оператор image

Осуществляет поиск по имени файлов изображений, используемых в документе. Так, например, например, на страницах сайтов, принадлежащих Яндексу, используется однопиксельное изображение с именем файла La6qi18Z8LwgnZdsAr1qy1GwCwo.gif. С помощью оператора image можно найти все страницы, содержащие такое изображение:

Оператор anchormus

Ищет ссылки на музыкальные файлы, содержащие в анкоре поисковый запрос:

Оператор linkmus

Позволяет найти все страницы, ссылающиеся на определенный музыкальный файл:

Оператор idate

В отличие от канонического оператора date, который ищет документы с заданной датой последнего изменения (формулировка взята из раздела «Документные операторы» помощи Яндекса), оператор idate ищет документы с заданной датой последней индексации.

Вообще под датой последнего изменения на самом деле понимается возраст документа в поисковой базе. Так, например, отсортировав выдачу по времени (добавляется параметр &how=tm в URL страницы выдачи), видим, что главная страница Яндекса датирована 14 августа 2006 года:

Именно по этой дате главная страница Яндекса находится с помощью оператора date:

В случае же оператора idate главная страница Яндекса на момент написания статьи находится совсем по другой дате – 17 декабря 2014 года (для тех, кто владеет старым добрым методом половинного деления, нахождение этой даты не составляет труда):

Что почти совпадает с датой сохраненной копии – 18 декабря 2014 года:

Удивительно, но в индексе по сей день продолжают находиться документы, не переиндексировавшиеся годами. Самая старая сохраненная копия документа, которую мне удалось найти, датирована 26 мая 2008 года:

И, в заключение, пожалуй, стоит упомянуть пусть совсем малоинтересные в практическом применении, но тем не менее, имеющие место быть недокументированные операторы, позволяющие искать по определенным фрагментам кода документов:

  • style – поиск по значению атрибута stylesheet тега link:


  • applet – поиск по значению атрибута code тега applet:

  • script – поиск по значению атрибута src тега script:

  • object – поиск по содержимому атрибутов тега object:

  • actionпоиск по значению атрибута action тега form:

  • profileпоиск по значению атрибута profile тега head:


 Источник  + email рассылка searchengines.ru

Бесплатные курсы

Категории

Теги: , , , , , ,

Оцените материал:

Рейтинг: 0.0/10 (0)


КомментарииКомментарии:

Нет комментариев к этой статье.


 

Старые →← Новые