Автор: Пол Шапиро (Paul Shapiro) – руководитель SEO-направления агентства Catalyst Digital (Бостон).
Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как отыскать те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.
Органический поиск включает три основных компонента: сканирование, индексирование и ранжирование. Когда поисковый робот заходит на сайт, он сканирует все найденные ссылки. Эта информация затем передаётся в индекс поисковой системы, после чего определяется порядок её показа в результатах поиска.
SEO-специалисты основное внимание уделяют компоненту ранжирования. Но если поисковая система не смогла просканировать и проиндексировать страницы на сайте, он не получит трафика из Google. Обеспечение правильного сканирования и индексирования сайта – важная часть поисковой оптимизации.
Как узнать, сколько всего страниц проиндексировано
При наличии доступа к Google Search Console можно посмотреть, сколько страниц содержится в файле XML Sitemap, и сколько из них было проиндексировано. При этом в сервисе не уточняется, какие именно URL не попали в индекс поисковой системы.
Чтобы получить эту информацию, придётся проверить каждый URL вручную. Но эту задачу можно автоматизировать.
Как проверить, был ли URL проиндексирован Google
Чтобы узнать, был ли конкретный URL проиндексирован Google, можно использовать поисковый оператор «info:». Например:
info:http://searchengineland.com/google-downplays-google-algorithm-ranking-update-week-normal-fluctuations-258923
Если URL проиндексирован, результат будет таким:
В противном случае Google вернёт ошибку:
Как использовать Python для массовой проверки статуса индексирования страниц
Теперь вы знаете, как проверить отдельный URL. Но как провести массовую проверку? Используйте следующий скрипт на Python.
Чтобы использовать этот скрипт, на компьютере должен быть установлен Python 3. Также потребуется установить библиотеку BeautifulSoup. Для этого откройте командную строку и выполните следующую команду:
pip install beautifulsoup4
После этого вы можете загрузить скрипт на свой компьютер. В той же папке, где находится скрипт, создайте текстовый файл со списком URL. Каждый URL должен идти отдельной строкой.
Теперь, когда скрипт готов к работе, нужно установить и настроить Tor для использования его в качестве бесплатного прокси-сервера. На Windows загрузите Tor Expert Bundle. Извлеките папку из архива в локальный каталог на ПК и запустите tor.exe. Окно можно свернуть.
Затем вам нужно установить Polipo для преобразования socks-прокси в http-прокси. Загрузите последнюю версию Windows binary (она будет называться «polipo-1.x.x.x-win32.zip») и извлеките папку из архива.
В папке Polipo создайте текстовый файл (например, config.txt) со следующим содержанием:
socksParentProxy = "localhost:9050"
socksProxyType = socks5
diskCacheRoot = ""
disableLocalInterface=true
Откройте командную строку и перейдите в папку Polipo. Выполните следующую команду:
polipo.exe -c config.txt
На этом этапе можно запускать Python-скрипт:
python indexchecker.py
Скрипт попросит указать количество секунд для ожидания между проверками каждого URL.
Затем он попросит ввести имя файла (без расширения) для выгрузки результатов в CSV.
Наконец, он запросит имя текстового файла, который содержит список URL для проверки.
Введите эти данные и запустите скрипт.
Конечный результат будет представлен в виде CSV-файла, который можно без труда открыть в Excel.
В итоговой таблице проиндексированным URL будет присвоено значение TRUE, непроиндексированным – FALSE.
Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер, изменив следующие строки скрипта:
proxies = {
'https' : 'https://localhost:8123',
'https' : 'http://localhost:8123'
}
Заключение
Знать, какие страницы были проиндексированы Google, критически важно для SEO. Вы не сможете получить трафик из поиска, если ваших страниц нет в индексе поисковой системы.
К сожалению, Google не предоставляет информацию о том, какие URL не были проиндексированы. Но эта проблема решаема. Используя описанный выше скрипт, вы сможете получить эти данные без особого труда.
*Источник: Search Engine Land + email рассылка Searchengines.ru
Комментарии:
Нет комментариев к этой статье.