Одним из наиболее эффективных способов оптимизации краулингового бюджета является ограничение количества малозначимых URL-адресов на сайте, которые могут отнимать ценное время и ресурсы от сканирования по наиболее важным страницам сайта.
К малоценным страницам относятся страницы с дублированным контентом, страницы с легкими ошибками, фасетной навигацией и идентификаторами сессий, а также страницы, скомпрометированные взломом, бесконечными пробелами и прокси-серверами, и, конечно же, некачественный контент и спам. Поэтому первое, что можно сделать, это проверить наличие этих проблем на сайте, включая проверку отчетов об ошибках сканирования в Search Console и минимизацию ошибок сервера.
Список советов по оптимизации краулингового бюджета и улучшению сканирования сайта:
1. Нельзя блокировать важные страницы.
2. По возможности придерживаться HTML, избегая тяжелых файлов JavaScript или других форматов.
3. Исправлять длинные цепочки редиректов.
4. Сообщать о параметрах URL для Googlebot.
5. Исправлять ошибки HTTP.
6. Поддерживать карты сайта в актуальном состоянии.
7. Использовать rel canonical, чтобы избежать дублирования контента.
8. Использовать теги hreflang для указания страны и языка.
Еще один технический совет по оптимизации бюджета на сканирование сайта – использование команды disallow в файле robots может позволить лучше управлять сканированием Googlebot.
Возможные меры по оптимизации сайта
Если углубиться в описанные выше советы, то можно определить некоторые конкретные меры, которые помогут лучше управлять краулинговым бюджетом: ничего «нового», потому что это хорошо известные признаки работоспособности сайта.
Первое предложение немного тривиально – разрешить сканирование важных страниц сайта в файле robots.txt, простой, но решительный шаг, позволяющий держать под контролем сканируемые и блокируемые ресурсы. Полезно позаботиться о XML sitemap, чтобы дать роботам простой и быстрый способ понять, куда ведут внутренние ссылки; следует использовать только канонические URL для sitemap и всегда обновлять до последней версии, загруженной в robots.txt.
Также было бы неплохо проверить – или вообще избежать – цепочки редиректов, которые заставляют Googlebot сканировать несколько URL: при наличии чрезмерного количества редиректов поисковый робот может внезапно прервать сканирование, не достигнув страницы, которую ему нужно проиндексировать. Если 301 и 302 следует ограничивать, то другие коды состояния HTTP более вредны: страницы 404 и 410 технически расходуют краулинговый бюджет и наносят ущерб пользовательскому опыту. Не менее раздражающими являются ошибки 5xx, связанные с сервером, поэтому лучше периодически проводить анализ и проверку состояния сайта, возможно, с помощью SEO-паука!
Еще одна вещь, о которой следует подумать, – это параметры URL, поскольку отдельные адреса учитываются краулерами как отдельные страницы, а значит, тратят неоценимую часть бюджета и могут вызвать сомнения по поводу дублирования контента. В случае многоязычных сайтов нужно наилучшим образом использовать тег hreflang, более четко информируя Google о геолокализованных версиях страниц как с помощью заголовка, так и с помощью элемента <loc> для данного URL.
Основным выбором для улучшения сканирования и упрощения интерпретации Googlebot может стать постоянное предпочтение HTML другим языкам: даже если Google учится обрабатывать JavaScript все более эффективно (и существует множество техник SEO-оптимизации JavaScript), старый HTML по-прежнему остается кодом, который дает наилучшие гарантии.
Материал предоставлен веб-студией "ГАЛА-центр" (сайт компании: seo-magic.ru).