Оптимизация краулингового бюджета для SEO: лучшие способы

26.04.2022 15:14 Автор: НАША Газета

Одним из наиболее эффективных способов оптимизации краулингового бюджета является ограничение количества малозначимых URL-адресов на сайте, которые могут отнимать ценное время и ресурсы от сканирования по наиболее важным страницам сайта.

К малоценным страницам относятся страницы с дублированным контентом, страницы с легкими ошибками, фасетной навигацией и идентификаторами сессий, а также страницы, скомпрометированные взломом, бесконечными пробелами и прокси-серверами, и, конечно же, некачественный контент и спам. Поэтому первое, что можно сделать, это проверить наличие этих проблем на сайте, включая проверку отчетов об ошибках сканирования в Search Console и минимизацию ошибок сервера.

Список советов по оптимизации краулингового бюджета и улучшению сканирования сайта:

1. Нельзя блокировать важные страницы.

2. По возможности придерживаться HTML, избегая тяжелых файлов JavaScript или других форматов.

3. Исправлять длинные цепочки редиректов.

4. Сообщать о параметрах URL для Googlebot.

5. Исправлять ошибки HTTP.

6. Поддерживать карты сайта в актуальном состоянии.

7. Использовать rel canonical, чтобы избежать дублирования контента.

8. Использовать теги hreflang для указания страны и языка.

Еще один технический совет по оптимизации бюджета на сканирование сайта – использование команды disallow в файле robots может позволить лучше управлять сканированием Googlebot.

Возможные меры по оптимизации сайта

Если углубиться в описанные выше советы, то можно определить некоторые конкретные меры, которые помогут лучше управлять краулинговым бюджетом: ничего «нового», потому что это хорошо известные признаки работоспособности сайта.

Первое предложение немного тривиально – разрешить сканирование важных страниц сайта в файле robots.txt, простой, но решительный шаг, позволяющий держать под контролем сканируемые и блокируемые ресурсы. Полезно позаботиться о XML sitemap, чтобы дать роботам простой и быстрый способ понять, куда ведут внутренние ссылки; следует использовать только канонические URL для sitemap и всегда обновлять до последней версии, загруженной в robots.txt.

Также было бы неплохо проверить – или вообще избежать – цепочки редиректов, которые заставляют Googlebot сканировать несколько URL: при наличии чрезмерного количества редиректов поисковый робот может внезапно прервать сканирование, не достигнув страницы, которую ему нужно проиндексировать. Если 301 и 302 следует ограничивать, то другие коды состояния HTTP более вредны: страницы 404 и 410 технически расходуют краулинговый бюджет и наносят ущерб пользовательскому опыту. Не менее раздражающими являются ошибки 5xx, связанные с сервером, поэтому лучше периодически проводить анализ и проверку состояния сайта, возможно, с помощью SEO-паука!

Еще одна вещь, о которой следует подумать, – это параметры URL, поскольку отдельные адреса учитываются краулерами как отдельные страницы, а значит, тратят неоценимую часть бюджета и могут вызвать сомнения по поводу дублирования контента. В случае многоязычных сайтов нужно наилучшим образом использовать тег hreflang, более четко информируя Google о геолокализованных версиях страниц как с помощью заголовка, так и с помощью элемента <loc> для данного URL.

Основным выбором для улучшения сканирования и упрощения интерпретации Googlebot может стать постоянное предпочтение HTML другим языкам: даже если Google учится обрабатывать JavaScript все более эффективно (и существует множество техник SEO-оптимизации JavaScript), старый HTML по-прежнему остается кодом, который дает наилучшие гарантии.

Материал предоставлен веб-студией "ГАЛА-центр" (сайт компании: seo-magic.ru).