Problemy z indeksacją - checklista
Artykuły18 stycznia 2015
Na forach systematycznie pojawiają się pytania dotyczące problemów z zaindeksowaniem strony. Często szukając powodu, zapominamy o sprawdzeniu podstawowych ustawień, które mogą blokować robotom indeksację lub dostęp do strony.
Poniżej prezentujemy krótką checklistę, która powinna w szybki sposób pomóc w wykluczeniu podstawowych błędów:
- blokada w pliku robots.txt - mimo że Google może indeksować strony, na których zablokowano dostęp Googlebota (w takich przypadkach informacja o blokadzie wyświetla się w wynikach wyszukiwania w miejscu opisu strony), to jednak często jest to skuteczny sposób na to, aby utrudnić sobie zaindeksowanie nowo powstałej strony. Należy zatem sprawdzić, czy plik robots.txt nie zawiera zapisu:
User-Agent: * Disallow: /
Dla pewności warto zalogować się na swoje konto narzędzi Google dla webmasterów i przejść do zakładki Indeksowanie -> Tester pliku robots. Wystarczy w polu obok nazwy domeny wpisać pełny adres strony i kliknąć przycisk "TEST". Oczekiwany przez nas status to "DOZWOLONY". W przypadku blokady dostępu, dowiemy się, która linijka kodu jest tą problematyczną.
- metatag noindex - ten metatag zakazuje Googlebotowi wyświetlania adresu w wynikach wyszukiwania. Problemy może sprawić także zapis "nofollow" osłabiający moc linków wewnętrznych i tym samym utrudniający podążanie za odnośnikami do innych podstron serwisu. Pamiętajmy, że zapis "none"w sekcji META oznacza jednoczesne zastosowanie zapisu "noindex" oraz "nofollow".
- źle skonfigurowany rel="canonical" - zastosowanie rel="canonical" daje podobny efekt, co przekierowanie 301. Tym samym, jeśli np. na wszystkich podstronach tag ten kieruje do strony głównej, to tylko ona może się prawidłowo zaindeksować. Upewnijmy się zatem, że na naszych stronach nie występuje ten problem.
- usunięcie wyniku z poziomu narzędzi dla webmasterów - narzędzia Google dla webmasterów umożliwiają samodzielne wysyłanie zgłoszeń dotyczących usunięcia wskazanego adresu z wyników wyszukiwania. Co istotne, do tymczasowego usunięcia (np. dopóki robot znowu nie trafi przez dowolny link na daną stronę) nie potrzebujemy nawet blokady w pliku robots.txt ani ustawienia nagłówka 404. Wystarczy zgłoszenie w zakładce Indeks Google -> Usuń adresy URL. Zdarza się, że przejmujemy pracę nad stroną po innej osobie i dopiero po dłuższym czasie okazuje się, że ta dokonywała takich zgłoszeń i to właśnie przez nie mamy problemy z indeksacją. Należy więc po prawej stronie panelu wybrać "Pokaż: Usunięto", aby sprawdzić stare zgłoszenia. W razie czego można zgłoszenie anulować, przywracając wynik do indeksu.
Powyżej wymieniliśmy tylko kilka wybranych problemów. Jednak praktyka pokazuje, że to właśnie z nimi ma problem najwięcej osób.
A z jakimi problemami z indeksacją sami się spotkaliście?
Stare komentarze: 1
Na stronie był wirus który zuplikował adresy (ponad 2000). po usunięciu źródła problemu w GWT jest cała masa błędów 404. Czy takie adresy trzeba usuwać? czy powoduje to jakieś problemy? Z tego co wiem maksymalnie można usunąć 1000 adresów a w tym przypadku jest ich więcej