Googlebot Hakkında Merak Edilenler: Google’ın Kendi Mühendisi Anlattı

“Googlebot siteyi taramış mı?” — SEO’da hepimiz bu soruyu sormuşuzdur. Ama şunu hiç düşündünüz mü: Googlebot gerçekte nedir? Bir program mı, bir sistem mi, yoksa başka bir şey mi?

Google’ın kendi Search Relations ekibinden Gary Illyes, Search Off the Record podcast’inin 105. bölümünde bu soruyu yanıtladı. Ve cevap, çoğu SEO profesyonelinin beklediğinden çok farklı çıktı.

Bu yazıda o konuşmayı teknik bir blog içeriğine dönüştürdük — hem SEO stratejinize doğrudan etkisi olan bulgularla hem de pratikte ne yapmanız gerektiğiyle birlikte.


“Googlebot” Bir Yanlış Adlandırma

Gary Illyes’in söyledikleri net: “Googlebot” aslında Google’ın tarama altyapısının adı değil.

İlk yıllarda Google tek bir ürüne sahipti ve gerçekten tek bir tarayıcı vardı. Zamanla yeni ürünler (AdWords, Google News, Google Images, vb.) çıktıkça yeni tarayıcılar da eklendi. Ama “Googlebot” adı bir şekilde kullanımda kaldı ve tüm tarama altyapısını temsil eder hale geldi — bu yanlış bir genelleme.

Gerçekte Google’ın tarama altyapısı, dahili bir adı olan devasa bir SaaS (Yazılım Olarak Hizmet) sistemidir. Gary buna konuşmada “Jack” adını takıyor. Bu sistemin API uç noktaları var ve Google içindeki farklı ekipler bu API’yi çağırarak internetten veri çekiyor.

Googlebot ise bu API’yi çağıran istemcilerden sadece biri — web araması ekibinin kullandığı yapılandırmanın adı.

Peki Kim Bu API’yi Kullanıyor?

Google büyük bir şirket. Onlarca, belki yüzlerce farklı ekip bu merkezi altyapıyı kullanarak internetten veri çekiyor. Bu yüzden developers.google.com/search/docs/crawling-indexing/overview-google-crawlers sayfasında listelenen tarayıcılar sadece “büyük ve önemli” olanlar — küçük ölçekli tarayıcılar belgelenmemiş kalıyor.


Crawler mı, Fetcher mı? Fark Neden Önemli?

Gary, tarama sistemini ikiye ayırıyor:

ÖzellikCrawler (Tarayıcı)Fetcher (Çekici)
Çalışma biçimiSürekli, URL listesiyleTek seferlik, bir URL
TetiklemeOtomatik, topluKullanıcı eylemli
ÖrnekGooglebot (web araması)Google Search Console’daki “URL İnceleme” aracı
BeklemeZaman buldukça çalışırSonucu bekleyen biri var

Pratikte ne anlama geliyor?

Google Search Console’da “URL İnceleme” aracıyla bir sayfayı elle taratıyorsunuz — bu bir fetcher işlemi. Sonuçları anlık olarak siz bekliyorsunuz.

Googlebot’un olağan taraması ise bir crawler — arka planda, toplu ve Google’ın uygun gördüğü zaman çalışıyor. Bu ikisinin davranışı, IP aralıkları ve önceliklendirme mantığı farklı.


Googlebot Nereden Tarama Yapıyor? Geo-Blocking Gerçeği

Bu kısım Türk SEO’cular için özellikle kritik.

Gary’nin itirafı: Google’ın standart tarayıcıları büyük ölçüde ABD’den, özellikle Mountain View, California’dan çalışıyor. Bu IP adreslerinin ülke kodu ABD olarak kayıtlı.

Eğer bir siteyi sadece belirli ülkelerden erişime açarsanız (geo-blocking), Googlebot büyük ihtimalle bir 403 hatası ya da bağlantı zaman aşımıyla karşılaşıyor ve sayfanızı tarayamıyor.

Google’ın çözümü: Farklı ülkelere ait IP aralıklarından tarama yapmak için özel ayarlamalar yapılabiliyor — ama bu yüksek kapasiteli tarama için tasarlanmamış ve Google bu kaynağı yalnızca içeriğin “yüksek yararlılık değeri” taşıdığını düşündüğünde kullanıyor.

Sonuç: SEO stratejinizde Googlebot’a güvenilir erişim sağlamak istiyorsanız, geo-blocking kötü bir fikirdir. Gary bunu açıkça söylüyor: “Bu yönteme güvenmek son derece kötü bir fikir.”


15 MB ve 2 MB Limitleri: Büyük İçerikler İçin Kritik Kural

Gary, tarama altyapısının en az bilinen ama en önemli teknik detaylarından birini de paylaştı: varsayılan dosya boyutu limitleri.

  • Altyapı varsayılanı: 15 MB — herhangi bir ekip bu limiti açıkça geçersiz kılmadıkça geçerli.
  • Google Arama (web araması) için: Limit 2 MB olarak ayarlanmış.
  • PDF dosyaları için: Yaklaşık 64 MB (PDF’ler HTML’ye dönüştürme gerektirir, bu nedenle daha büyük).

Bu ne anlama geliyor?

Eğer bir sayfanızın HTML dosyası 2 MB’ı aşıyorsa, Google bu sayfayı kesiyor (truncation) — yani sayfanın tamamını değil, ilk 2 MB’ını alıyor. İçeriğin geri kalanı taranmıyor ve dolayısıyla indekslenmiyor.

Çok uzun tek sayfa uygulamaları (SPA), aşırı şişkin JavaScript dosyaları ya da büyük inline içerikler bu sınıra çarpabilir.

Pratik Kontrol Listesi

Sayfa boyutunuzu ölçün: Tarayıcı geliştirici araçlarında Network sekmesinden HTML dosyasının boyutuna bakın. 500 KB üzerindeyse dikkatli olun, 1 MB üzerindeyse ciddi optimizasyon gerekiyor.

Büyük içerikleri sayfalara bölün: Tek sayfada binlerce ürün listesi, uzun arşiv sayfaları ya da tüm blog yazılarını içeren index sayfaları bu limitle sorun yaşayabilir.

JavaScript bloat’unu kontrol edin: Inline script ile şişirilmiş HTML, 2 MB limitine beklenenden çok daha çabuk ulaşıyor.


“İnterneti Bozmayın” Kuralı ve Throttling Mekanizması

Google’ın tarama altyapısının en önemli görevi şu: İnterneti bozmamak.

Merkezi altyapı, bir sitenin yavaşlamaya başladığını bağlantı sürelerinden anlıyor ve istekleri otomatik olarak yavaşlatıyor (throttle). 503 hatası (sunucu aşırı yüklü) aldığında çok daha sert frenleme yapıyor. 403 veya 404 gibi istemci hataları ise tarama hızını etkilemiyor — çünkü bu hatalar sunucunun aşırı yüklendiğini değil, yanlış bir istek yapıldığını gösteriyor.

Bu mekanizmanın bir yan etkisi var: Eğer sunucunuz zaten yavaşsa ya da paylaşımlı hosting kullanıyorsanız, Google tarama hızını düşürür. Bu da büyük sitelerde crawl budget sorununa yol açar — Google öncelikli sayfalarınıza yetersiz tarama payı ayırabilir.

GEO ve aiSEO bağlantısı: Yapay zeka motorları da içeriğinizi tarar ve indeksler. Yavaş, taranamaz ya da aşırı büyük sayfalar sadece Google sıralamalarınızı değil, AI referans kaynaklarınızı da etkiliyor. Hızlı ve temiz bir altyapı, AI’ın sizi “güvenilir kaynak” olarak kodlamasının teknik ön koşullarından biri.


Unutulan Crawler: Hâlâ Çalışan Bir Sistem

Gary, ilginç bir iç hikaye paylaştı: Google’da bir proje kapatıldıktan yıllar sonra, o projeye ait tarayıcının arka planda çalışmaya devam ettiği fark edildi. Kimse kapatmayı unutmuştu.

Bu hikaye SEO’cular için de bir ders taşıyor: Robots.txt veya noindex direktiflerinde yapılan hatalar, bazen tespit edilmeden aylarca devam edebilir. Google’ın kendi sistemlerinde bile bu tür “unutulmuş işler” oluşabiliyorsa, sitelerde de aynı riskin var olduğunu kabul etmek gerekiyor.

Düzenli teknik SEO denetimlerinde kontrol edilmesi gereken başlıca noktalar şunlar:

Robots.txt doğruluğu: İzin vermek istediğiniz dizinler açık mı? Geliştirme ortamından kalma engellemeler var mı?

Noindex direktifleri: Yanlışlıkla noindex eklenmiş sayfalar var mı? CMS güncellemeleri bazen varsayılan ayarları değiştirebiliyor.

Canonical etiketleri: Yanlış canonical yönlendirmeler, doğru sayfanın taranmamasına yol açabiliyor.


Teknik SEO’cular İçin 5 Çıkarım

Bu podcast’in teknik derinliğini günlük SEO pratiğine çevirdiğimizde beş somut çıkarım öne çıkıyor:

1. Googlebot tek bir şey değil, bir yapılandırma adı. Sitenizi “Googlebot için optimize etmek” yerine “Google’ın tarama altyapısı için erişilebilir ve verimli kılmak” diye düşünmek daha doğru bir çerçeve.

2. Geo-blocking büyük risktir. Coğrafi kısıtlama uygulamaları taramayı fiilen engelleyebiliyor. Eğer uluslararası bir siteye sahipseniz, bu konuyu öncelikle değerlendirin.

3. 2 MB HTML limiti gerçek bir kısıt. Özellikle JavaScript ağırlıklı SPA’lar ve şişkin içerik sayfaları için bu limiti aşmamak kritik.

4. 503 hatası tarama bütçenizi tüketir. Sunucu performansı sadece kullanıcı deneyimini değil, Google’ın sitenize ne kadar tarama kaynağı ayırdığını da etkiliyor.

5. Belgelenmemiş tarayıcılar da sizi ziyaret ediyor. Google’ın resmi olarak belgelemediği küçük tarayıcılar da altyapıyı kullanıyor. Log analizinde tanımadığınız user-agent’lar görürseniz paniklemeden araştırın.


Sıkça Sorulan Sorular

Googlebot nedir?
Googlebot, Google’ın merkezi tarama altyapısını kullanan istemcilerden birinin adıdır. Web araması ekibinin bu altyapıya yaptığı çağrıların tanımlayıcısı olarak düşünebilirsiniz. Google’ın tarama altyapısının tamamı değildir.

Google kaç farklı tarayıcıya sahip?
Onlarca, belki yüzlerce farklı tarayıcı ve fetcher Google’ın merkezi tarama altyapısını kullanıyor. Bunların yalnızca büyük ve önemli olanları resmi olarak belgelenmiş durumda.

Googlebot hangi ülkeden tarama yapıyor?
Büyük ölçüde ABD’den, özellikle Mountain View California’dan tarama yapıyor. Bu nedenle coğrafi erişim kısıtlamaları (geo-blocking) Googlebot’un sitenize ulaşmasını engelleyebiliyor.

HTML sayfa boyutu SEO’yu etkiler mi?
Evet. Google’ın web araması için belirlediği 2 MB limit nedeniyle, bu boyutu aşan HTML sayfaları kesilebiliyor (truncation). Sayfanın tamamı taranmıyor ve bu indeksleme sorunlarına yol açabiliyor.

Robots.txt ile Googlebot engellenir mi?
Evet, engellenir. Hatta yanlışlıkla engellenmesi SEO’da en sık karşılaşılan ve en yıkıcı hatalardan biri. CMS güncellemeleri veya geliştirme ortamı ayarları bazen bu yapılandırmayı istemeden değiştirebiliyor.

Fetcher ile Crawler arasındaki fark nedir?
Crawler, URL listesini otomatik ve sürekli olarak işler. Fetcher ise tek bir URL’yi alır, kullanıcının beklemesiyle çalışır. Google Search Console’daki URL İnceleme aracı bir fetcher örneğidir.


Bu içerik, Google Search Relations ekibinden Gary Illyes’in Martin Split ile gerçekleştirdiği Search Off the Record podcast’inin 105. bölümünden derlenmiştir.

Yorum yapın