Standart bir Robots.txt dosyasında admin panel bilgileri dışında tum siteye botların erişimine izin verilir. Ancak sitenin bazı bolumlerine saldırıların olması, buralara da Robots.txt dosyası yardımı ile botların gelmesini engellemeyi gerektirebilir. Robots.txt dosyası oluşturmadan once sizin de işinize yarayacağını umduğum Robots.txt kodlarını sizlerle paylaşmak istiyorum. Robots.txt kodları kaynakta da gosterildiği gibi Google tarafından tavsiye edilen kodlardır.

Robots.txt dosyası, sitenizin kok dizininde bulunur. Dolayısıyla example.com sitesinde robots.txt dosyası example.com/robots.txt adresinde bulunur. Robots.txt, Robot Haric Tutma Standardı'na uygun bir duz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural belirli bir tarayıcının soz konusu web sitesindeki belirli bir dosya yoluna erişimini engeller (veya erişimine izin verir).

Aşağıda, iki kural iceren basit bir robots.txt dosyasının iceriği gosterilmektedir:

Kod:
# 1. Kural User-agent: Googlebot Disallow: /nogooglebot/ # 2. Kural User-agent: * Allow: / Site haritası: http://www.example.com/sitemap.xml



Acıklama:

"Googlebot" tarayıcısı adlı kullanıcı aracısı, example.com/nogooglebot/ klasorunu veya herhangi bir alt dizinini taramamalıdır. Diğer tum kullanıcı aracıları sitenin tamamına erişebilir. (Tam erişim sağlandığı varsayımından hareketle bu durum belirtilmese dahi sonuc aynı olacaktır.) Sitenin Site haritası dosyası, example.com/sitemap.xml adresinde bulunmaktadır. Robots.txt dosyası, gecerli olduğu web sitesi ana makinesinin kok dizininde bulunmalıdır. Orneğin,
example.com/ altındaki tum URL'lerde taramayı kontrol etmek icin robots.txt dosyası
example.com/robots.txt konumuna yerleştirilmelidir.
Bir alt dizine (orneğin, example.com/pages/robots.txt) yerleştirilemez.


Soz dizimi
Robots.txt bir ASCII veya UTF-8 metin dosyası olmalıdır. Başka hicbir karaktere izin verilmez. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural cok sayıda yonergeden (talimattan) oluşur ve her satırda bir yonerge bulunur. Bir kuralda şu bilgiler verilir: Kuralın kimin icin gecerli olacağı (kullanıcı aracısı) Soz konusu aracının erişebileceği dizinler veya dosyalar ve/veya Soz konusu aracının erişemeyeceği dizinler veya dosyalar. Kurallar yukarıdan aşağıya doğru işlenir ve kullanıcı aracısı, yalnızca bir kural grubuyla eşleşebilir. Bu, belirli bir kullanıcı aracısıyla eşleşen ilk ve en ayrıntılı kural olur. Varsayılan olarak bir kullanıcı aracısının Disallow: kuralıyla engellenmeyen bir sayfayı veya dizini tarayabileceği kabul edilir. Kurallar buyuk/kucuk harfe duyarlıdır. Orneğin, Disallow: /file.asp kuralı example.com/file.asp icin gecerli olur ancak example.com/FILE.asp icin gecerli değildir. # 1. Ornek: Yalnızca Googlebot'u engelleme
User-agent: Googlebot
Disallow: /

# 2. Ornek: Googlebot'u ve Adsbot'u engelleme
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# 3. Ornek: AdsBot tarayıcıları dışındaki her şeyi engelleme
User-agent: *
Disallow: /

Disallow: [Kural başına en az bir veya daha fazla Disallow veya Allow] Kullanıcı aracısı tarafından taranmaması gereken bir dizin veya sayfa; kok alanla goreli olarak belirtilir. Bu bir sayfaysa, tarayıcıda gosterildiği şekliyle tam sayfa adı olmalıdır; bir dizinse, / işaretiyle sona ermelidir. Yol onekleri, sonek veya dizenin tamamı icin * joker karakterini destekler. Allow: [Kural başına en az bir veya daha fazla Disallow veya Allow] Az once bahsedilen kullanıcı aracısı tarafından taranması gereken bir dizin veya sayfa; kok alanla goreli olarak belirtilir. Bu parametre, izin verilmeyen bir dizindeki bir alt dizinin veya sayfanın taranmasına izin vermek uzere Disallow parametresini gecersiz kılmak icin kullanılır. Bu bir sayfaysa, tarayıcıda gosterildiği şekliyle tam sayfa adı olmalıdır; bir dizinse, / işaretiyle sona ermelidir. Yol onekleri, sonek veya dizenin tamamı icin * joker karakterini destekler. Sitemap: [İsteğe bağlı, dosya başına sıfır veya daha fazla] Bu web sitesinin site haritasının konumu. Tam bir URL olmalıdır; Google, http/https/www.www olmayan alternatifleri varsaymaz veya kontrol etmez. Site Haritaları, Google'a tarayabileceği veya tarayamayacağı iceriğe karşılık hangi iceriği taraması gerektiğinibildirmek icin iyi bir yoldur. Ornek: Site haritası: https://example.com/sitemap.xml
Site haritası: http://www.example.com/sitemap.xml


Kaynak:

Robots.txt dosyası oluşturma
https://support.google.com/webmaster...6062596?hl=tr#

Guncellenen robots.txt dosyanızı Google'a gonderme
https://support.google.com/webmaster..._topic=6061961