Arama motorları, belki de sitenizin ziyaretcilerinin buyuk bir bolumu onlar sayesinde sizi buluyorlar ve takip etmeye başlıyorlar.

Bazen arama motorlarına sitenizi siz kaydetmek icin başvuruyorsunuz, bazen de arama motorları Robot veya Bot denilen uygulamalarla sizin sitenizi buluyorlar.

Bu bulma işleminde ise sitenizde bulunan her linki ozenle tarayıp kendi veritabanlarına kaydediyorlar. Bu sayede arama sonuclarında sitenizde ne var ne yok ziyaretcileriniz oğrenebiliyor, bulabiliyor.

Ancak bazı durumlarda sitenizi indeksleyen bu robotlara hukmetmek isteyebilirsiniz:
Parola koruması olmayan fakat coğu kişinin de gormesini istemeyeceğiniz bir sayfanız olabilir,
Bazı sayfalarınızdaki programların ve icerik sayılamayacak bilgilerin (cgi-bin dizini gibi) taranmasını istemeyebilirsiniz,
Ya da sadece fazla bandwidth kaybetmek istemeyip taramanın yapılmamasını isteyebilirsiniz.

Bu gibi durumlarda robotlara hukmetmek icin elinizde bir fırsat bulunuyor: robots.txt dosyası. Bu dosya sitenizin ana dizininde bulunur ve arama motorlarının gonderdikleri robotlara bazı komutlar verir. Orneğin bu dosyadaki bir satır ile www.siteniz.com/infocus-tr adresinin arama motorlarında cıkmamasını sağlayabilirsiniz.

Sitenize ftp ile bağlandığınızda eğer robots.txt adında bir dosya yoksa bunu siz de oluşturabilirsiniz. Eğer boyle bir dosya yoksa her robot tum site iceriğini indeksleyecektir.
Basit olarak robots.txt dosyasının icinde şu iki satır bulunur:

User-agent: *Disallow: /

Burada User-agent: satırı ve sonrasında gelen * işareti "Tum robotlara alttaki komutu uygula" anlamına gelmektedir. Disallow: ise Turkce karşılığıyla "İzin verme" demek olup, akabinde gelen / işaretiyle "tum site iceriğini indeksleme" komutuna karşılık gelir.

Ornek olarak Google arama motorundan gelecek robotun, bizim sitemizdeki /infocus-tr klasorundeki hicbir iceriği taramamasını istiyoruz. Bunun icin kullanmamız gereken komut satırı:

User-agent: Googlebot

Disallow: /infocus-tr/

olacaktır. /infocus-tr./ yazmamızdaki neden ise baştaki / işareti kok dizini, sondaki / işaret ise infocus-tr'in dizin olduğunu vurgulamak icindir. Eğer siz sadece bir dosyayı indeksletmemek isterseniz, Disallow: /infocus-tr.html satırını da kullanabilirsiniz.

Robots.txt dosyası hakkında daha fazla bilgiyi buradan alabilirsiniz.
Robotstxt adresinden de şuan icin bilinen tum robotların isimlerine ulaşabilir, az onceki ornekte yaptığımız gibi sadece bazı robotların bazı sayfalara ulaşamamasını sağlayabilirsiniz.


Kaynak:İnternet & E.E KANAL


Derlememerinfocus​