Bir onceki yazımda SEO ile ilgili eskimiş bilgilerden kurtulmak acısından kalite kavramı ile tanışmanızı onermiştim. Bu yazı sayfa kalitesini olcmek icin kullanılan yontemler ve kalite kavramını anlamaya, hic bilmeyenler icin de bu kavrama giriş yapmaya yardımcı olacaktır. Araştırma BloomReach teknoloji muduru Ashutosh Garg tarafından yapılmış ve tarafından konu ile ilgili bu yazı yayınlanmıştır. BloomReach'den once kendisi Google şirketinde dort yıldan fazla calışmıştır (IBM araştırma bolumunde) Ashutosh aynı zamanda bilgisayar eğitimi konusunda ders kitabının yazarıdır ve 30'dan fazla bilimsel makaleleri vardır.
Bu yazıda, sayfa kalitesi kavramına arama motoru ve kullanıcı acısından bakış acısı ele alınmıştır.
Sayfa kalitesi cok geniş bir kavramdır, ama belirli bir algoritma sayfayı nokta tabanlı değerlendirmeyi esas alan belli koşullara bağlıdır. Bu makalede herhangi bir ayrıntılı algortma yer almamaktadır. Sayfanın kalitesini değerlendirmek ve adaptasyon icin koşullarını belirlemek icin gerekli yapı ele alınmıştır.
Sayfanın kalitesi neden cok onemli bir faktordur:
1. Arama motoru: Arama motoru bu sinyali sayfayı değerlendirerek, o sayfanın kullanıcının sorgusu ile alakalı olup olmadığını belirlemek icin kullanır. Buna ek olarak, sayısal puan uygulayarak, diğer sayfalara gore bir sayfanın goreceli olarak daha iyi olup olmadığına karar verebilirsiniz.
2. Reklam hedefleme: Kullanıcıya icin herhangi bir reklam gosterilirken, reklam ağı programı sayfada gosterilen reklamların kullanıcının sorgusuna gercekten uygun olup olmadığını belirleyebilir.
3. Algılama: Sayfanın kalitesi hic sorgu yoksa bile belirlenebilir ve bu sayfanın son kullanıcıya gercekten onerilip onerilmeyeceğine karar verilebilir.
Bu makalede sayfa kalitesinin değerlendirilmesinde yer alan ceşitli algoritmalara yer verilmiştir. Algoritmaların birinci grubu yapılan sorguda puanlamaya dayanarak belgenin değerlendirilmesi temeline dayanır:
Bilgiye yonelik değerlendirme: Bu değerlendirme yapılan sorguya en uygun sonuclar arasında değerlendirmeyi temel alır. Bu şuphesiz sayfanın kalitesini belirlemede uygulanabilir en muhim değerlendirmedir. Bu algoritma ceşitli arama motorları tarafından uygulanmıştır.
Q = ele alınan bu sorguda uc kelime ve P sayfası vardır puanlama yapılması icin aşağıdaki adımlar uygulanır:
1. Sayfanın her bolumu icin goreceli bir ağırlık kavramı: Standart bir web sayfası ceşitli bolumlere ayrılabilir. orneğin (H1,H2,H3) başlıklar, metnin kendisi, kalın yazılar, kucuk yazılar (daha kucuk karakterler), sayfanın ust kısmında yer alan metin, bağlantılar, şablonlar, resimlerdeki yazılar, sayfa adresindeki yazılar vb. Uygulamaya bağlı olarak, sayfanın farklı unsurlarına farklı bir ağırlık belirlenebilir. İlk once kullanıcının sayfaya nasıl ulaşacağını ve ilk izlenimini anlamak gerekir. Arama yapan kullanıcı başlık ve snippeti okuyarak sayfaya ulaşacaktır. Sayfanın ust kısmında yer alan metni okuyan kullanıcıda sayfa ile ilgili ilk izlenim oluşacaktır.
2. Sorguya bağlı ozellikler oluşturma: Sorgu n-gramlara ayrılır (bigram 2 kelime uzunluğunda ifade icerir) Daha sonra her bir n-grama belirli bir ağırlık atanır. Orneğin; sorgu "canon dijital kamera" (dijital kamera "Canon") olsun. Bu sorguda "canon" onemli bir unigram sayılır (marka icerdiğinden dolayı) "canon dijital" (dijital canon) kotu bir obektir, "dijital kamera" ise iyidir. Geleneksel olarak ağırlık kullanmada TF-IDF (Term Frequency and Inverse Document Frequency) isimli formul kullanılır. TF-IDF hesaplamak icin terim secerken dikkatli olmak gerekir. Ağırlık belirlemede bu terimler metinde gecenlere uygun olamlıdır.
3. TF-IDF hesaplamasında belgenin kalitesi: Sitedeki tum sayfalardan oluşan belge herhangi bir sorgulamaya uygun olacaktır. Ama cok buyuk bir sayfa ile başa cıkmak istenmeyen bir durumdur. Bunun dışında sayfaya gelen ziyaretcilerin hangi platformu kullandıklarını belirlemek gerekli olacaktır. Ziyaretciler daha fazla akıllı telefon (smart phone) kullanıyorlarsa belgenin ideal uzunluğu 500 kelime altı, tablet kullanıyorlarsa 1000 kelime altı, dizustu bilgisayarlar icin 3000 kelime altı olacaktır. Sayfanın uzunluğuna gore bir puanlama sistemi kullanmak onerilir. Bu konuda cok sayıda dokuman bulabilirsiniz.
4. Belgeyi değerlendirmede basit bir sistem aşağıdaki gibi olabilir.
Ekli dosyayı goruntule 4723
P sayfası di alanları ve wi ağırlığı icerir, Q sorgusu ise qk kelimelerinden oluşur. Sayfanın uzunluğu L, ifadelerin sayısı Nq, f ise f - belgenin uzunluğuna bağlı normalleşme fonksiyonu oğesi.
Hangi sayfa "canon dijital kamera" sorusu icin en yuksek puanı alır?
Ekli dosyayı goruntule 4724
Her iki sayfa da dijital kamera "Canon" iceriklidir, aşağıdaki tabloya gore en yuksek puanlama nasıl yapılabilir?
Ekli dosyayı goruntule 4725
Yararlılık değerlendirmesi: Sayfa ile kullanıcıların etkileşimine dayanan bir değerlendirmedir ve belirli sayfanın kullanıcılar tarafından ne kadar sıklıkla yararlı bulunduğunu yansıtır.
Coğu web sayfası icin başarıyı belirleme faktorleri vardır. (ayrıca geri donuşum olarak da bilinir) E-ticaret sitelerindebu geri donuşum bir urun veya hizmet satın alma olarak tanımlanır. Potansiyel muşterileri cekmeyi hedefleyen siteler icin form doldurtma olarak tanımlanabilir. Ağ siteleri icin bu, goruntuleme, sayfa veya video izleme gibi etkileşimler olabilir. Herhangi bir sorgu icin bir geri donuşum oranı hesağlanabilir ve bu oran puanlamada doğrudan olarak kullanılabilir.
Bu durumda ortaya cıkabilen problem veri yetesizliğidir. E-ticaret sitesi donuşum oranı sadece % 0.5 olabilir. Bu ortalama olarak bir sorgudan gelen her 200 hit icin bir donuşum var demektir. Duşuk frekanslı sorgular bu tur bir hesaplamayı imkansız kılmaktadırlar. Boyle bir sorun birkac yontemle cozulebilir:
1. Sorguların toplamına gore oranlama: Kesin değil soyut sorguya gore hesaplama yapılır. [canon dijital kamera] sorgusu icin şu şekilde ozetlenebilir.
3 kelimeden oluşan sorgu
marka ismini iceren sorgu
sayfa adında tum kelimeleri iceren sorgu
2. Artık 3 kelimeden oluşan, marka ismi iceren ve sayfa adında tum kelimeleri iceren sorguların geri donuşum oranının ne olduğu soylenebilir. Boyle bir genellemenin cok geniş veya dar olabileceğini goruyoruz. Mevcut verilerin hacmine bağlı olarak soyutlama duzeyi secilebilir.
3. "Gereksiz hitler" alternatif olarak kullanılabilir. Geri donuşum oranı yuzde 0.5 ise "gereksiz hit" oranı genellikle yuzde 20 ile 80 arasındadır. Bu sayfa kalitesinin ziyaretci beklentilerinin altında olduğuna bir işarettir. Burada dikkatli olmak gerekir, cunku "gereksiz hit" gostergesi geri donuşum oranını her zaman yeterli duzeyde yansıtmayacaktır.
Sayfa kalitesini belirlemede sorgudan bağımsız hesaplama orneklerine aşağıdakiler gosterilebilir:
Davranışsal puanlama: Sayfanın kullanıcılar tarafından nasıl algılandığı kalitesinin belirlenmesinde onemli bir gostergedir. Bu ozellik kullanıcının davranışları analiz edilerek olculebilir. Geleneksel olarak aşağıdaki faktorler kullanılır:
1. Geri donuşumlerin puanlamaya tabi tutulması - Sorgulardan bağımsız olarak geri donuşum oranı hesaplanır.
2. "Gereksiz hitler" gostergesi - Sorgulardan bağımsız olarak sayfada bulunan gereksiz hitlerin sayısı dikkate alınır.
3. Sayfa gosterimi - Site ziyaret edildikten sonra goruntulenen sayfa sayısı, ilk sayfadan sonra kac sayfanın goruntulenmesi.
4. Bu sayfaya geri gelen ziyaretci sayısı - Bu sayfayı tekrar ziyaret eden ziyaretcilerin sayısı.
5. Kac kullanıcının sayfayı ziyaret ettikten sonra sepetine urun eklediği.
6. Sayfada gecirilen ortalama zaman.
Davranışını karakterize eden sinyalleri izole ederek analiz etmek doğru değil. Benzer diğer sayfalara gore analiz edilmelidir. Orneğin, satıcının internet sitesinde, bir urun ya da diğer benzer sayfalara gore kullanıcının davranışını karşılaştırabilirsiniz.
Puanlama icin basit bir yol:
Ekli dosyayı goruntule 4726
fi sayısı karakteristik bir değerdir ("gereksiz hit" gibi), mfi - tum benzer sayfalarda fi ortalama değeri, wi ağırlık endeksidir.
Daha sofistike bir yontem siteyi terkedip sorguda yer alan başka bir sonuc sayfasını tercih eden kullanıcıların sayısını belirleme yontemidir.
Sayfanın itibarı: Sayfa sıralaması diğer sayfalara kıyasla belirli sayfanın populerliğini belirleyen bir yontemdir. Orijinal sayfadan hareket ettikce belirli sayfaya ulaşabilme mesafesi o sayfanın bilinirliğiini etkileyen bir faktordur.
Sayfada kullanılan dilin kalitesi: İcerik icin bir dil modeli inşa edilebilir ve dil modeli acısından ziyaretcilerin beğenisine gore sayfa değerlendirilebilir. Dil modeli inşası icin bazı kaynaklar:
http://dl.acm.org/citation.cfm?id=383970
http://citeseerx.ist.psu.edu/viewdoc...10.1.1.76.1126
http://dl.acm.org/citation.cfm?id=243206
Tum değerlendirmeler hesaplama sonrası kombine edilmelidir.
Değerlendirmenin aşağıdakileri icerdiğini varsayalım:
IR (bilgi alma değerlendirilmesi)
B (davranışsal değerlendirme)
R (sayfa itibar puanı ya da sıralaması)
LM (dil modeli skoru)
Bu değerlendirmeleri birleştirmek icin bir yontem:
Ekli dosyayı goruntule 4727
Her değerlendirme icin belirli ağırlık olcusu atanabilir. Orneğin yeni bir site icin davranışsal değerlendirme yapmak ilk başta imkansız olacaktır, bu değerlendirmeye atanan ağırlık da daha az olarak belirlenmelidir.
Kaynak: Stonetemple.com
Sayfa kalitesini değerlendirmede matematiksel bir model
Google Optimizasyon0 Mesaj
●4 Görüntüleme
- ReadBull.net
- Arama Motorları ve Optimizasyonları
- Google Optimizasyon
- Sayfa kalitesini değerlendirmede matematiksel bir model