Goruntu algılama ve eşleştirme alanına yonelik mevcut uygulamalar uzun suredir ceşitli amaclarla kullanılıyor. Fakat internet uzerindeki milyarlarca fotoğraf goz onune alındığında aradığımız iceriği bilgisayara cumle ile tarif etmek duşunduğumuz kadar kolay olmuyor. Genel itibariyle hayli karışık bir yapıya sahip insan beynini makinelere daha iyi oğretebilmek icin bağımsız calışma yuruten Google ve Stanford Universitesi, goruntu algılama alanında bir ust seviyeye gecmeyi başardı.

Noral ağları taklit edebilen Convolutional Neural Network ve Recurrent Neural Network gibi uygulamaları birbirlerine entegre eden araştırmacılar, kurulan yeni sistemi gorseli tanıma ve insan diline uyarlama şeklinde iki bolume ayırdılar. Karmaşık bir fotoğraftaki ogenin tek başına ve diğer ogelerle nasıl bir bağlantı icerisinde olduğunu anlama uzerine odaklanan araştırma, makinelerin taradıkları icerikleri “Bir grup genc insan frizbi oynuyor” ya da “Pembeli kucuk kız baloncuk ufluyor” şeklinde insanın kurabileceği cumle formatına cevirebilmesi sağlandı.

Gelecekte gorselleri “kedi, tenis, otomobil” gibi kelimelerle değil “sahilde koşan kedi, tenis oynayan kadın, otoparkta bulunan sarı otomobil” tarzında kalıplarla arayabilmemizi sağlayacak olan proje, diğer taraftan makinelerin algıladıkları nesneleri insan diline cevirmesini mumkun hale getiriyor. Şimdilik emekleme aşamasındaki araştırmanın eski nesil yontemlere nazaran iki kat başarı sağladığı, bu sayede makine ve insan iletişiminin gelecekte cok daha kolaylaşacağı belirtiliyor.
http://www.log.com.tr/bilgisayarlar-...imlayabiliyor
__________________