UTF-8 Nedir? UTF-8 Anlamı ve Ozellikleri

06-09-2022, 06:40:27

#1
AboveShaft

Açık Profil bilgileri

Özel Mesaj Gönder

AboveShaft tarafından gönderilen tüm mesajları bul

AboveShaft'ı arkadaş olarak ekle
UTF-8 nedir?

UTF-8, Unicode Transformation Format kavramının kısaltılmış halidir. Unicode değişim formu olarak bilinen UTF-8 Rob Bike ’nin onculuğunde geliştirildi. Aynı kişi bilindiği uzere Go dilinin de geliştiricisi olarak biliniyor. Bu geliştirme surecinde kendisine Rob Pike de eşlik etti. UTF-8 soz konusu karakterleri 1-6 bayt aralığında kodlamaktadır.

UTF-8 kavramına son zamanlarda cok sık rastlanılsa da pek cok kişi bu konuda teknik bilgiye hakim değil. Her şeyden once karakter kodlamalarıyla karakter setleri arasında farklıklar olduğunu belirtmeliyiz. Genelde ortak noktalarından oturu bu ikisi arasında pek ayrım yapılmamaktadır. Oysa Unicode bir karakter seti olarak tanımlanabilir. UTF-8 ’İ ise bu noktada karakter kodlaması olarak gorebiliriz. ASCII ’nin aksine UTF-8 ’de tum dunya alfabelerini kapsayan onbinlerce karakter soz konusudur. İcinde Turkce karakterleri de barındıran son derece kapsamlı setler oluşturulmuştur.

Ortak kullanılan karakter setleri uzerinden konuşmak, internetin ve iletişimin yaygınlaştığı gunumuzde buyuk onem taşır. 32 bit Unicode karakterleri artık belli olculerde yetersiz kalmaktadır. UTF-8 geliştiricileri tam da bu noktadan hareket etmiştir. Bugun ASCII karakterlerinden oluşan metnin UTF-8 acısından karşılığına baktığımızda net bir denklikle karşılaşmak mumkundur. Tek bir baytla ifade edilmeyen Unicode temelli karakterler ise en az 2 ve daha fazla baytla ifade edilir. Bu tip karakterler, yani en az 2 ve daha fazla bayt iceren karakterleri kolayca anlayabiliriz. Bu tip karakterlerde ilk baytın ardından gelen baytlar doğrudan 10 rakamı ile başlamak durumundadır.

UTF-8 ifadesinde yer alan rakam, esasen 8 biti ifade ediyor. Bir Unicode donuşum bicimi olarak ele alınması gereken UTF-8 ’e belli karakterleri ceşitli bayt grupları ile kodlama sureclerinde başvurulur. ASCII icinde yer alan ilk 127 karakter doğrudan kendi kodlarıyla beraber kullanılmaktadır. Dışarıda kalan karakterler ise byte dizileri bicimine sokulur. Coğu zaman UTF-8 ’in işleyiş şekli ve calışma tarzı ilgi uyandırmıştır. UTF-8 ’de duzlemler ceşitli bloklara ayrılmış durumdadır. İlgili her blok kendi bunyesinde ceşitli karakter grupları barındırır. Kodlarda yer alan nokta sayısı blokların buyukluğunu ifade eder. Bu her zaman sabit bir değer değildir. Coğu zaman 16 ’nın katları biciminde kurgulanmış olan bir yapıyla karşılaşmak mumkundur.

Herhangi bir metin icinde yer alan karakterler birbirinden farklı bloklara ait olabilir. Bu tip metinlerde bir dağılım soz konusu olabilir. Kimi ozel oluşturulmuş klavyeler sayesinde en ilginc ve zor sayısal ifadeleri yazmak veya goruntulemek de olasıdır. Birbirinden farklı olan tum karakterler UTF-8 sayesinde tek bir sayfa icinde rahatlıkla gorunmektedir. Geleneksel kodlamalarda orneğin Turkce karakteri gostermek adına son derece karmaşık olan simge ve rakamlardan yararlanılıyordu. Bunu en sık Ş harfi ozelinde gorebiliyorduk.

UTF-8 BOM ise kurulum esnasında ciddi zararlar yaratabiliyor. Web sitenizde karakter goruntuleme konusunda engel olamadığınız pek cok hatayla karşı karşıya kalabilirsiniz. Karakterlerinizin bozuk bir hal almasına neden olabilecek UTF-8 BOM konusunda oldukca dikkatli olmalısınız. Herhangi bir metni orneğin UTF-8 ’e cevirmeye kalktığınızda BOM adı verilen işaret metnin en başına eklenir. Yazının UTF-8 ile goruntulendiğine dair, sinir bozucu bir işaret olarak gorulur. Yazının en ust kısmına yerleştiği icin ne yazık ki başlıkların onune gecmektedir. Explorer uzerinde de en ust kısımda bir satırlık hacmi doldurur. Bu işgal edilen alan kullanıcılar adına oldukca rahatsız edici olabilir. BOM işaretinden elbette cok basit bir şekilde kurtulabilirsiniz. Metinlerinizi UTF-8 ’e donuştururken duzenleyicide BOM bulunmadan UTF-8 alanını tercih etmelisiniz. Doğrudan kod silmek doğru bir yonelim olmayacaktır. Dosyanın var olan dil yapısını değiştirmek cozum noktasında yeterli olacaktır.

UTF-8 Ozellikleri
Genişletmek icin tıkla ...

UTF-8 ’de tum karakterlerin ayrı ayrı Unicode tarafından saptanan kod noktaları bulunuyor. Tum bu kod noktaları 0 ve 1.114.111 aralığında yer alıyor. Kod noktaları iki tabanına donuşturulmektedir. Bu surecte bizzat taban donuşumu tercih edilen ilk yontem değildir. Bunun yerine daha farklı yontemlerden faydalanılıyor. İşte tum bu ozgun yontemleri karakter kodlama şekli olarak isimlendirmemiz mumkun.

UTF-8 kodlama stilinde, farklı kod birimlerinden meydana gelecek bicimde iki tabanına donuşturulur. Her bir kod birimi 8 bit olarak ayarlanmıştır. Bu nedenle UTF-8 aracılığıyla kodlanan bir yazı butununde ayrı ayrı tum karakterlerin uzunlukları 8 ’in katları olacak şekilde sıralanır. UTF-8 ’in bazı onemli calışma prensipleri soz konusudur. Orneğin tum karakterlerin ilk kod biriminin başında, soz konusu karakteri kodlamakta olan total kod birim rakamı kadar hane kullanılır. UTF-8 ’in ilk geliştirme surecindeki genel kapsamı, 31 bit sınırına kadar olan tum rakamları iceriyordu.

2013 yılına kadar sadece 31 bite kadar olan rakamları UTF-8 sistemiyle kodlamak mumkundu; ancak yapılan guncellemeler bu konudaki ust sınırın boyutlarını bir hayli yukarılara cekti. UTF-8 ’in en değerli ozelliği geriye doğru uyumluluk konusundaki ayrıcalığıdır. Ote yandan cok ya da tek baytlı karakterler arasında kolayca ayrım yapılmasını sağlıyor. Değişken kod uzunluğu, kendini eş zamanlama, UTF-8 ’e dair belirtebileceğimiz diğer ozellikler arasında diyebiliriz.