UTF-8

UTF-8 8-bitlik bir Unicode dönüşüm biçimidir (İng: Unicode Transformation Format 'ın kısaltması). Unicode karakterlerini değişken sayıda 8 bitten oluşan bayt (kod birimi) gruplarıyla kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.

UTF-8 kodlaması Unicode karakterlerini 1-4 bayt uzunluğunda diziler olarak kodlar. ASCII kodlaması içinde 0-127 arasında kalan karakterler, Unicode standardında aynı kod noktalarıyla ifade edildiğinden aynen kendi kodları ile kullanılır, diğerleri ise bayt dizileri haline gelir.

Özellikleri

Karakterlerin her birinin kendilerine Unicode tarafından atanan bir kod noktası vardır. Her kod noktası 0 ile 1.114.111 arasında bir sayıdır. Bu kod noktaları iki tabanına dönüştürülürken doğrudan taban dönüşümü yapılmak yerine çeşitli yöntemler kullanılmaktadır. Bu yöntemlerin her biri ayrı birer karakter kodlama biçimi olarak adlandırılır. UTF-8 kodlama biçimi kod noktalarını değişken sayıda kod birimlerinden oluşacak şekilde iki tabanına dönüştürmeye olanak vermektedir. Kod birimlerinin her biri 8 bit uzunluğundadır. Dolayısıyla UTF-8 ile kodlanan bir metinde her karakterin uzunluğu 8'in katıdır. Kodlama yapılırken kodlanmış metni işleyecek bir bilgisayar yazılımının karakterlerin başlangıç ve bitiş noktalarını bilebilmesine olanak sağlamak için kod birimlerinin içine işaretçi bazı bitlerin yerleştirilmesi gerekmektedir.

UTF-8 kodlama biçimi şu kurallara göre çalışmaktadır:

Her karakterin birinci kod biriminin başında o karakteri kodlayan toplam kod birimi sayısı kadar hane 1 ve bu hanelerden sonraki ilk hane 0'dır.
Aynı karakteri simgeleyen sonraki tüm baytların başındaki ilk iki hane 10'dır.

UTF-8'in tasarımı ilk olarak Dave Prosser'ın önerdiği ve daha sonra Ken Thompson'ın üzerinde değişiklikler yaptığı aşağıdaki tabloda görülebilir. Bu tablodaki kalıplar kullanılarak kod noktasının bit sayısına uygun olan kalıp seçilip x ile işaretli kısımlara sağa dayalı olacak şekilde bitler yerleştirilmek ve geriye kalan kısımlar 0 ile doldurulmak suretiyle karakter kodlanmış olur.

Kod noktasının bit sayısı	İlk kod noktası	Son kod noktası	Kod birimi (bayt) sayısı	1. Bayt	2. Bayt	3. Bayt	4. Bayt	5. Bayt	6. Bayt
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

Orijinal şartname 31 bite kadar olan tüm sayıları kapsamaktadır. Teorik olarak 31 bite kadar uzunluktaki sayıları UTF-8 ile kodlamak mümkün olsa bile, Kasım 2003'te çıkan RFC 3629 11 Ağustos 2015 tarihinde Wayback Machine sitesinde arşivlendi. standardı ile UTF-8'in üst sınırı U+10FFFF olarak belirlenmiştir. Bunun nedeni diğer bir karakter kodlama biçimi olan UTF-16'nın kodlayabileceği en büyük kod noktasının U+10FFFF olmasıdır. Kodlama standartları arasında uyumluluk sağlanması ve hepsinin uzak gelecekte de sorunsuz olarak kullanılmaya devam edebilmesi için UTF-8'in üst sınırı da uygulamada U+10FFFF olarak belirlenmiştir. Ayrıca Unicode ve ISO 10646 yine UTF-16 ile uyumu korumak için karakterlere U+10FFFF'den daha büyük kod noktası atamamaya karar vermişlerdir. Bu yüzden yukarıdaki tabloda 5 ve 6 bayttan oluşan kalıpların tamamı ve 4 bayttan oluşan kalıpların da yarıya yakını günümüzde geçersizdir.

UTF-8 kodlamasının göze çarpan başlıca özellikleri aşağıdaki gibi listelenebilir:

Geriye doğru uyumluluk: 0 ile 127 arasındaki ASCII değerleri için tek baytlık değerler kullanılmakta ve bu değerler başka karakterlerin kodlanması esnasında ortaya çıkmamaktadır. En yüksek basamaklı bit (8. bit) de bu karakterler için 0dır. Dolayısıyla 7-bitlik ve 8-bitlik ASCII ile kodlanmış metinler UTF-8 ayrıştırıcıları tarafından sorunsuzca işlenebilir.
Çok baytlı ve tek baytlı karakterler arasındaki açık ayrım: 127'den daha büyük kod noktaları çok baytlı dizilerle gösterilir ve bu dizilerde bir adet başlatıcı bayt ve bir veya daha fazla devam baytı bulunmaktadır. Başlatıcı bayt, dizideki toplam bayt sayısı kadar 1 ve daha sonra bir adet 0 ile başlar. Devam baytlarının ise tamamı 10 ile başlamaktadır. Eğer kod noktası tek baytla kodlanıyorsa bu bayt da doğrudan 0 ile başlamaktadır.
Kendini eşzamanlama: Başlatıcı bayt, devam baytı ve tek baytın değerleri birbiriyle asla aynı olamaz. Çünkü hepsi yukarıdaki tabloda görüldüğü gibi farklı şekillerde başlamaktadır. Bu özellik UTF-8'in kendini eşzamanlayabilen bir sistem olmasını sağlar. Yani UTF-8 ile kodlanmış metinleri işleyen bir yazılım, metin içinde rastgele seçtiği bir baytın karakter başlatan bayt olup olmadığını belirleyebilir ve karakterlerin başlangıç ve bitişlerini kolayca bulabilir. 0xxxxxxx, 110xxxxx, 1110xxxx ve 11110xxx bit kalıpları karakter başlangıcını ve bir sonraki geçerli karakterin başlangıcının kaç bayt sonra olduğunu açıkça işaret etmektedir.
Kodlanmış bayt dizilerinin uzunluklarının açıkça belirtiliyor olması: Başlatıcı baytın başındaki 1lerin sayısı devam eden baytların sayısını açıkça belli etmektedir. Dolayısıyla karakterin toplamda kaç bayt tarafından kodlandığı ve diğer karakterin nerede başladığı devam baytlarını tek tek incelemeden anlaşılabilmektedir. Dolayısıyla metinde karakter arama ve bulma işlemleri kolaylaşmış olur.
Değişken kod uzunluğu: Kodlanmış karakterlerin kapladığı yeri mümkün olduğunca azaltabilmek için değişken uzunluklu baytlarla kodlama yapılması büyük kolaylıklar sağlamaktadır. Örneğin sabit uzunluklu UTF-16 kodlamasında kodlanmış karakter uzunluğu iki bayttır. U+0000 ve U+00FF aralığındaki kod noktaları tek bayta sığabilmelerine karşın başlarına bir adet boş bayt konularak ikiye tamamlanırlar. Bu yüzden de sırf temel Latin harfleriyle yazılmış bir metin UTF-16 kodlamasıyla UTF-8'e göre iki katı yer kaplamaktadır. Değişken uzunluklu kodlama ile bu sorun çözülmüş ve her kod noktası ihtiyaç duyulduğu kadar baytla kodlanabilir hale gelmiştir.

İlk 128 karakter (US-ASCII kümesindeki karakterlerin aynısı) tek baytla kodlanır. Sonraki 1.920 karakter ise iki baytla kodlanır. Bu 1.920 karakter neredeyse tüm Latin alfabeleri ve ayrıca Yunan, Kiril, Koptik, Ermeni, İbrani, Arap, Süryani ve Thaana alfabelerini ve eklemlenebilen diyakritik işaretleri kapsamaktadır. Yaygın kullanımdaki hemen hemen tüm karakterleri bulunduran^[1] Temel Çokdilli Düzlemin bir ve iki baytla kodlananlar dışındaki tüm karakteri için üç bayt gerekir. Çin Japon ve Kore karakterlerinden pek yaygın kullanılmayanlar, çeşitli tarihi yazı biçimleri, matematiksel simgeler ve emojinin bulunduğu diğer Unicode düzlemlerindeki karakterler de dört bayt ile kodlanır.

Örnekler

"ş" harfinin UTF-8 ile kodlanması

ş harfinin Unicode kod noktası U+015F'tir.
Kod noktası U+0080 ve U+07FF aralığında olduğu için tabloya göre en az iki baytlık kalıbın içine sığabileceği anlaşılmaktadır.
On altı tabanındaki015F sayısı iki tabanında 001 0101 1111 şeklinde gösterilmektedir. Soldaki iki adet sıfır tablodaki kalıpta 11 bitlik boş yerin tamamını kaplamak için eklenmiştir.
Kodlanmış karakterimiz iki kod biriminden oluşacağı için ilk kod birimi iki adet 1 ve devamında bir adet 0 ile başlamaktadır. (110xxxxx)
Kalan beş hane kod noktamızın ilk beş hanesiyle doldurulur (11000101).
Mavi renkli kısım yerleştirildiği için kod noktamızdan geriye yeşil renkle gösterilen 6 hane kalmıştır (001 0101 1111).
İkinci kod birimimiz kural gereği 10 ile başlamaktadır ve kalan 6 hanesi boştur. (10xxxxxx)
Kalan 6 haneyi kod noktamızda kalan bitlerle doldurursak ikinci kod birimimiz (baytımız) de tamamlanmış olur (10011111).
Kodlama tamamlanmıştır. U+015F kod noktalı "ş" karakteri UTF-8 kodlamasında 11000101 10011111 şeklinde kodlanmaktadır. İki tabanındaki bu uzun bit dizilimi yazımı daha kolay olsun diye sıklıkla on altı tabanına dönüştürülerek C5 9F olarak gösterilir.

İlgili Bağlantılar

https://web.archive.org/web/20050505032430/http://www.cs.bell-labs.com/sys/doc/utf.pdf UTF-8'i anlatan ilk makale
http://www.utf-8.com/ 13 Kasım 2004 tarihinde Wayback Machine sitesinde arşivlendi. UTF-8
https://web.archive.org/web/20071012031849/http://opereysin.com/edebi-hezeyanlar/825-utf-8-ve-kizilderili-asimilasyonu/ Türkçe karakter problemleri ve UTF-8
http://www.joomlasite.eu/component/content/article/10-joomla-hakknda/87-joomla-ve-utf-8/^{[ölü/kırık bağlantı]} Joomla ve UTF-8

Kaynakça

^ Allen, Julie D.; Anderson, Deborah; Becker, Joe; Cook, Richard, (Ed.) (2012). "The Unicode Standard, Version 6.1". Mountain View, California: Unicode Consortium. The Basic Multilingual Plane (BMP, or Plane 0) contains the common-use characters for all the modern scripts of the world as well as many historical and rare characters. By far the majority of all Unicode characters for almost all textual data can be found in the BMP.

[unicode-ch02-bmp-1] Allen, Julie D.; Anderson, Deborah; Becker, Joe; Cook, Richard, (Ed.) (2012). "The Unicode Standard, Version 6.1". Mountain View, California: Unicode Consortium. The Basic Multilingual Plane (BMP, or Plane 0) contains the common-use characters for all the modern scripts of the world as well as many historical and rare characters. By far the majority of all Unicode characters for almost all textual data can be found in the BMP.

[1]

g t d Karakter kodlamaları
Karakter setleri
ISO/IEC 8859	-1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 -14 -15 -16
Bibliyografik kullanım	ANSEL ISO 5426 / 5426-2 / 5427 / 5428 / 6438 / 6861 / 6862 / 10585 / 10586 / 10754 / 11822 MARC-8
Ulusal Standartlar	ArmSCII CNS 11643 GOST 10859 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KPS 9566 KS X 1001 PASCII SI 960 TIS-620 TSCII VISCII YUSCII
EUC	CN JP KR TW
ISO/IEC 2022	CN JP KR CCCII
MacOS kod sayfaları	Arapça Basitleştirilmiş Çince / EUC-CN Geleneksel Çince / Big5 Hırvatça Kiril Devanagari Farsça Yunanca Gujarati dili Gurmukhi dili İbranice İzlandaca Japonca / Shift JIS Korece / EUC-KR Rumence Sembol Tay dili / TIS-620 Türkçe Ukraynaca
DOS kod sayfaları	111 112 113 151 161 162 163 164 165 437 667 668 708 720 737 770 771 772 773 774 775 790 808 819 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 872 881 882 883 884 885 895 900 912 915 932 934 936 938 991 Kamenický Mazovia MIK Iran System
Platforma özgü	ATASCII CDC görüntü kodu DEC-MCS DEC Radix-50 Fieldata GSM 03.38 HP roman8 PETSCII TI calculator character sets Wang International Standard Code for Information Interchange ZX Spectrum character set
Unicode / ISO/IEC 10646	UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-7 UTF-1 UTF-EBCDIC GB 18030 SCSU BOCU-1
Diğer	APL Cork HZ IBM code page 1133 KOI8 TRON
İlgili konular	kontrol karakteri CCSID Karakter seti saptama Han birleştirmesi ISO 6429/IEC 6429/ANSI X3.64 mojibake