"Fossies" - the Fresh Open Source Software archive 
Mit den in UCS enthaltenen Zeichen können praktisch alle bekannten Sprachen dargestellt werden. Dies umfasst nicht nur die lateinische, griechische, kyrillische, hebräische, arabische, armenische und georgische Schrift, sondern auch chinesische, japanische und koreanische Han-Ideogramme sowie Schriften wie Hiragana, Katakana, Hangul, Devanagari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayalam, Thai, Lao, Khmer, Bopomofo, Tibetisch, Runen, Äthiopisch, Canadian Syllabics (für die Sprachen kanadischer Ureinwohner), Cherokee, Mongolisch, Ogham, Birmanisch, Sinhala, Thaana, Yi und andere. Für noch nicht abgedeckte Schriften wird weiter daran geforscht, wie sie am besten für Computernutzung kodiert werden. Eines Tages werden auch sie aufgenommen werden. Dazu könnten nicht nur Hieroglyphen und verschiedene historische indoeuropäische Sprachen gehören, sondern auch einige ausgewählte Kunstsprachen wie Tengwar, Cirth und Klingonisch. UCS umfasst auch eine große Anzahl von grafischen, typografischen, mathematischen und wissenschaftlichen Symbolen, einschließlich den von TeX, PostScript, APL, MS-DOS, MS-Windows, Macintosh, OCR-Schriften zur Verfügung gestellten, ebenso wie die Schriften vieler Textverarbeitungs- und Publishing-Systeme. Und es kommen weitere hinzu.
Der UCS-Standard (ISO 10646) beschreibt eine 31-Bit-Zeichensatzarchitektur. Sie besteht aus 128 24-Bit-Gruppen, die jeweils in 256 16-Bit-Ebenen aus 256 8-Bit-Reihen mit 256 Spalten (eine für jedes Zeichen) aufgeteilt sind. Teil 1 der Norm (ISO 10646-1) definiert die ersten 65534 Code-Positionen (0x0000 bis 0xfffd), welche die Basic Multilingual Plane (BMP) bilden, also Ebene 0 in der Gruppe 0. Teil 2 der Norm (ISO 10646-2) fügt der Gruppe 0 Zeichen außerhalb der BMP in mehreren ergänzenden Ebenen im Bereich 0x10000 bis 0x10ffff zu. Es ist nicht geplant, der Norm Zeichen jenseits von 0x10ffff hinzuzufügen. Damit wird in absehbarer Zukunft aus dem gesamten Code-Raum nur ein kleiner Teil der Gruppe 0 tatsächlich verwendet werden. Die BMP enthält alle Zeichen anderer häufig verwendeter Zeichensätze. Die Ergänzungsebenen nach ISO 10646-2 decken nur eher exotische Zeichen für spezielle Anforderungen in der Wissenschaft, dem Druck von Wörterbüchern, dem Verlagswesen und übergeordneten Protokollen sowie von Enthusiasten ab.
Die Darstellung jedes einzelnen UCS-Zeichens als 2-Byte-Wort wird als die UCS-2 Form (nur für BMP-Zeichen) bezeichnet, während UCS-4 die einzelnen Zeichen durch ein 4-Byte-Wort darstellt. Darüber hinaus gibt es die zwei Codierungsformen UTF-8 für Abwärtskompatibilität mit ASCII-Software und UTF-16 für die abwärtskompatible Bearbeitung von Nicht-BMP-Zeichen bis 0x10FFFF durch UCS-2-Software.
Die UCS-Zeichen 0x0000 bis 0x007f sind mit denen des klassischen US-ASCII-Zeichensatzes und die Zeichen im Bereich von 0x0000 bis 0x00ff mit denen des ISO-8859-1-Latin-1-Zeichensatzes identisch.
Kombinationszeichen sind wesentlich zum Beispiel für die Codierung der Thai-Schrift, für den Satz mathematischer Formeln und Nutzer der internationalen Lautschrift.
Der vom Unicode Consortium veröffentlichte Standard Unicode 3.0 enthält genau die UCS Basic Multilingual Plane auf der Implementierungsstufe 3, wie in ISO 10646-1:2000 beschrieben. Unicode 3.1 fügte die zusätzlichen Ebenen von ISO 10646-2 hinzu. Der Unicode-Standard und vom Unicode Consortium veröffentlichte technische Berichte bieten viele zusätzliche Informationen über die Semantik und die empfohlene Verwendung der verschiedenen Zeichen. Sie geben Richtlinien und Algorithmen für die Bearbeitung, das Sortieren, Vergleichen, Normalisieren, Umwandeln und Anzeigen von Unicode-Zeichenketten.
UCS/Unicode in der ASCII-kompatiblen UTF-8-Multibyte-Codierung kann wie ASCII in Ein-/Ausgabe-Datenströmen, zur Terminal-Kommunikation, in Klartext-Dateien, Dateinamen und Umgebungsvariablen verwendet werden. Um allen Anwendungen die Verwendung von UTF-8 als Zeichencodierung bekannt zu geben, muss mittels Umgebungsvariablen (z.B. »LANG = en_GB.UTF-8«) eine geeignete Locale festgelegt werden.
Die Funktion nl_langinfo(CODESET) gibt den Namen der ausgewählten Codierung zurück. Mit Bibliotheksfunktionen wie wctomb(3) und mbsrtowcs(3) können die internen wchar_t-Zeichen und Zeichenketten in die System-Zeichenkodierung konvertiert werden (und auch wieder zurück). wcwidth(3) gibt an, wie viele Positionen (0en2) der Cursor durch die Ausgabe eines Zeichens weitergesetzt wird.
Unter Linux sollte derzeit im Allgemeinen nur die BMP der Implementierungsstufe 1 verwendet werden. Einige UTF-8-Terminalemulatoren und ISO-10646-Schriftarten (Stufe 2) unterstützen für bestimmte Schriften (insbesondere Thai) bis zu zwei Kombinationszeichen pro Basiszeichen. Im Allgemeinen sollten aber fertige Zeichen vorgezogen werden, soweit sie verfügbar sind. (Die Unicode-Bezeichnung dafür ist Normalization Form C).
Dies ist die offizielle UCS-Spezifikation. Sie kann als PDF-Datei auf einer CD-ROM von http://www.iso.ch/ bezogen werden.
Ein gutes Fachbuch über die Programmiersprache C. Die vierte Auflage behandelt jetzt auch den Nachtrag (Amendment) 1 von 1994 zum ISO-C-Standard (ISO/IEC 9899:1990), der eine große Anzahl neuer C-Bibliotheksfunktionen zum Umgang mit Zeichensätzen von mehr als 8 Bit pro Zeichen hinzufügt. Das Buch behandelt aber noch nicht ISO-C99-Standard, welcher die Unterstützung von Mehrbyte-Zeichen weiter verbesserte.
http://www.unicode.org/unicode/reports/
http://www.cl.cam.ac.uk/~mgk25/unicode.htmlBietet Informationen zum Abonnieren der Mailing-Liste linux-utf8. Dort bekommen Sie am ehesten Rat für die Verwendung von Unicode unter Linux.
Diese Übersetzung ist Freie Dokumentation; lesen Sie die GNU General Public License Version 3 oder neuer bezüglich der Copyright-Bedingungen. Es wird KEINE HAFTUNG übernommen.
Wenn Sie Fehler in der Übersetzung dieser Handbuchseite finden, schicken Sie bitte eine E-Mail an <debian-l10n-german@lists.debian.org>.