"Fossies" - the Fresh Open Source Software Archive 
Member "tin-2.6.2/doc/umlaute.txt" (23 Aug 2021, 4947 Bytes) of package /linux/misc/tin-2.6.2.tar.xz:
As a special service "Fossies" has tried to format the requested text file into HTML format (style:
standard) with prefixed line numbers.
Alternatively you can here
view or
download the uninterpreted source code file.
1 Zeichensatz- und Umlautebehandlung in tin
2 =========================================
3
4 Umlaute beim Lesen
5 ------------------
6
7 Nachdem ein Posting vom Newsserver geladen wurde, prüft tin, ob im Header
8 ein Zeichensatz deklariert wurde. Falls nicht, wird der (gerade passende)
9 Wert aus der attributes-Datei für undeclared_charset angenommen, wenn es den
10 auch nicht gibt, nimmt tin US-ASCII an.
11
12 Anschließend wird das Posting in den lokalen Zeichensatz konvertiert. Dieser
13 Zeichensatz ist im Locale angegeben, den Du normalerweise mittels
14 Umgebungsvariablen setzt (LANG, LC_*). Sollte das Posting Zeichen enthalten,
15 die im Header angegebenen bzw. durch tin angenommenen Zeichensatz nicht
16 vorkommen (z. B. 8-Bit-Zeichen bei US-ASCII- oder fehlender Deklaration),
17 werden sie durch Fragezeichen ersetzt. Enthält das Posting Zeichen, die im
18 lokalen Zeichensatz nicht vorkommen (z. B. Euro-Zeichen in einer
19 ISO-8859-1-Umgebung), werden diese ebenfalls durch Fragezeichen ersetzt. Das
20 so konvertierte Posting wird dann angezeigt.
21
22
23 Umlaute beim Schreiben
24 ----------------------
25
26 Solltest Du auf die Idee kommen, auf ein Posting antworten, wird das wie
27 oben beschrieben konvertierte Posting an den Editor übergeben. Der sollte
28 dann natürlich auch mit dem lokalen Zeichensatz umgehen können (joe hat zum
29 Beispiel Probleme mit UTF-8, den sollte man dann nicht nehmen). Dort
30 bearbeitest Du dann Deine Antwort ganz normal und beendest den Editor
31 wieder, um zu tin zurückzugelangen.
32
33 Wenn Du die Antwort verschickst, schaut tin nach, in welchem Zeichensatz Du
34 das tun möchtest: Entweder hast Du das in der attributes-Datei für die
35 jeweilige Gruppe (oder mehrere davon) oder global in der tinrc-Datei in
36 mm_network_charset festgelegt. Letzteres geht auch über das Menü: der Punkt
37 heißt MM_NETWORK_CHARSET. Tin konvertiert dann das Posting oder die Mail vom
38 lokalen Zeichensatz in den angegebenen Zeichensatz um. Auch hier kann es
39 dann passieren, daß Du lokal Zeichen verwendet hast, die im Zielzeichensatz
40 nicht verfügbar sind. Wie schon beim Anzeigen werden dann solche Zeichen in
41 Fragezeichen umgewandelt. In diesem Fall gibt tin außerdem eine Warnung aus,
42 so daß Du vor dem Posten noch korrigierend eingreifen kannst.
43
44
45 Wenn die Fragezeichen nerven
46 ----------------------------
47
48 Als erstes solltest Du sicherstellen, daß tin auch weiß, welchen lokalen
49 Zeichensatz Du zur Anzeige verwendest. Tin fragt dazu die "locales" ab. Gib
50 in der Kommandozeile einfach mal den Befehl `locale` ein, alternativ `echo
51 $LANG, $LC_CTYPE`. Herauskommen sollte etwas wie "de_DE.ISO-8859-1", also ein
52 Sprachencode (hier de) gefolgt von einem Unterstrich, einem Ländercode (hier
53 DE) gefolgt von einem Punkt und ein Zeichensatz (hier ISO-8859-1).
54
55 Ist das nicht der Fall, solltest Du entweder LANG oder LC_CTYPE auf einen
56 für Dich passenden Wert stellen. Diesen Wert kannst Du wie oben beschrieben
57 zusammensetzen. In der französischsprachigen Schweiz und in einem Terminal,
58 das UTF-8 darstellt, würdest Du in der bash und in der ksh zum Beispiel den
59 Befehl `LC_CTYPE=fr_CH.UTF-8; export LC_CTYPE` verwenden; in der (t)csh
60 lautet er `setenv LC_CTYPE fr_CH.UTF-8`.
61
62 Im nächsten Schritt solltest Du in der attributes-Datei (im
63 .tin-Verzeichnis) einen Zeichensatz einstellen, der angenommen wird, wenn im
64 Posting keiner angegeben ist. Zum Beispiel so:
65
66 scope=*
67 undeclared_charset=Windows-1252
68
69 Damit legst Du für alle Newsgruppen fest, daß als Zeichensatz Windows-1252
70 angenommen werden soll. Da die meisten Leute unter Windows arbeiten dürften
71 und für Nordamerika sowie Westeuropa unter Window dieser Zeichensatz
72 voreingestellt ist, und dieser Zeichensatz im wesentlichen kompatibel zum
73 weit verbreiteten ISO-8859-1-Satz ist, ist das eine recht gute Näherung. Für
74 spezielle Newsgruppen solltest Du das ggf. in einem weiteren Eintrag ändern.
75 So ist zum Beispiel u.a. in der Hierarchie pl.* der Zeichensatz ISO 8859-2
76 üblich:
77
78 scope=pl.*,cz.*,hin.*,sk.*,hr.*
79 undeclared_charset=ISO-8859-2
80
81 Insbesondere in Fernost dürften hier noch andere Einstellungen notwendig
82 sein, beispielsweise so:
83
84 scope=chinese.*,alt.chinese.text.big5,tw.*
85 undeclared_charset=Big5
86
87 scope=fj.*,jp.*,japan.*
88 undeclared_charset=ISO-2022-JP
89
90 Sollten auch diese Einstellungen zu keinem Erfolg führen, sind die Locales
91 des Systems entweder nicht vorhanden oder kaputt. Zumindest in ersterem Fall
92 wäre es angebracht, ein entsprechendes Paket zu installieren (oder
93 installieren zu lassen). Libiconv von Bruno Haible wäre da eine sinnvolle
94 Wahl.
95
96 Wenn auch das nicht möglich ist, bleibt als allerletzte Möglichkeit nur, tin
97 neu zu compilieren. Dazu vorher `make distclean` und configure zusätzlich zu
98 den normalen Optionen mit --disable-locale aufrufen. In diesem Fall geht tin
99 grundsätzlich davon aus, daß die Postings im lokalen Zeichensatz zu
100 interpretieren sind. Hinweis: Das kann schon mal dazu führen, daß das
101 Terminal nur noch "komische" Zeichen ausgibt oder die Zeichen nicht da
102 ausgegeben werden, wo sie hinsollen.