"Fossies" - the Fresh Open Source Software Archive

Member "tin-2.4.1/doc/umlaute.txt" (28 Aug 2013, 4947 Bytes) of archive /linux/misc/tin-2.4.1.tar.gz:


As a special service "Fossies" has tried to format the requested text file into HTML format (style: standard) with prefixed line numbers. Alternatively you can here view or download the uninterpreted source code file.

    1 Zeichensatz- und Umlautebehandlung in tin
    2 =========================================
    3 
    4 Umlaute beim Lesen
    5 ------------------
    6 
    7 Nachdem ein Posting vom Newsserver geladen wurde, prüft tin, ob im Header
    8 ein Zeichensatz deklariert wurde. Falls nicht, wird der (gerade passende)
    9 Wert aus der attributes-Datei für undeclared_charset angenommen, wenn es den
   10 auch nicht gibt, nimmt tin US-ASCII an.
   11 
   12 Anschließend wird das Posting in den lokalen Zeichensatz konvertiert. Dieser
   13 Zeichensatz ist im Locale angegeben, den Du normalerweise mittels
   14 Umgebungsvariablen setzt (LANG, LC_*). Sollte das Posting Zeichen enthalten,
   15 die im Header angegebenen bzw. durch tin angenommenen Zeichensatz nicht
   16 vorkommen (z. B. 8-Bit-Zeichen bei US-ASCII- oder fehlender Deklaration),
   17 werden sie durch Fragezeichen ersetzt. Enthält das Posting Zeichen, die im
   18 lokalen Zeichensatz nicht vorkommen (z. B. Euro-Zeichen in einer
   19 ISO-8859-1-Umgebung), werden diese ebenfalls durch Fragezeichen ersetzt. Das
   20 so konvertierte Posting wird dann angezeigt.
   21 
   22 
   23 Umlaute beim Schreiben
   24 ----------------------
   25 
   26 Solltest Du auf die Idee kommen, auf ein Posting antworten, wird das wie
   27 oben beschrieben konvertierte Posting an den Editor übergeben. Der sollte
   28 dann natürlich auch mit dem lokalen Zeichensatz umgehen können (joe hat zum
   29 Beispiel Probleme mit UTF-8, den sollte man dann nicht nehmen). Dort
   30 bearbeitest Du dann Deine Antwort ganz normal und beendest den Editor
   31 wieder, um zu tin zurückzugelangen.
   32 
   33 Wenn Du die Antwort verschickst, schaut tin nach, in welchem Zeichensatz Du
   34 das tun möchtest: Entweder hast Du das in der attributes-Datei für die
   35 jeweilige Gruppe (oder mehrere davon) oder global in der tinrc-Datei in
   36 mm_network_charset festgelegt. Letzteres geht auch über das Menü: der Punkt
   37 heißt MM_NETWORK_CHARSET. Tin konvertiert dann das Posting oder die Mail vom
   38 lokalen Zeichensatz in den angegebenen Zeichensatz um. Auch hier kann es
   39 dann passieren, daß Du lokal Zeichen verwendet hast, die im Zielzeichensatz
   40 nicht verfügbar sind. Wie schon beim Anzeigen werden dann solche Zeichen in
   41 Fragezeichen umgewandelt. In diesem Fall gibt tin außerdem eine Warnung aus,
   42 so daß Du vor dem Posten noch korrigierend eingreifen kannst.
   43 
   44 
   45 Wenn die Fragezeichen nerven
   46 ----------------------------
   47 
   48 Als erstes solltest Du sicherstellen, daß tin auch weiß, welchen lokalen
   49 Zeichensatz Du zur Anzeige verwendest. Tin fragt dazu die "locales" ab. Gib
   50 in der Kommandozeile einfach mal den Befehl `locale` ein, alternativ `echo
   51 $LANG, $LC_CTYPE`. Herauskommen sollte etwas wie "de_DE.ISO-8859-1", also ein
   52 Sprachencode (hier de) gefolgt von einem Unterstrich, einem Ländercode (hier
   53 DE) gefolgt von einem Punkt und ein Zeichensatz (hier ISO-8859-1).
   54 
   55 Ist das nicht der Fall, solltest Du entweder LANG oder LC_CTYPE auf einen
   56 für Dich passenden Wert stellen. Diesen Wert kannst Du wie oben beschrieben
   57 zusammensetzen. In der französischsprachigen Schweiz und in einem Terminal,
   58 das UTF-8 darstellt, würdest Du in der bash und in der ksh zum Beispiel den
   59 Befehl `LC_CTYPE=fr_CH.UTF-8; export LC_CTYPE` verwenden; in der (t)csh
   60 lautet er `setenv LC_CTYPE fr_CH.UTF-8`.
   61 
   62 Im nächsten Schritt solltest Du in der attributes-Datei (im
   63 .tin-Verzeichnis) einen Zeichensatz einstellen, der angenommen wird, wenn im
   64 Posting keiner angegeben ist. Zum Beispiel so:
   65 
   66 scope=*
   67 undeclared_charset=Windows-1252
   68 
   69 Damit legst Du für alle Newsgruppen fest, daß als Zeichensatz Windows-1252
   70 angenommen werden soll. Da die meisten Leute unter Windows arbeiten dürften
   71 und für Nordamerika sowie Westeuropa unter Window dieser Zeichensatz
   72 voreingestellt ist, und dieser Zeichensatz im wesentlichen kompatibel zum
   73 weit verbreiteten ISO-8859-1-Satz ist, ist das eine recht gute Näherung. Für
   74 spezielle Newsgruppen solltest Du das ggf. in einem weiteren Eintrag ändern.
   75 So ist zum Beispiel u.a. in der Hierarchie pl.* der Zeichensatz ISO 8859-2
   76 üblich:
   77 
   78 scope=pl.*,cz.*,hin.*,sk.*,hr.*
   79 undeclared_charset=ISO-8859-2
   80 
   81 Insbesondere in Fernost dürften hier noch andere Einstellungen notwendig
   82 sein, beispielsweise so:
   83 
   84 scope=chinese.*,alt.chinese.text.big5,tw.*
   85 undeclared_charset=Big5
   86 
   87 scope=fj.*,jp.*,japan.*
   88 undeclared_charset=ISO-2022-JP
   89 
   90 Sollten auch diese Einstellungen zu keinem Erfolg führen, sind die Locales
   91 des Systems entweder nicht vorhanden oder kaputt. Zumindest in ersterem Fall
   92 wäre es angebracht, ein entsprechendes Paket zu installieren (oder
   93 installieren zu lassen). Libiconv von Bruno Haible wäre da eine sinnvolle
   94 Wahl.
   95 
   96 Wenn auch das nicht möglich ist, bleibt als allerletzte Möglichkeit nur, tin
   97 neu zu compilieren. Dazu vorher `make distclean` und configure zusätzlich zu
   98 den normalen Optionen mit --disable-locale aufrufen. In diesem Fall geht tin
   99 grundsätzlich davon aus, daß die Postings im lokalen Zeichensatz zu
  100 interpretieren sind. Hinweis: Das kann schon mal dazu führen, daß das
  101 Terminal nur noch "komische" Zeichen ausgibt oder die Zeichen nicht da
  102 ausgegeben werden, wo sie hinsollen.