Discussion:
UTF8-codierter Text, fontenc T1 und Umlaut in \hyphenation{}
(zu alt für eine Antwort)
Nikolaus Schulz
2006-01-21 20:15:30 UTC
Permalink
Hallo Leute!

Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
Auch nach ausgiebiger, entnervender Recherche blick ich nicht, warum.
Hat jemand hier eine Idee?

----- Beispiel in UTF-8 ------

% -*- coding: utf-8 -*-
\documentclass{article}
\usepackage{ucs}
\usepackage[utf8x]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
\begin{document}
Etwas Text.
\end{document}

----- Ende Beispiel in UTF-8 ------

Der Übersetzungsversuch erzeugt folgende Logdatei.
Offensichtlichen Overhead hab ich rausgekürzt.

------ Logdatei, leicht gekürzt -------

This is e-TeX, Version 3.14159-2.1 (Web2C 7.4.5) (format=latex 2006.1.9) 21 JAN 2006 19:51
entering extended mode
**test-utf8.tex
(./test-utf8.tex
LaTeX2e <2001/06/01>
Babel <v3.7h> and hyphenation patterns for american, french, german, ngerman, b
ahasa, basque, catalan, croatian, czech, danish, dutch, finnish, greek, iceland
ic, irish, italian, latin, magyar, norsk, norsk, portuges, romanian, russian, s
lovak, slovene, spanish, swedish, turkish, ukrainian, nohyphenation, loaded.
(/usr/share/texmf/tex/latex/base/article.cls
Document Class: article 2001/04/21 v1.4e Standard LaTeX document class
(/usr/share/texmf/tex/latex/base/size10.clo
File: size10.clo 2001/04/21 v1.4e Standard LaTeX file (size option)
)
<snip>
)
(/usr/share/texmf/tex/latex/ucs/ucs.sty
Package: ucs 2004/10/17 UCS: Unicode input support

(/usr/share/texmf/tex/latex/ucs/data/uni-global.def
File: uni-global.def 2005/04/14 UCS: Unicode global data
)
\***@secondtry=\count87
\***@combtoks=\toks14
\***@combtoksb=\toks15
\***@temptokena=\toks16
)
(/usr/share/texmf/tex/latex/base/inputenc.sty
Package: inputenc 2001/07/10 v0.99a Input encoding file
LaTeX Info: Redefining \IeC on input line 71.

(/usr/share/texmf/tex/latex/ucs/utf8x.def
File: utf8x.def 2004/10/17 UCS: Input encoding UTF-8
))
(/usr/share/texmf/tex/generic/babel/babel.sty
Package: babel 2001/03/01 v3.7h The Babel package

(/usr/share/texmf/tex/generic/babel/germanb.ldf
Language: germanb 2001/01/26 v2.6k German support from the babel system

(/usr/share/texmf/tex/generic/babel/babel.def
File: babel.def 2001/03/01 v3.7h Babel common definitions
\***@savecnt=\count88
\***@D=\dimen103
)
\***@austrian = a dialect from \language\***@german
Package babel Info: Making " an active character on input line 72.
))
(/usr/share/texmf/tex/latex/base/fontenc.sty
Package: fontenc 2001/06/05 v1.94 Standard LaTeX package

(/usr/share/texmf/tex/latex/base/t1enc.def
File: t1enc.def 2001/06/05 v1.94 Standard LaTeX file
LaTeX Font Info: Redeclaring font encoding T1 on input line 38.
))
! Improper \hyphenation will be flushed.
^^c3...95-\string #1\endcsname \relax \begingroup
\let \***@viii@undeferr \@...
l.10 \hyphenation{In-du-strie-l^^c3^^a4
nd-der}
? X

------- Ende Logdatei ---------

Also nochmal: wer weiß mehr? Ist Linux reif für Unicode? :-)

Ansonsten wünsch ich allen hier ein schönes Wochenende!
Nikolaus
Rolf Niepraschk
2006-01-21 22:05:12 UTC
Permalink
Post by Nikolaus Schulz
Hallo Leute!
Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
Auch nach ausgiebiger, entnervender Recherche blick ich nicht, warum.
Hat jemand hier eine Idee?
...

Was da schief läuft, kann ich jetzt nicht sagen. Es funktioniert aber so:

\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
\begin{document}
Etwas Text. Industrieländer
\end{document}

Das Paket "ucs" wird soviel ich weiß nur bei besonders "exotischen"
Zeichen nötig sein.

...Rolf
Nikolaus Schulz
2006-01-22 16:41:52 UTC
Permalink
Post by Nikolaus Schulz
\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
\begin{document}
Etwas Text. Industrieländer
\end{document}
... und welche TeX-Version tut das bei dir?

Nikolaus
Rolf Niepraschk
2006-01-22 19:31:01 UTC
Permalink
Post by Nikolaus Schulz
Post by Nikolaus Schulz
\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
\begin{document}
Etwas Text. Industrieländer
\end{document}
... und welche TeX-Version tut das bei dir?
TeX-Version?

tex --version
TeX 3.141592 (Web2C 7.5.5)

Vermutlich meinst Du aber her die LaTeX-Version und dabei wohl die von
`inputenc':

inputenc.sty 2004/02/05 v1.0d

...Rolf
Nikolaus Schulz
2006-01-22 21:30:09 UTC
Permalink
Post by Rolf Niepraschk
Post by Nikolaus Schulz
Post by Nikolaus Schulz
\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
\begin{document}
Etwas Text. Industrieländer
\end{document}
... und welche TeX-Version tut das bei dir?
TeX-Version?
Nein, latürnich nicht.
Post by Rolf Niepraschk
tex --version
TeX 3.141592 (Web2C 7.5.5)
Vermutlich meinst Du aber her die LaTeX-Version und dabei wohl die von
inputenc.sty 2004/02/05 v1.0d
Ich dachte da eher so an den Output von \listfiles. :-)
Wahlweise Angaben zum Paket, das der Distributor Deines Vertrauens
geschnürt hat, aus reiner Neugierde.

Guten Abend,
Nikolaus
Rolf Niepraschk
2006-01-23 12:28:30 UTC
Permalink
Nikolaus Schulz schrieb:
...
Post by Nikolaus Schulz
Ich dachte da eher so an den Output von \listfiles. :-)
Wahlweise Angaben zum Paket, das der Distributor Deines Vertrauens
geschnürt hat, aus reiner Neugierde.
Die "Distribution meines Vertrauens" ist TeXLive 2006. Gibt es, wie ich
höre auch in Form von Debian-Paketen. Unabhängig davon empfehle ich sie
sehr.

...Rolf
Georg Verweyen
2006-01-23 13:06:02 UTC
Permalink
Post by Rolf Niepraschk
Die "Distribution meines Vertrauens" ist TeXLive 2006.
^^^^
Kannst du das Image irgendwo ins Netz stellen, das würde einigen Leuten
im Herbst ne Menge Arbeit ersparen :-D
G.
Frank Küster
2006-01-23 14:34:19 UTC
Permalink
Post by Rolf Niepraschk
...
Post by Nikolaus Schulz
Ich dachte da eher so an den Output von \listfiles. :-)
Wahlweise Angaben zum Paket, das der Distributor Deines Vertrauens
geschnürt hat, aus reiner Neugierde.
Die "Distribution meines Vertrauens" ist TeXLive 2006.
Willkommen in der Zukunft.
Post by Rolf Niepraschk
Gibt es, wie ich
höre auch in Form von Debian-Paketen.
Leider gibt es Debian-Pakete nur von TeXLive 2005, weil wir es mit der
Zukunft bei Debian nicht so haben. Aber dafür gibt's die Debian-Pakete
seit neuestem nicht nur unter http://www.tug.org/texlive/debian.html,
sondern auch in Debian experimental.

Gruß, Frank
--
In der Zeit, in der man einen defekten Riegel derartig seziert hat, dass man
verlässlich bestimmte Speicherbereich als "heile" garantieren(!) kann, kann
man auch Pfandflaschen im Stadtpark sammeln, dass reicht dann für einen
doppelt so großen neuen Riegel. ;) [Jörg Rossdeutscher in d-u-***@l.d.o]
Rolf Niepraschk
2006-01-23 21:57:00 UTC
Permalink
Post by Rolf Niepraschk
...
Post by Nikolaus Schulz
Ich dachte da eher so an den Output von \listfiles. :-)
Wahlweise Angaben zum Paket, das der Distributor Deines Vertrauens
geschnürt hat, aus reiner Neugierde.
Die "Distribution meines Vertrauens" ist TeXLive 2006. Gibt es, wie ich
höre auch in Form von Debian-Paketen. Unabhängig davon empfehle ich sie
sehr.
Gut. Gut. Ich sollte wohl doch besser ein paar Kopfschmerztabletten
nehmen, statt hier zu posten.

...Rolf

Heiko Oberdiek
2006-01-21 22:07:35 UTC
Permalink
Post by Nikolaus Schulz
Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
Auch nach ausgiebiger, entnervender Recherche blick ich nicht, warum.
Hat jemand hier eine Idee?
----- Beispiel in UTF-8 ------
% -*- coding: utf-8 -*-
\documentclass{article}
\usepackage{ucs}
\usepackage[utf8x]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
Zumindest bei der Version 2004/10/17 von utf8x.def sind die
entsprechenden Zeichen nicht expandierbar und zerbrechen
daher im \hyphenation-Befehl.

Aber brauchst du "ucs" wirklich? Tut's nicht auch
die einfachere Variante aus latex/base ohne ucs?

\usepackage[utf8]{inputenc}

Hier sind die Umlaute expandierbar und sollten im \hyphenation-Befehl
funktionieren.

Viele Grüße
Heiko <***@uni-freiburg.de>
Nikolaus Schulz
2006-01-21 23:43:34 UTC
Permalink
Post by Heiko Oberdiek
Post by Nikolaus Schulz
Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
Auch nach ausgiebiger, entnervender Recherche blick ich nicht, warum.
Hat jemand hier eine Idee?
----- Beispiel in UTF-8 ------
% -*- coding: utf-8 -*-
\documentclass{article}
\usepackage{ucs}
\usepackage[utf8x]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-län-der}
Zumindest bei der Version 2004/10/17 von utf8x.def sind die
entsprechenden Zeichen nicht expandierbar und zerbrechen
daher im \hyphenation-Befehl.
Hm, okay, ich übersetze mal in meine Begriffswelt: das Ding ist
also kaputt. :-) Nunja.
Das Thema 'Zerbrechliche Befehle' ist bisher jenseits meines Horizonts,
aber danke für die Erklärung.
Post by Heiko Oberdiek
Aber brauchst du "ucs" wirklich? Tut's nicht auch
die einfachere Variante aus latex/base ohne ucs?
\usepackage[utf8]{inputenc}
Hier sind die Umlaute expandierbar und sollten im \hyphenation-Befehl
funktionieren.
Tun sie aber leider nicht. Die Verwendung des ucs-Pakets war bereits ein
Lösungsversuch. Mir scheint allerdings -- mindestens auf dem
Ubuntu-System hier -- '\usepackage[utf]{inputenc}' ohnehin das
ucs-Paket zu verwenden:

***@flotterotto[base]$ find /usr/share/texmf/latex/ -name '*utf*'
/usr/share/texmf/tex/latex/ucs/utf8.def
/usr/share/texmf/tex/latex/ucs/utf8x.def

Beides gehört offensichtlich zum Debian-Paket latex-ucs, und utf8.def
ist ein Symlink auf utf8.def.

Wo finde ich diese einfachere Variante?

Thx,
Nikolaus
Heiko Oberdiek
2006-01-22 09:29:57 UTC
Permalink
Post by Nikolaus Schulz
Post by Heiko Oberdiek
Post by Nikolaus Schulz
Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
Aber brauchst du "ucs" wirklich? Tut's nicht auch
die einfachere Variante aus latex/base ohne ucs?
\usepackage[utf8]{inputenc}
Hier sind die Umlaute expandierbar und sollten im \hyphenation-Befehl
funktionieren.
Tun sie aber leider nicht. Die Verwendung des ucs-Pakets war bereits ein
Lösungsversuch. Mir scheint allerdings -- mindestens auf dem
Ubuntu-System hier -- '\usepackage[utf]{inputenc}' ohnehin das
/usr/share/texmf/tex/latex/ucs/utf8.def
/usr/share/texmf/tex/latex/ucs/utf8x.def
Beides gehört offensichtlich zum Debian-Paket latex-ucs, und utf8.def
ist ein Symlink auf utf8.def.
Das ist falsch. Das utf8.def von ucs wurde zu utf8x.def umbenannt,
damit es keine Namenskollision mit dem utf8.def gibt, das bei
LaTeXs inputenc dabei ist.
Post by Nikolaus Schulz
Wo finde ich diese einfachere Variante?
Vielleicht durch ein Update deiner TeX-Installation.
Spätestens aber auf CTAN. Das utf8.def im ucs-Vezeichnis
sollte aber entfernt werden.

Viele Grüße
Heiko <***@uni-freiburg.de>
Ralf Stubner
2006-01-22 11:38:10 UTC
Permalink
Post by Nikolaus Schulz
Tun sie aber leider nicht. Die Verwendung des ucs-Pakets war bereits ein
Lösungsversuch. Mir scheint allerdings -- mindestens auf dem
Ubuntu-System hier -- '\usepackage[utf]{inputenc}' ohnehin das
/usr/share/texmf/tex/latex/ucs/utf8.def
/usr/share/texmf/tex/latex/ucs/utf8x.def
Beides gehört offensichtlich zum Debian-Paket latex-ucs, und utf8.def
ist ein Symlink auf utf8.def.
Das ist ein bug in latex-ucs, den ich gestern abend noch abgeschickt
habe (#349274 im Debian BTS).
Post by Nikolaus Schulz
Wo finde ich diese einfachere Variante?
In aktuellen TeX Systemen wie teTeX 3.0 oder TeX Live 2005. teTeX 3.0
gibt es zZ in den Entwicklungsversionen von Debian (Sid) und Ubuntu
(Dapper?) und hoffentlich bald auch in Debian testing (Etch). Für Debian
stable (Sarge) gibt es einen Backport auf
<URL:http://people.debian.org/~frank/teTeX-3.0/>. Ob der auch unter
Ubuntu läuft weiß ich nicht. Evtl gibt es aber auch für Ubuntu backports
von Packeten aus Dapper.

TeX Live 2005 gibt es inzwischen auch als Debian Packet
<URL:http://www.tug.org//texlive/Debian/>, aber auch hier weiß ich
nicht, ob diese unter Ubuntu funktionieren.

Man kann aber natürlich auch einfach selber eine aktuelle TeX
Distribution installieren (TeX Live 2005 würde sich anbieten), verliert
dann aber die Integration ins restliche System.

Der workaround, den ich gestern gepostst hatte, sollte aber weiterhin
funktionieren.

cheerio
ralf
Nikolaus Schulz
2006-01-22 16:30:17 UTC
Permalink
Post by Ralf Stubner
Post by Nikolaus Schulz
/usr/share/texmf/tex/latex/ucs/utf8.def
/usr/share/texmf/tex/latex/ucs/utf8x.def
Beides gehört offensichtlich zum Debian-Paket latex-ucs, und utf8.def
ist ein Symlink auf utf8.def.
Das ist ein bug in latex-ucs, den ich gestern abend noch abgeschickt
habe (#349274 im Debian BTS).
Ah.
Post by Ralf Stubner
Post by Nikolaus Schulz
Wo finde ich diese einfachere Variante?
In aktuellen TeX Systemen wie teTeX 3.0 oder TeX Live 2005. teTeX 3.0
gibt es zZ in den Entwicklungsversionen von Debian (Sid) und Ubuntu
(Dapper?) und hoffentlich bald auch in Debian testing (Etch). Für Debian
stable (Sarge) gibt es einen Backport auf
<URL:http://people.debian.org/~frank/teTeX-3.0/>. Ob der auch unter
Ubuntu läuft weiß ich nicht. Evtl gibt es aber auch für Ubuntu backports
von Packeten aus Dapper.
Urks. :-(
Danke für diese Information.

Ich fasse zusammen: mit teTeX <3.0 -- insbesondere mit Debian Sarge und
Ubuntu Breezy -- ist das ucs-Paket die einzige Möglichkeit, in utf-8 zu
teXen. \usepackage[utf8]{inputenc} referenziert auf den besagten
Systemen per Symlink automatisch das ucs-Paket.
Wegen Zerbrechlich-irgendwas (s. Heikos Posting in diesem Thread)
lassen sich damit aber \hyphenation{}-Trennmuster für Worte mit Umlauten
u.ä. nur via Escape-Sequenzen angeben. Das ist m.E. ein (weiterer) Bug.

[ alternativ TeX Live oder upstream-TeX-Distribution installieren ]

Ich habe eine ziemliche Abneigung gegen Backports und ähnliches. Es ist
schon arg genug, daß ich neben meinen Debian-Maschinen (stable)
seit einiger Zeit auch eine Ubuntu-Kiste am Hals habe.
Post by Ralf Stubner
Der workaround, den ich gestern gepostst hatte, sollte aber weiterhin
funktionieren.
So wie's aussieht, ist er wohl noch die beste Lösung. *seufz*


Grüße,
Nikolaus
Ralf Stubner
2006-01-22 18:13:42 UTC
Permalink
Post by Nikolaus Schulz
Wegen Zerbrechlich-irgendwas (s. Heikos Posting in diesem Thread)
lassen sich damit aber \hyphenation{}-Trennmuster für Worte mit Umlauten
u.ä. nur via Escape-Sequenzen angeben. Das ist m.E. ein (weiterer) Bug.
Das liegt an der Implementierung im ucs-Packet. Ob das Ein Desginfehler
oder ein behebbarer Bug ist kann ich nicht sagen. Wobei meines Wissens
nach ucs.sty zZ keinen Mainainer hat.
Post by Nikolaus Schulz
Ich habe eine ziemliche Abneigung gegen Backports und ähnliches. Es ist
schon arg genug, daß ich neben meinen Debian-Maschinen (stable)
seit einiger Zeit auch eine Ubuntu-Kiste am Hals habe.
Zumindest unter Debian Sarge bräuchtest Du aus meiner Sicht vor dem
teTeX 3.0 Backport keine Angst zu haben. Dieser wird von Frank Küster
bereitgestellt, der insgesamt die meiste Arbeit bzgl. teTeX in Debian
macht. Und er verwendet diesen Backport auch selber.

cheerio
ralf
Nikolaus Schulz
2006-01-22 20:46:51 UTC
Permalink
Post by Ralf Stubner
Zumindest unter Debian Sarge bräuchtest Du aus meiner Sicht vor dem
teTeX 3.0 Backport keine Angst zu haben. Dieser wird von Frank Küster
bereitgestellt, der insgesamt die meiste Arbeit bzgl. teTeX in Debian
macht. Und er verwendet diesen Backport auch selber.
Ohne die Details geprüft zu haben: es bedeutet diverse, teilweise
obskure Abhängigkeiten wie libcairo mit ins System zu schleppen, deren
Support keineswegs gewährleistet ist. So steht es ja auch explizit auf
der Seite von Frank Küster.
Okay, es mag bei einem Desktop-System vertretbar sein. In jedem Fall
aber bedeutet es Extrawürste, und Extrawürste machen leicht extra Arbeit.

Nikolaus
Ralf Stubner
2006-01-22 21:47:02 UTC
Permalink
Post by Nikolaus Schulz
Ohne die Details geprüft zu haben: es bedeutet diverse, teilweise
obskure Abhängigkeiten wie libcairo mit ins System zu schleppen,
Nur um dieses Detail zu erklären: Standardmäßig enthält pdfTeX Code aus
xpdf um PDF-Dateien einlesen zu können. Deshalb gibt es (fast) jedesmal
wenn eine Sicherheitslücke in xpdf entdeckt wird auch ein neues
tetex-bin. Viel besser wäre es, wenn dieser Code in einer Bibliothek
stecken würde, wie es zB bei dem Code zum Einlesen von PNG- oder
JPEG-Dateien der Fall ist. Da muss dann nur die Bibliothek ausgetauscht
werden. Zusammen mit libpoppler leistet libcairo genau dies. Und seit
neuesten wird in Debian pdfTeX gegen diese beiden Bibliotheken gelinkt.

Am Ende gilt aber immer noch: use your own judgment ...

cheerio
ralf
Ralf Stubner
2006-01-21 22:02:56 UTC
Permalink
Post by Nikolaus Schulz
Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
[...]
Post by Nikolaus Schulz
Also nochmal: wer weiß mehr? Ist Linux reif für Unicode? :-)
Ich glaube, das hat eher was mit TeX denn mit Linux zu tun. Eine
Erklärung kann ich Dir leider nicht bieten, dafür aber einen Workaround:

% -*- coding: utf-8 -*-
\documentclass{article}
\usepackage{ucs}
\usepackage[utf8x]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-l\"an-der}
\begin{document}
Etwas Text.

\showhyphens{Industrieländer}
\end{document}

cheerio
ralf
Nikolaus Schulz
2006-01-22 15:03:13 UTC
Permalink
Post by Ralf Stubner
Post by Nikolaus Schulz
Bei dem folgenden Demo verschluckt sich LaTeX an dem Umlaut im
\hyphenation-Befehl. Codiere ich die gleiche Datei in latin1, --
ohne das usc-package, und inputenc natürlich entprechend gesetzt -- geht
alles glatt.
[...]
Post by Ralf Stubner
Ich glaube, das hat eher was mit TeX denn mit Linux zu tun. Eine
% -*- coding: utf-8 -*-
\documentclass{article}
\usepackage{ucs}
\usepackage[utf8x]{inputenc}
\usepackage[german]{babel}
\usepackage[T1]{fontenc}
\hyphenation{In-du-strie-l\"an-der}
\begin{document}
Etwas Text.
\showhyphens{Industrieländer}
\end{document}
Ja, das funktioniert hier auch. Ist aber ein echter Würgaround. Wozu dann
Unicode? :-(
Der \showhyphens-Befehl wirft im Log übrigens die latin1-Codierung (0xe4) von
'ä' aus:

<code>
[] \T1/cmr/m/n/10 In-du-strie-l^^e4n-der
</code>

Nikolaus
Ralf Stubner
2006-01-22 15:45:14 UTC
Permalink
Post by Nikolaus Schulz
Post by Ralf Stubner
\hyphenation{In-du-strie-l\"an-der}
[...]
Post by Nikolaus Schulz
Ja, das funktioniert hier auch. Ist aber ein echter Würgaround. Wozu
dann Unicode? :-(
Bei einem aktuellen TeX-System geht es einfacher und besser ...
Post by Nikolaus Schulz
Der \showhyphens-Befehl wirft im Log übrigens die latin1-Codierung
Nicht ganz. Die Formate in teTeX (zumindest in v3.0) werden
normalerweise mit dem 'translate file' cp227.tcx erzeugt. Siehe
fmtutil.cnf. Diese 'translate file' übersetzt eigentlich gar nicht,
sondern gibt einfach das aus, was es von TeX bekommt. Und das 'ä' ist
bei dem von Dir verwendeten T1-Encoding eben auf Position 0xe4, genauso
wie bei Latin1. Unterschiede ergeben sich zB beim 'ß'. Das ist in T1
nämlich auf der Position von 'ÿ' in Latin1. \showhyphens{Maße} ergibt
auf einem Latin1- Terminal eben '\T1/cmr/m/n/10 Ma-ÿe'.

Mir ist nicht bekannt, ob es überhaupt möglich ist TeX dazu zu bringen
an so einer Stelle mehr als ein Byte auszuwerfen, was man für UTF-8-
Ausgabe ja bräuchte.

cheerio
ralf
Loading...