Leerzeichen in chinesischen Texten

Gängige(?) Meinung ist, dass alle chinesischen Schriftzeichen den gleichen Abstand voneinander haben, siehe etwa http://de.wikipedia.org/wiki/Chinesische_Schrift:

„Bei Chinesischer Schrift, die mit chinesischen Schriftzeichen wiedergegeben wird, werden keine Wortgrenzen, wie beispielsweise durch Leerzeichen, markiert, denn die Schriftzeichen haben alle den gleichen Abstand voneinander.“

Für den Lernenden wäre es aber, insbesondere beim Übersetzen aus dem Chinesischen, überaus praktisch, wenn er aus der Schreibweise schon erkennen könnte, welche Silben zusammen eine Bedeutung haben, die über die Bedeutungen der einzelnen Bestandteile hinausgeht.

Heute habe ich eine Seite gesehen, bei der zunächst alle Silben durch zusätzliche Leerzeichen voneinander getrennt sind außer in den Fällen, wo es sich eben um Begriffe aus zwei oder mehr Silben handelt. Es war übrigens gar nicht so einfach, dies zu entdecken, da die zusätzlichen Leerzeichen gegenüber den „fetten“ chinesischen Zeichen so schmal sind, dass es zunächst nur wie ein unsauberes Schriftbild aussah. Welche Seite war es nun?

Der „Leiden Weibo Corpus“, http://lwc.daanvanesch.nl, der 100 Millionen Wörter aus 5,1 Millionen Microblog-Nachrichten in chinesischer Sprache enthält, zeigt das beschriebene Phänomen.

Natürlich ist es kein Phänomen, das untersucht werden müsste, sondern es stellen sich mir nur ein paar Fragen:

1. Gibt es noch andere Texte im WWW mit dieser besonderen Eigenschaft?

2. Wie wurde das gemacht? Die gesammelten Microblogs dürften die Leerzeichen im Original wohl kaum aufgewiesen haben, es hätte ja jeder so schreiben müssen.

3. Gibt es ein Programm, mit dem man einem chinesischen Text automatisch die benötigten Leerzeichen hinzufügen kann?

Advertisements

Über zhongxiong

peter.preus@gmx.de peter-preus.de
Dieser Beitrag wurde unter Uncategorized abgelegt und mit , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

2 Antworten zu Leerzeichen in chinesischen Texten

  1. daanintaiwan schreibt:

    Thanks for your post on my corpus. I can read German but I can’t write it very well, so I hope you’ll forgive me for replying in English. The word boundaries were not in the original microblog posts; I added them using a Java tool, the Stanford Chinese Word Segmenter. This tool is available freely from http://nlp.stanford.edu/software/segmenter.shtml. It runs on the command line, so it’s not very user-friendly, unfortunately.

    However, I believe there are browser plug-ins that can do this for you on any web page. You may want to try Perapera Chinese Popup Dictionary or the MDBG reader. I haven’t tried either of these tools personally but I’ve heard good things about them.

    Hope this helps a bit!

    • zhongxiong schreibt:

      Dank je für die schnelle und gute Antwort auf meine Fragen. Ich werde die genannten Programme in den nächsten Tagen ausprobieren und dann hier noch einmal berichten.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s