Extract Terminology in No Time | OneClick Terms | Ruckzuck Terminologie extrahieren

[for German scroll down] What do you do when you receive 100 pages to read five minutes before the conference starts? Right, you throw the text into a machine and get out a list of technical terms that give you a rough overview of what it’s all about. Now finally, it looks like this dream has come true.

OneClick Terms by SketchEngine is a browser-based (a big like) terminology extraction tool which works really swiftly. It has all it takes and nothing more (another big like): Upload – Settings – Results.

Once you are logged in for your free trial, OneClickTerms accepts the formats tmx, xliff (2.x), pdf, doc(x), html, txt. The languages supported are Czech, German, English, Spanish, French, Italian, Japanese, Korean, Dutch, Polish, Portuguese, Russian, Slovak, Slovenian, Chinese Simplified, Chinese Traditional.

The settings in my opinion don’t really need to be touched. They include:

  • how rare or common should the extracted terms be
  • would you like to see the word form as it appears in the text or the base form
  • how often should a term candidate occur in the text in order to make it to the list of results
  • do you want numbers to appear in your results
  • how many terms should your list of results contain

When I tried OneClick Terms, it delivered absolutely relevant results at the first go. I uploaded an EU text on the free flow of non-personal data (pdf of about 100 pages) at about 8:55 am and the result I got at 8:57, displayed right on the same website, looked like this (and yes, the small W icons behind the words are links to related Wikipedia articles!):

It actually required rather four clicks than OneClick, but the result was worth the effort. There isn’t a lot of „noise“ (irrelevant terms) in the term candidate list, one of the reasons that often put me off in the past when I tried to use term extraction tools to prepare for an interpreting assignment. In the meeting where I tested OneClickTerms, at the end the only word I missed in the results was the regulatory scrutiny board. Interestingly, it was also missing from the list I had obtained from a German text on the same subject (Ausschuss für Regulierungskontrolle). But all the other relevant terms that popped up during the meeting were there. And what is more, by quickly scanning the extraction list in my target language, German, I could activate a lot of terminology I would otherwise definitely have had to think about twice while interpreting. So to me it definitely is a very efficient way of reducing the cognitive load in simultaneous interpreting.

The results list can be downloaded as a txt file, but copy & paste into MS Excel, for example, works just as fine, plus it puts both single and multi words into the same column. After unmerging all cells the terms can easily be sorted by frequency, which makes your five-minute emergency preparation almost perfect (as perfect as a five-minute preparation can get, that is).

Furthermore, even if you do have enough time for preparation, extracting and scanning the terminology as a first step may help you to focus on the substance when reading the text afterwards.

There is a free one month trial, after that the service can be subscribed to from 100 EUR/year (or 12.32 EUR/month) plus VAT. It includes many other features, like bilingual corpus building – but that’s a different story.

About the author:
Anja Rütten is a freelance conference interpreter for German (A), Spanish (B), English (C) and French (C) based in Düsseldorf, Germany. She has specialised in knowledge management since the mid-1990s.


Noch fünf Minuten bis zum Konferenzbeginn und ein hundertseitiges pdf zur Vorbereitung schneit (hoffentlich elektronisch) in die Kabine. Was macht man? Klar: Text in eine Maschine werfen, Knopf drücken, Terminologieliste wird ausgespuckt. Damit kann man sich dann zumindest einen groben Überblick verschaffen … Nun, es sieht so aus, als sei dieser Traum tatsächlich wahr geworden!

OneClick Terms von SketchEngine ist ein browser-basiertes (super!) Terminologieextraktionstool, das extrem einfach in der Handhabung ist. Es hat alles, was es braucht, und mehr auch nicht (ebenfalls super!). Upload – Einstellungen – Ergebnisse. Fertig.

Wenn man sich mit seinem kostenlosen Testaccount eingewählt hat, kann man eine Datei im folgenden Format hochladen: tmx, xliff (2.x), pdf, doc(x), html, txt. Die unterstützten Sprachen sind Tschechisch, Deutsch, Englisch, Spanisch, Französisch, Italienisch, Japanisch, Koreanisch, Niederländisch, Polnisch, Portugiesisch, Russisch, Slowakisch, Slowenisch, Chinesisch vereinfacht und Chinesisch traditionell.

Die Einstellungen muss man zuächst einmal gar nicht anfassen. Möchte man es doch, kann man folgende Parameter verändern:

  • wie häufig oder selten sollte der extrahierte Terminus sein
  • soll das Wort in der (deklinierten oder konjugierten) Form angezeigt werden, in der es im Text vorkommt, oder in seiner Grundform
  • wie oft muss ein Termkandidat im Text vorkommen, um es auf die Ergebnisliste zu schaffen
  • sollen Zahlen bzw. Zahl-/Buchstabenkombinationen in der Ergebnisliste erscheinen
  • wie lang soll die Ergebnisliste sein

Als ich OneClick Terms, getestet habe, bekam ich auf Anhieb äußerst relevante Ergebnisse. Ich habe um 8:55 Uhr einen EU-Text über den freien Verkehr nicht-personenbezogener Daten hochgeladen (pdf, etwa 100 Seiten) und hatte um 8:57 Uhr gleich im Browser das folgende Ergebnis angezeigt (und ja, die kleinen Ws hinter den Wörtern sind Links zu passenden Wikipedia-Artikeln!):

Es waren zwar eher vier Klicks als EinKlick, aber das Ergebnis war die Mühe Wert. Es gab wenig Rauschen (irrelevante Termini) in der Termkandidatenliste, einer der Gründe, die mich bislang davon abgehalten haben, Terminologieextraktion beim Dolmetschen zu nutzen. In der Sitzung, bei der ich OneClickTerms getestet habe, fehlte mir am Ende in der Ergebnisliste nur ein einziger wichtiger Begriff aus der Sitzung, regulatory scrutiny board. Dieser Ausschuss für Regulierungskontrolle fehlte interessanterweise auch in der Extraktionsliste, die ich zum gleichen Thema anhand eines deutschen Textes erstellt hatte. Alle anderen relevanten Termini, die während der Sitzung verwendet wurden, fanden sich aber tatsächlich in der Liste. Und noch dazu hatte ich den Vorteil, dass ich nach kurzem Scannen der Liste auf Deutsch, meiner Zielsprache, sehr viele Terminie schon aktiviert hatte, nach denen die ich ansonsten während des Dolmetschens sicher länger in meinem Gedächtnis hätte kramen müssen. Für mich definitiv ein Beitrag zur kognitiven Entlastung beim Simultandolmetschen.

Die Ergebnisliste kann man als txt-Datei herunterladen, aber Copy & Paste etwa in MS-Excel hinein funktioniert genauso gut. Man hat dann auch gleich die Einwort- und Mehrwort-Termini zusammen in einer Spalte. Wenn man den Zellenverbund aufhebt, kann man danach auch noch die Einträge bequem nach Häufigkeit sortieren. Damit ist die Fünf-Minuten-Notvorbereitung quasi perfekt (so perfekt, wie eine fünfminütige Vorbereitung eben sein kann).

Aber selbst wenn man jede Menge Zeit für die Vorbereitung hat, kann es ganz hilfreich sein, bevor man einen Text liest, die vorkommende Terminologie einmal auf einen Blick gehabt zu haben. Mir zumindest hilft das dabei, mich beim Lesen stärker auf den Inhalt als auf bestimmte Wörter zu konzentrieren.

Man kann OneClick Terms einen Monat lang kostenlos testen, danach gibt es das Abonnement ab 100,00 EUR/Jahr (oder 12,32 EUR/Monat) plus MWSt. Es umfasst noch eine ganze Reihe anderer Funktionen, etwa auch den Aufbau zweisprachiger Korpora – aber das ist dann wieder eine andere Geschichte.

Über die Autorin:
Anja Rütten ist freiberufliche Konferenzdolmetscherin für Deutsch (A), Spanisch (B), Englisch (C) und Französisch (C) in Düsseldorf. Sie widmet sich seit Mitte der 1990er dem Wissensmanagement.

Dictation Software instead of Term Extraction? | Diktiersoftware als Termextraktion für Dolmetscher?

+++ for English see below +++

Als neulich mein Arzt bei unserem Beratungsgespräch munter seine Gedanken dem Computer diktierte, anstatt zu tippen, kam mir die Frage in den Sinn: „Warum mache ich das eigentlich nicht?“ Es folgte eine kurze Fachsimpelei zum Thema Diktierprogramme, und kaum zu Hause, musste ich das natürlich auch gleich ausprobieren. Das High-End-Produkt Dragon Naturally Speaking, von dem mein Arzt schwärmte, wollte ich mir dann aber doch nicht gleich gönnen.  Das muss doch auch mit Windows gehen und mit dem im Notebook eingebauten Raummikrofon, dachte ich mir (haha) … Eingerichtet war auch alles in Nullkommanix (unter Windows 10 Auf Start klicken, den Menüpunkt „Erleichterte Bedienung“ suchen, “ Windowsspracherkennung“ auswählen) und los ging’s. Beim ersten Start durchläuft man zunächst ein kurzes Lernprogramm, das die Stimme kennenlernt.

Und dann konnte es auch schon losgehen mit dem eingebauten Diktiergerät, zunächst testhalber in Microsoft Word. Von den ersten zwei Spracheingaben war ich auch noch einigermaßen beeindruckt, aber schon bei „Desoxyribonukleinsäure“ zerplatzten alle meine Träume. Hier meine ersten Diktierproben mit ein paar gängigen Ausdrücken aus dem Dolmetschalltag:

– 12345
– Automobilzulieferer
– Besserungszeremonien Kline sollte es auch viel wie Wohnen Nucleinsäuren für das (Desoxyribonukleinsäure)
– Beste Rock Siri Wohnung Klee ihnen sollte noch in Welle (Desoxyribonukleinsäure)
– Verlustvortrag
– Rechnungsabgrenzungsposten
– Vorrats Datenspeicherung
– Noch Händewellenlänge (Nockenwelle)
– Keilriemen
– Brennstoffzellen Fahrzeuge

Gar nicht schlecht. Aber so ganz das Spracherkennungswunder war das nun noch nicht. In meiner Phantasie hatte ich mich nämlich in der Dolmetschvorbereitung Texte und Präsentationen entspannt lesen und dabei alle Termini und Zusammenhänge, die ich im Nachgang recherchieren wollte, in eine hübsche Tabelle diktieren sehen.  Aber dazu musste dann wohl etwas „Richtiges“ her, wahrscheinlich zunächst einmal ein gescheites Mikrofon.

Also setzte ich mich dann doch mit der allseits gepriesenen Diktiersoftware Dragon Naturally Speaking auseinander, chattete mit dem Support und prüfte alle Optionen. Für 99 EUR unterstützt die Home-Edition nur die gewählte Sprache. Die Premium-Version für 169 EUR unterstützt die gewählte Sprache und auch Englisch. Ist die gewählte Sprache Englisch, gibt es nur Englisch. Möchte ich mit Deutsch, Spanisch, Englisch und womöglich noch meiner zweiten C-Sprache Französisch arbeiten, wird es also erstens kompliziert und zweitens teuer. Also verwarf ich das ganze Thema erst einmal, bis wenige Tage später in einem völlig anderen Zusammenhang unsere liebe Kollegin Fee Engemann erwähnte, dass sie mit Dragon arbeite. Da wurde ich natürlich hellhörig und habe es mir dann doch nicht nehmen lassen, sie für mich und Euch ein bisschen nach ihrer Erfahrung mit Spracherkennungssoftware auszuhorchen:


Fee Engemann im Interview am 19. Februar 2016

Wie ist die Qualität der Spracherkennung bei Dragon Naturally Speaking?

Erstaunlich gut. Das Programm lernt die Stimme und Sprechweise kennen und man kann ihm auch neue Wörter „beibringen“, oder es liest über sein „Lerncenter“ ganze Dateien aus. Man kann auch Wörter buchstabieren, wenn das System gar nichts mehr versteht.

Wozu benutzt Du Dragon?

Ich benutze es manchmal als OCR-Ersatz, wenn eine Übersetzungsvorlage nicht maschinenlesbar ist. Das hat den Vorteil, dass man gleich den Text einmal komplett gelesen hat.

In der Dolmetschvorbereitung diktiere ich meine Terminologie in eine Liste, die ich dann nachher durch die Begriffe in der anderen Sprache ergänze. Das funktioniert in Word und auch in Excel. Falls es Schwierigkeiten gibt, liegt das evtl. daran, dass sich die Kompatibilitätsmodule für ein bestimmtes Programm deaktiviert haben. Ein Besuch auf der Website des technischen Supports schafft hier Abhilfe. Für Zeilenumbrüche und viele andere Befehle gibt es entsprechende Sprachkommandos. Wenn man das Programm per Post bestellt und nicht als Download, ist sogar eine Übersicht mit den wichtigsten Befehlen dabei – so wie auch ein Headset, das für meine Zwecke völlig ausreichend ist. Die Hotline ist im Übrigen auch super.

Gibt es Nachteile?

Wenn ich einen Tag lang gedolmetscht habe, habe ich danach manchmal keine Lust mehr, mit meinem Computer auch noch zu sprechen. Dann arbeite ich auf herkömmliche Art.

Wenn man in unterschiedlichen Sprachen arbeitet, muss man für jede Sprache ein neues Profil anlegen und zwischen diesen Profilen wechseln. Je nach Sprachenvielfalt in der Kombination könnte das lästig werden.


Mein Fazit: Das hört sich alles wirklich sehr vielversprechend an. Das größte Problem für uns Dolmetscher scheint – ähnlich wie bei der Generierung von Audiodateien, also dem umgekehrten Weg – das Hin und Her zwischen den Sprachen zu sein. Wenn jemand von Euch dazu Tipps und Erfahrungen hat, freue ich mich sehr über Kommentare – vielleicht wird es ja doch noch was mit der Terminologieextraktion per Stimme!

Über die Autorin:
Anja Rütten ist freiberufliche Konferenzdolmetscherin für Deutsch (A), Spanisch (B), Englisch (C) und Französisch (C) in Düsseldorf. Sie widmet sich seit Mitte der 1990er dem Wissensmanagement.

+++ English version +++

The other day, when I was talking to my GP and saw him dictate his thoughts to his computer instead of typing them in, I suddenly wondered why I was not using such a tool myself when preparing for an interpreting assignment? So I asked him about the system and, back home, went to try it myself straight away. Although what I was planning to do was not to buy the high-end dictation program Dragon Naturally Speaking I had been recommended, but instead to go for the built-in Windows speech recognition function and the equally built-in microphone of my laptop computer (bad idea) … The speech recognition module under Windows 10 was activated in no time (got to the Start menu, select „Ease of Access > Speech Recognition„) and off I went.

When the voice recognition function is first started, it takes you through a short learning routine in order to familiarise itself with your voice. After that, my Windows built-in dictation device was ready. For a start, I tried it in Microsoft Word. I found the first results rather impressive, but when it came to „Desoxyribonukleinsäure“ (deoxyribonucleic acid), I was completely disillusioned. See for yourselves the results of my first voice recognition test with some of the usual expressions from the daily life of any conference interpreter:

– 12345
– Automobilzulieferer
– Besserungszeremonien Kline sollte es auch viel wie Wohnen Nucleinsäuren für das (Desoxyribonukleinsäure)
– Beste Rock Siri Wohnung Klee ihnen sollte noch in Welle (Desoxyribonukleinsäure)
– Verlustvortrag
– Rechnungsabgrenzungsposten
– Vorrats Datenspeicherung
– Noch Händewellenlänge (Nockenwelle)
– Keilriemen
– Brennstoffzellen Fahrzeuge

Not bad for a start – but not quite the miracle of voice recognition I would need in order to live this dream of dictating terminology into a list on my computer while reading documents to prepare for an interpreting assignment. Something decent was what I needed, probably a decent microphone, for a start.

So I enquired about the famous dictation software Dragon Naturally Speaking, chatted with one of the support people and checked the options. For 99 EUR, Dragon’s Home Edition only supports one language. The Premium Edition for 169 EUR supports one selected language plus English (If you choose English when buying the software, it is English-only.)  If I want German, Spanish, English and possibly also my second C-language, French, it gets both complicated and expensive. So I discarded the whole idea until, only a few days later, our dear colleague Fee Engemann happened to mention to me – in a completely different context – that she actually worked with Dragon! I was all ears and spontaneously asked her if she would like to share some of her experience with us in an interview. Luckily, she accepted!


Interview with Fee Engemann February 19th, 2016

What is the voice recognition quality of Dragon Naturally Speaking like?

Surprisingly good. The program familiarises itself with your voice and speech patterns, and you can also „teach“ it new words, or let it read loads of new words from entire files. You can also spell words in case the system does not understand you at all.

What do you use Dragon for?

I use it as an OCR substitute when I get a text to translate which is not machine-readable. The big advantage is that once you have done that, you know the entire text.

When preparing for an interpreting assignment, I dictate my terminology into a list and add the equivalent terms in the other language once I have finished reading the texts. That works in MS-Word and MS-Excel. If there are problems, this may be due to the compatibility module for a certain program being deactivated. The technical support website can help in this case. There are special commands for line breaks and the like. And if you order the software on a CD (instead of simply downloading it), your parcel will not only include a list with the most important commands, but also a headset, which is absolutely sufficient for my purpose. And by the way … the hotline is great, too.

Are there any downsides?

After a whole day of interpreting, I sometimes don’t feel like talking to my computer. In this case, I simply work the traditional way.

When working with several languages, you must create one profile per language and switch between them when switching languages. This may be quite cumbersome if you work with many different languages.


My personal conclusion is that this all sounds very promising. As always, our problem as conference interpreters with these technologies (just like when creating multilingual audio files, i.e. the other way around) seems to be the constant changing back and forth between languages. If any of my readers has experience or good advice to share, I will be happy to read about it in the comments – maybe voice-based term extraction is not that far away after all!

————————–

About the author:
Anja Rütten is a freelance conference interpreter for German (A), Spanish (B), English (C) and French (C) based in Düsseldorf, Germany. She has specialised in knowledge management since the mid-1990s.