How to tell ChatGPT to extract terminology from parallel texts in different languages

My dear colleague (and former student) Florian Pfaffelhuber just drew my attention to the fact that ChatGPT is great at multilingual terminology extraction. It can also handle more than two languages and will create very nice multilingual glossary tables for you.

What worked best when we tested it today was to copy the prompt and the respective texts into one message for ChatGPT, i.e. not submit the prompt and then send the text corpora in separate successive messages. I put the different bits together in a Word document and then copied everything into the message field in one go. The texts we used for testing were sets of claims from European patents that we just copied out of the PDF patent specifications. This is why we told ChatGPT to include the reference signs, to make sure it picked the essential terms.

This it the prompt that worked well in English:

Please extract the technical terms from the following text and list them in a table in German, English and French. Please also include all terms that stand in front of a reference sign (reference signs are the numbers in brackets). Please also include the reference signs in the table.

And the prompt in German:

Bitte extrahiere aus folgendem text die Fachtermini und liste sie mir in einer Tabelle auf Deutsch, Englisch und Französisch. Bitte schließe auch alle Begriffe mit ein, die vor einem Bezugszeichen stehen (Bezugszeichen sind die Zahlen in Klammern). Bitte übernimm auch die Bezugszeichen in die Tabelle.

This is what the result looks like:

Deutsch Englisch Französisch
Kanäle/Kabel channels/cables canaux/câbles
Verteilungsnetz distribution network réseau de distribution
Zugangsnetz access network réseau d’accès
Schicht (L1) layer (L1) couche (L1)
Schicht (L2) layer (L2) couche (L2)
Tragschicht support layer couche de support
Sand sand sable
Schotter gravel gravier
Steine stones pierres
Schmutz dirt saleté
Netzlayout network layout disposition du réseau
Haupt-Mikrograben main micro-trench micro-tranchée principale
Spleißstelle (F) splice point (F) point de fusion (F)
Verzweigung branch branche
Anschluss connection connexion
Endziel end target cible finale
Fräsen milling fraisage
Fräsmaschine milling machine fraiseuse
Diamantfräsblatt diamond milling blade lame de fraisage au diamant
Gegenlauffräsen counter-rotational milling fraisage contre-rotatif

And here you can see ChatGPT at work:

And how does ChatGPT make your life easier? Feel free to share your experience, tips, and tricks in the comments 🙂

About the author

Anja Rütten is a freelance conference interpreter for German (A), Spanish (B), English (C), and French (C) based in Düsseldorf, Germany. She has specialised in knowledge management since the mid-1990s.

She is a full member of AIIC, an accredited freelance interpreter with the EU institutions and the European Patent Office, and has vast experience as a university lecturer.


Eine Antwort zu “How to tell ChatGPT to extract terminology from parallel texts in different languages”

  1. Auch nett, um eine deutsche Liste der Bezugszeichen zu haben und sie neben die Abbildung zu kleben: “Bitte extrahiere aus folgendem text die Fachtermini mit Bezugszeichen (Bezugszeichen sind die Zahlen in Klammern) und liste sie mir in einer Tabelle auf. Stelle die Bezugszeichen vor den dazugehörigen Fachterminus. “

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.