Страница 1 из 1

DeepL и Linguee

СообщениеДобавлено: Чт окт 05, 2017 13:49
putator
https://www.heise.de/tr/artikel/Google- ... 36524.html
heise.de писал(а):"Google kann uns nicht überholen"

Das Kölner Start-up DeepL will mit seiner gleichnamigen Übersetzungswebsite großen US-Konkurrenten die Butter vom Brot nehmen.

Die neue Übersetzungsmaschine DeepL aus Deutschland hat, als sie Ende August auf den Markt kam, im Internet für viel Wirbel (s. Artikel u.: Maschinenintelligenz-Der-Besseruebersetzer-3814856.html) gesorgt – insbesondere aufgrund der guten Übersetzungsqualität. Im Gespräch mit TR Online spricht Redaktionsleiterin Dr. Silvia Lipski über Technik und Geschäftsmodell.

Technology Review: Wie lange hat Ihr Team an DeepL gearbeitet?

Silvia Lipski: Seit 2008 entwickeln wir maschinelle Systeme zur Textverarbeitung. Mit diesen Systemen haben wir die größte Datenbasis der Welt an hochqualitativen Übersetzungen aufgebaut. Diese Daten sind mittels Linguee durchsuchbar.

In den letzten zwei Jahren haben wir unsere Machine-Learning Systeme mehr und mehr auf neuronale Netze umgestellt. Wir haben Systeme, die alle Arten von Daten analysieren können, Schreibfehler finden, britisches gegen amerikanisches Englisch differenzieren, Wortarten vorhersagen – all das ist mit diesen Systemen möglich, die dadurch schon einer Volltextübersetzung sehr nahe kommen.

Das Volltextübersetzungsprojekt haben wir ungefähr vor einem Jahr begonnen und haben sehr viel Ressourcen in diese Aufgabe gesteckt. Die Weiterentwicklung von Linguee wurde vorübergehend unterbrochen und wir haben neuronale Netzwerke für die Volltextübersetzung entwickelt. Im Februar diesen Jahres konnten wir kurze Sätze besser übersetzen als Google. Seit Juni diesen Jahres sind wir auch bei langen Sätzen besser.

TR: Aktuell läuft DeepL in sieben Sprachen. Wie viele sollen noch hinzukommen?

Lipski: Wir starten mit den Sprachen Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch und Polnisch. In Kürze werden weitere Sprachen wir Chinesisch, Japanisch, Russisch und Portugiesisch hinzukommen. Wir planen, in Zukunft 230 Sprachkombinationen zu unterstützen.

TR: Ihr direkter Konkurrent ist Google Translate. Welche Chance hat eine junge Firma wie die Ihre gegen einen solchen Giganten?

Lipski: Es gibt in Deutschland einige der besten Forscher zu Maschinellem Lernen weltweit und wir waren in der Lage, die talentiertesten davon für uns zu gewinnen. Wir sind nicht der Meinung, dass Google in dieser Hinsicht besser aufgestellt ist.

Wir haben außerdem Verbesserungen der neuronalen Netzwerke implementiert, die Google offensichtlich nicht implementiert hat. Für die nahe Zukunft erwarten wir weitere Verbesserungen unseres Systems. Wir denken nicht, dass Google uns kurz- oder langfristig überholen kann.

Außerdem – wer hätte uns vor einem Jahr geglaubt, wenn wir gesagt hätten, dass wir Google in der Übersetzung mit neuronalen Netzwerken schlagen würden?

TR: Sie betonen, dass die Übersetzungsqualität von DeepL von Lesern als natürlicher wahrgenommen wird als die der Konkurrenz. Was sind die Grundlagen dafür?

Lipski: Wir haben Übersetzungen des DeepL-Übersetzers aus verschiedensten Bereichen mit denen der Konkurrenz verglichen – Texte aus Zeitungsartikeln, Rechtstexte, Business, literarische Texte, Umgangssprache, wissenschaftliche Artikel. In allen Bereichen wurden die DeepL-Übersetzungen in Blindtests von professionellen Übersetzern mehrheitlich als beste Übersetzungen bewertet. Das Feedback zu den DeepL-Übersetzungen war überwältigend, alle Tests vor der Markteinführung zeigten, dass der DeepL-Übersetzer die Konkurrenz in der Qualität weit übertrifft. Probieren Sie es selbst aus.

TR: Bislang kommt die DeepL-Website ohne Werbung aus – jeder kann sie frei nutzen. Welches Geschäftsmodell wollen Sie auf längere Sicht verfolgen? Werbung? Oder den Verkauf der Software an Unternehmen?

Lipski: DeepLs erstes Produkt Linguee, ein zweisprachiges Online-Wörterbuch und eine Suchmaschine für Übersetzungen, hat 2016 über zwei Milliarden Suchanfragen von über 300 Millionen Nutzern beantwortet. Zur Finanzierung werden Werbeanzeigen auf der Webseite gezeigt, wodurch die Firma Cashflow-positiv ist.

Den DeepL-Übersetzer ist kostenlos. Für Firmen planen wir, kostenpflichtige APIs in naher Zukunft anzubieten. Wir wissen, dass ein großes Interesse an maschineller Übersetzung besteht und viele Firmen dies in ihre Produkte integrieren möchten. Dafür werden wir bezahlte APIs anbieten, mit sehr viel höherer Qualität als unsere Konkurrenz und zu günstigeren Preisen. Wir planen nicht, die Firma zu verkaufen.

TR: Ihre Firma betrieb, Sie haben es erwähnt, zuvor über einen längeren Zeitraum die Sprachwebsite Linguee. Wie wichtig war die für den Aufbau von DeepL?

Lipski: Durch Linguee werden zum Training der neuronalen Netze über eine Milliarde an hochqualitativen Trainingsdaten zur Verfügung gestellt. Dies bedeutet einen sehr großen Vorteil gegenüber unserer Konkurrenz.

TR: Wie unterscheidet sich der technische Ansatz von DeepL gegenüber dem von Google Translate?

Lipski: Vor der sehr berühmten Publikation von Bahdanau, Cho und Bengio 2014 (https://arxiv.org/abs/1409.0473) wurden rekurrente neuronale Netzwerke zur Verarbeitung von Sätzen von links nach rechts eingesetzt (mittels LSTM-Zellen oder anderen Strukturen). 2014 stellten Bahdanau et al. dann sogenannte Attention-Mechanismen vor, die dieses Konzept stark verbesserten. Die neuronalen Netzwerke übersetzen immer noch von links nach rechts, aber sie haben zusätzlich die Fähigkeit, unterschiedliche Teile eines Satzes zu unterschiedlichen Zeiten zu betrachten.

Unsere Systeme haben dieses Konzept weiterentwickelt. Unsere Systeme beruhen sehr stark auf Attention-Mechanismen, konstruieren die Sätze Wort für Wort, von links nach rechts. Jedoch können wir in jedem Arbeitsschritt verschiedene Bereiche der vorherigen Verarbeitung berücksichtigen und entscheiden, welche Information für den derzeitigen Arbeitsschritt wichtig ist. Genau wie ein professioneller menschlicher Übersetzer, der immer wieder auf das bereits Übersetzte zurückschaut.

Zusätzlich zu Verbesserungen am neuronalen Netzwerk selbst haben wir auch Verbesserungen bei der Vorverarbeitung der Daten und bei der sogenannten Beam Search implementiert.

TR: Ihre Hauptserver läuft in Island. Was sind die Gründe dafür?

Lipski: In Island gibt es ein Überangebot an erneuerbaren Energien und wir können dort unsere neuronalen Netze sehr kostengünstig trainieren.

(Ben Schwan)

heise.de писал(а):Maschinenintelligenz: Der Besserübersetzer

Bei automatischen Übersetzungen im Internet sind bislang Google und Microsoft führend. Ein Kölner Unternehmen will mit verbessertem Deep Learning nun gegenhalten.

Bislang funktionieren Systeme zur maschinellen Übersetzung im Internet nicht wirklich perfekt: Sie reichen, um sich einen Überblick zu einem Thema zu verschaffen, wirklich lesbar und nach einem Menschen klingend sind die ausgespuckten Texte aber in den wenigsten Fällen.

Sprachsuchmaschine als Anfang

Das Kölner Start-up DeepL, das schon seit einigen Jahren unter dem Namen Linguee (https://www.linguee.com/) eine eigene Übersetzungs-Website betrieben hat, will nun mit sogenannten Convolutional Neural Networks (Convnets) vernünftigere Ergebnisse liefern. Sie orientieren sich an Prozessen, wie sie auch im Gehirn des Menschen ablaufen. Google, Microsoft und Co. nutzen zwar ebenfalls Deep Learning, allerdings technisch anders gestaltete Ansätze.

Derzeit beherrscht der kostenlose Dienst, der unter DeepL.com (https://www.deepl.com/translator) ausprobiert werden kann, beliebige Sprachpaarungen zwischen Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch und Polnisch. Künftig sollen auch noch Mandarin, Japanisch und Russisch hinzukommen, aktuell läuft hier die Trainingsphase.

Blindtests mit 100 Sätzen

In Blindtests will das junge Unternehmen im Vergleich zur Konkurrenz von Google Translate, Microsoft Bing Translator sowie Facebook Translate bei der Analyse durch professionelle Übersetzer qualitativ drei Mal so gut abgeschnitten haben – bei einem Probelauf mit 100 Sätzen. Auch bei den sogenannte BLEU-Scores, einem Wert, der die Qualität eines maschinell übersetzten Textes misst, will DeepL nach eigenen Angaben die Konkurrenz übertroffen haben. Und in der Tat klangen einige mit DeepL durchgeführte Probeübersetzungen oft natürlicher, wenn man sie mit Google Translate & Co. vergleicht. Dennoch darf man keine Wunder erwarten.

Der von DeepL verwendete Supercomputer erreicht eine Leistung von 5,1 Petaflops. Eine Million Worte in weniger als einer Sekunde lassen sich laut der Firma damit übersetzen. Die Hardware, die ständig ausgebaut werden soll, steht in Island, um von den dort geringen Stromkosten dank Wasserkraft und Erdwärme zu profitieren. Die Trainingsphase sei daher sehr kosteneffizient gewesen.

Convnet kann mehr als übersetzen

Man habe das System mit einer "gigantischen Sammlung" mehrsprachiger Texte gefüttert. Dabei habe das Convnet gelernt, mit zahlreichen Übersetzungen umzugehen und mit korrekter Grammatik und Satzstruktur zu agieren. Dabei half DeepL, dass sein erstes Produkt Linguee als Übersetzungssuchmaschine arbeitet, bei dem passende Übersetzungen von Textsegmenten aufgefunden werden. Mehr als eine Milliarde qualitativ hochwertig übersetzte Texte seien so zusammengekommen, "das feinstmögliche Lehrmaterial für ein neuronales Übersetzungsnetzwerk".

Das Convnet von DeepL sei nicht nur für Übersetzungen geeignet, so DeepL. Das hohe Textverständnis des Systems eröffne "mehrere spannende Möglichkeiten", so Firmengründer Gereon Frahling. Welche das genau sind, verrät die Firma noch nicht. Die semantische Texterfassung, bei denen ein Rechner den textlichen Kontext wirklich versteht, könnte aber eine sein.

(Ben Schwan)