機械翻訳APIの中で最も優れているのはどれですか？

最高の機械翻訳API—Google、Amazon、DeepL、Microsoftの完全なベンチマーク調査。トップパフォーマーを発見してください。

翻訳APIはどこにでもあります。しかし、すべてが同じレベルのパフォーマンスを発揮するわけではありません。

最近の研究によると、すべての言語で勝者は1人ではなく、商用エンジンはオープンソースのエンジンと比較して優れたパフォーマンスを発揮します。

このベンチマーク調査では、Google、Amazon、Microsoft、DeepLなどのトッププレーヤーを対象に、ポルトガル語、中国語、日本語を含む7つの言語で20万以上の人間が翻訳したセグメントを使用してテストしました。

DeepLとAmazonがトップに立ちました。DeepLはヨーロッパ言語で優れており、Amazonはアジア言語でリードしています。

ほとんどのエンジンが迅速なレスポンスを提供する中、DeepLはリアルタイム翻訳のシナリオで遅れをとっており、遅延の中央値は1文あたり約1秒でした。それは即時の結果に依存するアプリにとって大きなギャップです。

私たちは、BLEUスコアを人間の翻訳と比較して計算し、ターゲット言語やソース言語の文の長さなど、さまざまな側面を分析します。

さらに、リアルタイム翻訳を必要とする旅行アプリや翻訳会社のようなアプリケーションにとって重要な機能であるため、それらの翻訳APIの応答時間を測定します。

ですから、最適な翻訳APIを選ぶ際には、単に誰が最も多くの言語をサポートしているかだけではありません。品質、スピード、コンテキストの間で正しいバランスを取ることについてです。

こちらが私たちの重要な見つけたことの要約です

DeepLとAmazon Translateは全体的に最高の翻訳品質を提供しました。DeepLはヨーロッパの言語で優れており、Amazonは日本語や中国語のようなアジアの言語で優れています。
万能のエンジンはありません、パフォーマンスは言語ペア、文の長さ、翻訳の文脈によって異なります。
文章が長いほどすべてのエンジンでBLEUスコアが向上する傾向があり、これはテストしたすべての言語で一貫したパターンが観察されます。
Microsoft 翻訳者は単一セグメント翻訳で最速の応答時間を持っていました（中央値: 0.09秒)、一方DeepLが最も遅かった(1セグメントあたり1秒近く)。
一括翻訳モードでは、GoogleとMicrosoftはセグメントごとにサブセコンドの速度を提供しましたが、Amazonは真のバッチサポートがないため、パフォーマンスが劣りました。
BLEUのスコアはエンジン間で統計的に有意な差を示し、フリードマンテストとネメニーテストによって確認され、逸話的な証拠を超えた結果を検証しました。
スケーラビリティは等しくありません: DeepLの応答時間は、セグメントボリュームが増加すると急激に増加するため、大量のユースケースでは制限要因となる可能性があります。
すべてのエンジンは、シングルコールモードのDeepLと一括シナリオのAmazonを除いて、リアルタイムアプリケーションで十分に機能しました。
ブラジルのポルトガル語は、評価されたセグメントの数が最も多く、この調査で最も堅牢な言語ペアの1つとなっています。
データの多様性が重要: 使用されたデータセットは、健康、法律、ITなどのドメインをカバーし、高い信頼性で実際の翻訳要求をシミュレートします。

機械翻訳APIとは何ですか？

機械翻訳APIは、開発者やプラットフォームが機械学習モデルを使用して自動的にテキストを言語間で翻訳できるようにするクラウドベースのサービスです。

企業は独自の翻訳エンジンをゼロから構築する代わりに、これらのAPIをウェブサイト、アプリ、または内部システムに統合して、迅速でスケーラブルな多言語コンテンツを提供できます。

最も人気のある機械翻訳APIのいくつかには以下が含まれます:

Google 翻訳 API – 100 以上の言語をカバーし、Google Cloud と簡単に統合できます。
Amazon Translate – 大規模で高速な翻訳用に設計されており、アジア言語での優れたパフォーマンスを発揮します。
Microsoft 翻訳者 – 90以上の言語をサポートする、リアルタイムアプリケーションに最適な予算に優しいオプション。
DeepL API – 特に流暢さとニュアンスにおいて、ヨーロッパ言語の高い品質の翻訳で知られています。

これらのAPIは、eコマース、旅行、法律、医療、顧客サポート、ローカリゼーションなどの業種で広く使用されており、正確でリアルタイムな翻訳がユーザーエクスペリエンスと業務効率を大幅に向上させることができます。

しかし、すべてのAPIが同じように作成されているわけではありません。そして、正しいAPIを選ぶことは、言語ペア、速度、コスト、そしてもちろん翻訳の品質など、あなたの特定のニーズに依存します。

機械翻訳エンジン

この評価では、私たちのデータセット内のすべての言語ペアをサポートする4つの商用機械翻訳エンジンを選択しました。 2022年1月時点の関連するコスト値とともに、以下で説明します。

Amazon 翻訳: Amazonによって開発され、70以上の言語で機械翻訳のサポートを提供します。そのPython APIはAWSサービスと完全に統合されており、100万文字あたり15米ドルの費用がかかります。
DeepL: それは機械翻訳に注力している会社です。 APIは26の言語をサポートしており、100万文字ごとにUSD 25の費用がかかります。私たちは、英語からの翻訳と英語への翻訳を可能にするPython APIを使用しました。
Google翻訳: 100以上の言語に対して機械翻訳サポートを提供し、サポートされている言語に関して最も広範囲にわたるエンジンです。また、すべての Google Cloud サービスに統合された Python API も提供します。翻訳の価格設定は100万文字あたりUSD 20です。
Microsoft 翻訳者: それは、すべての評価されたMTエンジンの中で最も低い価格設定で、100万文字あたり10米ドルのコストでMicrosoftが提供する機械翻訳サービスです。このエンジンはほぼ90の言語をサポートしています。

選択されたMTエンジンは、それぞれのAPIを通じて単一のセグメントを翻訳することができ、Amazon Translateを除いて、セグメントのリストが送信され、一度に返される場合には一括呼び出しにも対応できます。

Amazon Translateの一括制限に対処するために、単一の呼び出しでマイナーなコーディング最適化を行い、毎回の翻訳でAPIへの接続を確立する必要を排除しました。これは一括翻訳には近くありませんが、一括翻訳サポートを持つ他のエンジンとのギャップを縮めるのに役立ちました。

言及されたすべてのMTエンジンは、特定の用語のための並列データや用語集でモデルを調整するのに適していましたが、今回の評価ではこれらのオプションを除外することにしました。

また、他のMTエンジン（例：Baidu Translate、Tencent、Systram PNMT、Apertium、Alibaba）の評価も試みましたが、以下の理由のいずれかで使用できませんでした:

APIの利用不可
ドキュメントの不足,
すべてのターゲット言語に対するサポートがない。

Metrics

私たちは、BLEUスコア（Papineni et al., 2002）を使用してエンジンの翻訳品質を評価します。 Friedmanの検定(Friedman, 1940)を使用して異なるエンジンのスコアを比較し、事後的なNemenyi検定(Nemenyi, 1963)を使用して、個々のMTエンジン間の統計的有意差を検証しました。

API の応答時間を計算するために、セグメントサイズの間隔の分布を考慮して、データセットから100のセグメントをサンプルとして選択し（図2）、各エンジンで英語からポルトガル語に翻訳しました。

選択した文を 1 日 1 回、1 週間かけてエンジンにヒットし、API のメソッド (single と bulk) を評価します。データセット全体を使用せず、レスポンスタイムを評価するために1つのターゲット言語のみに翻訳しました。これは、7つの言語で20万のセグメントを1週間エンジンにかけると、金銭的に高額になるためです。

実験結果

このセクションでは、第2節で説明した機械翻訳エンジンの性能に関する調査結果を示します。

品質評価

以下の表は、各ターゲット言語における4つのエンジンの平均BLEUスコアを示しています。すべての言語について、Friedmanの検定のp値は有意水準(0.05)よりも小さく、エンジンのスコアに統計的に有意な差があることを意味しています。さらに、各言語で最高スコアを持つエンジンは、p値が有意水準の0.05より低いポストホックNemenyi検定によると、他のエンジンと統計的に異なるパフォーマンスを示しました。 AmazonとDeepLは、4つのターゲット言語で最高得点を獲得し、総合的に最高の結果を達成しました。 Googleはスペイン語でDeepL、中国語でAmazonと並びましたが、Microsoftの翻訳エンジンはどの言語でも他のMTエンジンを上回ることはありませんでした。

次の図は、各ターゲット言語のさまざまなセグメントサイズのBLEUスコア分布を示しています。これらのプロットに共通する傾向は、文が長いほどBLEUスコアが高くなることです。

例えば、ドイツ語をターゲット言語とするすべてのMTエンジンのスコアの中央値は、サイズが1から10までのセグメントで約0.6、40ワードを超えるセグメントで0.7に近いものでした。

日本語は唯一の例外です: セグメントサイズはAmazonとDeepLの翻訳品質には影響しませんでしたが、Microsoft（1-10区間の中央値BLUEスコアは0.61、40-区間は0.58）とGoogle（1-10区間の中央値BLUEスコアは0.62、40-区間は0.6）の品質には影響しました。

翻訳時間評価

MTエンジンごとに、1セグメントずつ送信する場合（単一）と100セグメントを一括で送信する場合（バルク）の、セグメントごとの翻訳時間の分布を以下で分析できます。

1 つのシナリオでは、Microsoft が最速の翻訳を提供しました (セグメントあたり中央値 0.09 秒)。 AmazonとGoogleは約2倍遅く（中央値は0.2秒近く）、DeepLは最も遅く（セグメントあたりの中央値は0.96秒）で、Microsoftの約10倍でした。

API の一括呼び出しを単一の呼び出しと比較して使用すると、最初に気付くのは、セグメントあたりの翻訳時間が大幅に短縮されたことです。例えば、DeepLでは、セグメントあたりの翻訳時間の中央値が、単一実行では0.95秒から一括実行では0.02秒に短縮されました。

これらの結果は、セグメントを個別に翻訳するよりも、一括操作の方がはるかに効率的であることを明確に示しています。エンジンの個々のパフォーマンスに関しては、MicrosoftとGoogleが最も低い翻訳時間（それぞれセグメントあたり中央値0.003秒と0.002秒）を記録しましたが、最も高い翻訳時間はAmazonで（中央値0.09秒）した。

Amazonのこのパフォーマンスの低さの理由は、実際の一括呼び出しを提供していないことにあると考えています。これは、前述のように実験で近似する必要がありました。

したがって、評価されたMTエンジンは、セグメントあたりの翻訳時間が短く、リアルタイム翻訳アプリケーションに適しています。唯一の例外は、1つの文の翻訳時間の中央値が1秒に近い単一のシナリオでのDeepLでした。

エンジンのスケーラビリティを分析するために、セグメントの数を変更した場合のMTエンジンの応答時間を以下に示します。すべての曲線で、時間はセグメントの数に比例して増加します。

ただし、一部のエンジンの線形係数は、他のエンジンよりもはるかに小さくなっています。例えば、DeepLは単一シナリオで最も高い係数を持ち、Amazonはバルクシナリオで最も高い係数を持っているため、それぞれのシナリオで競合他社ほどスケールしないことを意味します。

Conclusion

この論文では、4つの機械翻訳エンジンの品質と応答時間に関する評価を提示しました。私たちの評価では、エンジンの品質は似ていることが示されましたが、AmazonとDeeplがトップパフォーマーとして挙げられました。応答時間については、全体的にエンジンは良好なパフォーマンスを示しましたが、DeepLは一度に1つのセグメントを送信した場合、Amazonはバッチコールで例外がありました。