自然言語処理と中国語

自然言語処理は、特に Transoformer や Self-Attention など、AI技術の革新がもっとも目覚ましい分野の一つです。

この分野において主導的な立場にいるのは何といっても、GAFA(Google/Apple/Facebook/Amazon)や Microsoft ですが、実は中国の百度やテンセントからも様々な成果が発表されています。

そして場合によっては英語をコアとする前者よりも、言語的な距離の近い中国の技術の方が、日本語と親和性が高いことも少なくないのです。

例えばBERT。これは一部の文字をマスクすることで言語処理の学習が飛躍的に向上したと言われていますが、ほどなくして百度から、「日本語や中国語のような、単語区切りがされていない言語」に特化させた「ERNIE」という技術が公表されています。

このように日本語の言語処理を行う上で、隣国である中国の技術に目を向けることは大きな意味があります。

弊社では、社内スタッフが中国語をそのまま読めるという強味を活かし、中国の最新の言語処理技術も日夜学び、吸収しています。

 パラレルコーパスの構築

機械翻訳エンジンのカスタマイズに欠かせないパラレルコーパス(多言語対訳表)ですが、中国語に対応しているものはそこまで多くありません。

また、コーパスの作成やセンテンスの選別において、中国語の品質を確保したり、適度なクレンジングやマスキング、ドロップアウトを行ったりといった面でも、日本語・中国語の高度な理解は必要不可欠です。

弊社では、自然言語処理の実践と、日本語・中国語に対する感度を活かしながら、高度なコーパスづくりと各種翻訳エンジンのカスタマイズやアダプテーションに尽力しています。

中国語の自然言語処理がご入用の際は、いつでもお気軽にお問い合わせください。