« # 「日本翻訳ジャーナル」9/10月号 | トップページ | # Jamming/Logophileの検索方法の違いを具体的に »

2015.09.07

# WordNetについて、あらためて

(アップしなおし)

大久保克彦さんがWordNetのデータを使いやすくしてくださって以来、あちこちで言ったり書いたりしてますが、よく見たら、このブログでまだちゃんと紹介したことがありませんでした。

ちょうどいいので、書いておこうと思います。

本家Princeton大学のWordNetのサイト:About WordNet - WordNet - About WordNet

大久保克彦さんによるEPWINGデータ:WordNet EPWING ~ 日本語・英語WordNet(シソーラス)のEPWING版 ~

最新バージョンは3.1です。


そもそもWordNetとは何かというと、説明するのがめんどくさいので、本家に書いてある About WordNet をお読みください。冒頭だけ引用します。

WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations. The resulting network of meaningfully related words and concepts can be navigated with the browser. WordNet is also freely and publicly available for download. WordNet's structure makes it a useful tool for computational linguistics and natural language processing.
WordNet superficially resembles a thesaurus, in that it groups words together based on their meanings. However, there are some important distinctions. First, WordNet interlinks not just word forms—strings of letters—but specific senses of words. As a result, words that are found in close proximity to one another in the network are semantically disambiguated. Second, WordNet labels the semantic relations among words, whereas the groupings of words in a thesaurus does not follow any explicit pattern other than meaning similarity.
(太字は引用者)

つまり、

・まず巨大な用例データベースがあって(Brown Corpus、1960年代に開発)、
・そこから品詞ごとに、類似した単語をグループ化し、
・そのグループに共通に簡単な語義を付け
・さらに単語間にリンクを貼った

ものです。要するに、

語義がわかる
類義語や反義語、上位語や下位語、関連語などもリンク先で見つかる
さらには、それぞれ元の用例までたどれる

という、ハイパーテキストの特性をフルに活かした辞書になっているわけです。

ただし、本家のブラウザ(WordNet Search - 3.1)で引くと、やはりシソーラス的な作りになっているため、翻訳者ご用達としては、やや不向きです。

1509071

語義にあたる部分は、このようにカッコの中に書かれています。


いくつかの形式でデータのダウンロードもできますが、すぐ利用できる形ではありません。そのデータを、なんとEPWING形式にしてくれたのが、大久保克彦さんというわけです。

最初のバージョンが公開されてから、翻訳フォーラムでのやりとりを経て、現在の形に至っています。

1509072

このように、ふつうの辞書のように見ることができます。

使うには多少の慣れが必要ですが、まずはラベルをひととおり覚えておくといいでしょう。

ラベルも含めた詳しいGlossaryが本家にありますが、

リンク:WNGLOSS(7WN) manual page

大久保さんのこのページにもいろいろと(ラベルの説明なども)まとめられていますので、これから使おうという方は、まずこのページを熟読なさるといいと思います。


上のスクリーンショットを例に、一部だけ説明しておきます。

syn = synset。類義語のセット。

hype = hypernym。上位語。

hyp = hyponym。下位語。

derv = derivationally related forms。派生語(共通の語幹や意味を持ち、別のカテゴリに分類されている語)。

sim = similar。類似の形容詞。

ant = antonym。反対の形容詞。

これらのラベルがわかれば、たとえば調べた語について、もっと広い概念(hype)や狭い概念(hypo)をとらえたり、関連語のカテゴリに飛んだり(synset)できます。

corpusのリンクをクリックすると、出典の原文を確認できます。


ただし、語義にあたる部分は各単語の語釈ではなく、synset ごとの「共通する語義」です。つまり、非常に精密にカテゴリ分けされたグループに付けられた説明なので、LongmanやCOBULDのような具体的な語釈ではなく、かなり抽象化された定義になっています。

が、その抽象化のレベルが絶妙なおかげで、英英として引いてみて、これほど

ストンと腑に落ちる

ものはありません。個人的には、CODに近いがもっと精密というイメージ。


大久保さんが作ってくれたデータはEWPING仕様なので、Jamming/Logophile、DDWin、EBWin4のどれでも使えますが、お薦めは、EBWin4かDDWinです。

なぜなら、

前進・後退

ができるからです。WordNetを使う場合、類義語や出典でリンク先に移動することが多い。ところが、Jamming/Logophileでは、前進・後退のナビゲーション機能がないため、戻るのがちょっと手間です。

ということで、私はEBWin4(無料。かつもっともアクティブに開発継続中)もよく使っています。

08:15 午後 翻訳・英語・ことば, 辞典・事典 |

はてなブックマークに追加

« # 「日本翻訳ジャーナル」9/10月号 | トップページ | # Jamming/Logophileの検索方法の違いを具体的に »

コメント

コメントを書く

## コメントは承認制なので、公開されるまでに時間のかかることがあります。



(必須ではありません)