# 翻訳者のための正規表現~勉強会の解説、その2
4/23に開催した「十人十色・正規表現入門セミナー」後半の内容の復習、第2回いってみます。
お題その3
・和文中の余分なスペースを削除する
例:国内の△農業△生産 → 国内の農業生産
【考え方の整理】
・和文文字すべてにヒットするパターンを作る
・\f 区切りを使って、半角スペースだけ削除するように置換する
【検索】
[亜-熙ぁ-んァ-ヶー。、・]\f \f[亜-熙ぁ-んァ-ヶー。、・]
【置換】
\0\2
【解説】
・[亜-熙ぁ-んァ-ヶー。、・] …… 漢字、ひらがな、カタカナ(長音含む)、句読点
・\f△\f …… 半角スペースの前後に区切り
これ、使う場面は多いと思います。リクエストで説明いただいたのは、「PDFなどをOCRすると、(原典の改行がスペースに置き換えられる等の理由で)不要な半角スペースが入る、それを削除したい」ということでした。そのほか、ブラウザ上の文字列をコピーしたときにも、同じように不要な半角スペースが入ることがあります。
ひらがなの範囲指定は[ぁ-ん]、1文字目は小さい「ぁ」であることに注意してください。
カタカナの範囲指定[ァ-ヶー]でも、「ァ」と「ヶ」はそれぞれ小さい文字です。
漢字の範囲については、佐川さんと私でちょっと流儀が違いました。佐川さんは、「第1水準と第2水準の漢字」ということで、
[亜-黑]
と指定していましたが、私はいつもこのパターンです。「熙」より後の漢字(シフトJISの文字コードで)は一般的な文章にほとんど出てこないので。ちなみに、秀丸エディタで検索文字に「熙」より後の漢字(「神」や「祥」)を指定すると、ダイアログの右下のほうに「機種依存文字です」という警告メッセージが出ます。詳しくは、秀丸エディタのヘルプで「機種依存文字について 」を参照してください。
お題その4については、失敗例を挙げながら説明するので、かなり長くなります。稿を改めましょう。
----------練習用テキスト・始----------
また、農地集積の推進に関して、「我が国の食と 農林漁業の再生のための基 本方針・行動計画」(平成 23 年 10 月 25 日食と農林漁業の再生推進本部決定)及び「「我が国の食と農林漁 業の再生のための基本方針・行動計画」に関する取組方針」(平成 23 年 12 月 24 日農林水産省)において、①戸別所得補償制度の規模拡大加算、②人・農地プラン(地域農業マスタープラン)に位置付けられた中 心経営体への農地集積に協力する者に対する協力金の交付等の施策により農地集積を加速化し、これによ り、土地利用型農業について、平成 28 年度までに「平地で 20~30ha、中山間地域で 10~20ha の規模の経 営体が大宗を占める構造を目指す」こととされている。
----------練習用テキスト・終----------
トラックバック
この記事へのトラックバック一覧です: # 翻訳者のための正規表現~勉強会の解説、その2:
» 翻訳にスピードを求める人におススメ! トラックバック YAQS(ヤックス)と他の翻訳サイトの比較
手軽な翻訳市場YAQS(ヤックス)は ビジネスなどスピードが 要求されるようなシーンで 翻訳を必要としている人におススメです! YAQS(ヤックス)の翻訳サービスは 簡単な内容で30単語程度の案件であれば、 10分以内の納品が可能な仕組みになっているそうです。 …... [続きを読む]
受信: 2013/05/02 22:01:52
この記事へのコメントは終了しました。
コメント