Preliminary Report of Fertilizing Science and Technology Thesaurus from Large-Scale Bibliographic Datasets using Word Embedding
単語意味ベクトルを用いた大規模論文抄録データからの科学技術用語シソーラス拡充手法の検討

川村 隆浩, 古崎 晃司, 櫛田 達矢, 木村 考宏, 渡邊 勝太郎, 松邑 勝治
JSAI Technical Report, Type 2 SIG  
近年,科学計量学での活用を意図してさまざまな科学技術用語シソーラスの構築が進め られている.しかし,人手での整備には多大なコストと時間を必要とするため,自動構築・改訂手法 の研究が盛んである.そこで本論では,人手で十分に整備された情報がない新興,先端学術分野にお いても適用できるよう,文献抄録に書かれた自然文を入力として単語ベクトルを構築し,ベクトル演 算に基いて新語を既存シソーラス階層内に適切に位置づける手法を検討する.そのため,まず予備実 験として医療系論文 56.7 万編から単語ベクトルを構築し,単語間の is-a や part-of,関連語といった 関係性がベクトル空間内に表されていることを確認した.そして,単語ベクトルの加法構成性を用い て,新語に対して何らかの関係性を持つ用語を JST シソーラス内から検索する実験を行い,可能性 を示した.今後は,用語の持つ意味役割の活用や,単語ベクトルを入力した機械学習手法を検討し, 現在構築中の大規模正解データを用いた評価を行っていく. 1 はじめに 近年,複雑で多岐に渡る科学技術・学術活動の状況
more » ... スを対象と した科学計量学の研究が盛んに行われている.その一 環において,論文や特許,研究データの分類,検索の ための科学技術用語シソーラスの重要性が増している. しかし,バイオ系や工学系,特にコンピューター科学 分野は進展が早く,さまざまな概念,用語が次々と生 まれるため,シソーラスの人手での構築,保守には限 界がある(2012 版の ACM taxonomy は作成に 14 年 の歳月を要した).科学技術振興機構(以下,JST)で は昭和 44 年より科学技術用語シソーラスの構築を開始 し,当初は 3-6 年の単位で新語(シソーラスとして登 録すべき未登録語)の追加,既存語の見直を行ってき
doi:10.11517/jsaisigtwo.2016.swo-038_01 fatcat:fr5txcdqpjebnb6txku2ao6sha