Project Description

概要

国立情報学研究所相澤研究室で開発された、論文中の数式に関する情報を抽出する手法により生成されたXML ファイルを、ウェブブラウザで閲覧するためのXHTML に変換する変換システムを開発した。

詳細

学術論文内の数式には多くのパラメータが含まれていたり、複数の数式が組み合わさって一つの大きな数式を構成していることがあるため、理解するのが難しい場合がある。そこで国立情報学研究所相澤研究室では、自然言語処理技術を活用し、論文からパラメータや部分数式を抽出する技術を開発している。抽出結果は数式をMathML で、説明などの属性を独自のXML 要素で表記し、論文本文に埋め込んだXML の形で出力される。本プロジェクトでは、このXML をウェブブラウザで見やすいXHTML に変換するコンバータと、数式関連属性をポップアップ表示するといったインタラクティブな処理を実現するスクリプトを開発した。

主な利用技術

Ruby, REXML, MathXML, jQuery