[市場動向]

NEC、データ列の意味をAIで推定する技術を開発、表データの統合を容易に

2019年8月5日(月)日川 佳三(IT Leaders編集部)

NECは2019年8月5日、データの意味をAIで推定する「データ意味理解技術」を開発したと発表した。例えば、同じテーブルに「氏名」と「数値」があった場合、数値は年齢であると推定できる。同技術をオープンデータに適用したところ、データ管理の専門家が30日かけていたデータ統合の作業を1時間で終えられたという。

 データ意味理解技術は、作成者や所有者が異なる多種多様な表データを、1つに統合する技術である(図1)。データを、部門間、企業間、業界間で共有して統合することで、横断的に分析できるようになる。データの統合を、データ管理の専門家と同等の品質で、なおかつ短期間で実施するとしている。マシンラーニング(機械学習)を活用している。

図1:表データを統合する「データ意味理解技術」の概要(出典:NEC)図1:表データを統合する「データ意味理解技術」の概要(出典:NEC)
拡大画像表示

 特徴は、表データに元々付与してある表名や列名を手がかりとするのではなく、各データ列の数値分布の統計的な傾向を手がかりとする点である。事前に各単語について、その単語に合わせて頻出する数値を収集し、単語の数値分布を含む独自のデータベースを構築する。

 同じ意味を持つ数値データは、統計的な分布傾向が類似している。このことから、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、単語ごとの数値分布と比較する。これにより、例えば、列名のないデータについても、「売上高」といった意味の推定が可能になる。

 数値データ列は、文字データ列と比べると、意味の推定が難しい。例えば「29、24、23」などは、これ単独では「年齢」や「気温」など様々な意味が当てはまる。これに対しては、例えば同じ表データに「氏名」の項目が含まれていれば、「気温」データではなく、より関係性の強い「年齢」データであることを推定する。

 背景には、保有者が異なるデータを横断的に分析するためには、表名や列名が統一されていない多様なデータを結合することが必要になるという状況がある。従来は、データ管理の専門家が表データを精査し、何のための表データか、その表データの各行や列が何を表しているかを見極め、人手で統合していた。

関連記事

Special

-PR-

NEC、データ列の意味をAIで推定する技術を開発、表データの統合を容易にNECは2019年8月5日、データの意味をAIで推定する「データ意味理解技術」を開発したと発表した。例えば、同じテーブルに「氏名」と「数値」があった場合、数値は年齢であると推定できる。同技術をオープンデータに適用したところ、データ管理の専門家が30日かけていたデータ統合の作業を1時間で終えられたという。

PAGE TOP