みなさん、はじめまして!
2024年度新入社員の藤岡雄大と申します!
この春から、FIXERのほうに新卒として働くことになり、早速Techブログを執筆する機会をいただきました。
本記事では、私の自己紹介とこれまでに研究してきたメタデータについて簡単にですがお伝えしていきます!
自己紹介
名前 | 藤岡雄大(Yudai Fujioka) |
学位 | 修士(情報学) |
好きなもの・趣味 | テレビ、旅行、地図など |
学んだ主な技術 | Ruby、Python、JavaScript ほか |
どんな研究をやってきたの?
一言でいうと、「テレビ番組のメタデータ」を研究してきました。
大学では、テレビ番組の番組情報(EPG=Electronic Program Guide)を対象として、「それぞれの番組が、どの番組シリーズとつながっているものなのかを、どのようなロジックで決めればよいか」というようなことを研究していました。そして大学院では、データづくりの観点から、「どのように構造化してあげたら、テレビ番組と地域のつながりを表現し使いやすいデータセットとなるか」ということを研究しておりました。
ところで、私の趣味の軸の1つにテレビがあります。昔から日常的にテレビ番組を録画してきており、中学生のころには録画した番組をVARDIAのレコーダーで編集してDVDにダビングするということをやっていました。この経験の中で、ある番組がお休みのときに特番の一部時間帯が無駄に録画されてしまったり、次週の番組タイトルの一部が変わってしまい録画されなかったりといったことがあったわけです。これらの研究テーマもこうした趣味の経験があって決めたものです。
そもそもメタデータとはなにものか
ところでメタデータって言葉、知ってますか?
せっかくなので、GaiXerに聞いてみました。
わたし
メタデータについて教えてください。
GaiXer君
メタデータは、データに関する情報を提供するデータのことです。メタデータは、データの意味や属性、構造、関係などを記述し、データの管理や利用を支援します。
メタデータは、さまざまな種類のデータに関連付けられることがあります。例えば、画像のメタデータには、画像のフォーマット、解像度、作成日時、撮影場所などの情報が含まれます。文書のメタデータには、作成者、作成日時、ファイルサイズ、文書の言語などの情報が含まれます。
メタデータは、データの分類、検索、整理、保管、共有、再利用などの目的で使用されます。また、メタデータはデータの信頼性や品質の評価にも利用されることがあります。
一般的なメタデータの種類には、次のようなものがあります:
1. 説明メタデータ:データの内容や目的に関する情報を提供します。例えば、文書の概要や画像のキャプションなどが含まれます。
2. 技術メタデータ:データの形式や構造、フォーマットに関する情報を提供します。例えば、データのファイル形式やエンコーディング、データベースのテーブル構造などが含まれます。
3. 管理メタデータ:データの管理や利用に関する情報を提供します。例えば、データの所有者やアクセス権、更新履歴などが含まれます。
4. 構造メタデータ:データの階層構造や関係性に関する情報を提供します。例えば、データベースのテーブル間の関連や階層的なフォルダ構造などが含まれます。
5. コンテキストメタデータ:データの使用や表示に関する情報を提供します。例えば、データの表示言語や地域設定、データの使用目的などが含まれます。
メタデータは、データの正確性、一貫性、可用性を保証するために重要な役割を果たします。また、メタデータはデータの検索や分析、統合などの処理を支援するためにも利用されます。
こんな長く答えてくれましたが、1フレーズで言うと、「データについて書かれたデータ」という理解でOKです。
実は、メタデータは日常のあらゆるところに溶け込んでいる、非常に身近な存在なのです!!!
メタデータは日常に深く溶け込んでいる?!
突然ですが、インターネットには途方もないほどの情報が溢れていますよね。その中からあなたは普段どのようにして目的の情報を探しますか? ググる、アレクサに聞いてみる、ChatGPTに聞くなどなど、何らかの手段で見つけてくると思います。
そういったプロセスの中であなたはメタデータのお世話になっているのです!!
いや、そんなのみたことない???
いえいえ、絶対目にしています!!!!
順を追って説明しましょう。ググるとき、Google(の検索エンジン)はインターネット上を検索してくれます。この検索の前に、Google先生はあらかじめインターネット上のあらゆるWebページを収集してGoogleのデータベースに保存しています。そのデータベースを探索して検索結果画面にランク付けして表示しています。このランク付けをするためには、どのような内容が書かれたWebページなのかをGoogle先生が理解しながら収集する必要があります。実はWebページには、それぞれそのページにどのような内容が記述されているのか、ページ作成者は誰か、などといった情報をメタデータとして持っています。Google先生がWebページの内容を理解する際にこのメタデータを読んでいるのです。
検索画面でも1件1件、Webページのタイトルや概要文、URLやアイコンを見たことがありますよね!
アレもまさしくメタデータです。
もしメタデータがなかったら、いちいちURLを訪問してWebページの中を見に行かないといけなくなります。
しかし、メタデータがあるからこそ、Googleの検索結果一覧画面でお目当てのものを吟味することができるというからくりです。
生成AIをはじめとするAIでもメタデータは重要です。
AIだって学習を行うために膨大なデータが必要ですし、人間が打ち込んだ自然言語の命令文を解析する必要もあるでしょう。この時にどのようなデータであるかを説明するデータを使っていたり、どこに分類されるかというメタデータを使っていたり(二値分類など)するわけです。例えば自然言語を解析するという工程一つとっても、文章を単語や文節で区切って、その単語が名詞なのか動詞なのか形容詞なのか、そして主語と述語の関係やどこを修飾しているのかなどの情報を学習していたりするのです(多分)。
もっと身近な例を出してみましょう!
まずはこの写真を見てください。
このペットボトルの中身は何ですか?
麦茶?紅茶?ウーロン茶?
茶色という色以外の情報がないため、何なのかわからなくて怖いですよね……
しかし、メタデータがあるとこうなります。
このような中身が何かを示す情報が書かれたラベルがあることで、これはアールグレイの紅茶だったことがわかりますよね!
このように、そのものが何者なのかを説明してくれるデータ、そして人間や社会の営みに欠かせない存在、それこそメタデータそのものなのです。
スーパーやコンビニなどのお店にある商品にはどれも品名や価格、原材料名、製造者名、販売者名、バーコードなど、商品についての情報(=メタデータ)があります。
メタデータがあるからどの商品を買ったかがわかり、会計ができ、ビッグデータができるのです。
インターネットや商品だけに限らず、街中にある道路標識、看板、本のタイトルや著者、そしてこの記事のタイトルやカテゴリー、タグなどなど、世の中はメタデータだらけなのです。
この世界はメタデータだらけであり、メタデータに染まっている世界線に私たちは生きているのです。
要するに……
ここまでお伝えしたように、メタデータというのは実は私たちの生活に非常に密接に、あらゆる領域でかかわっていることに驚いたのではないでしょうか。
メタデータはあらゆる学問分野の垣根を越えてかかわる究極の学際分野の1つです。そこには文系も理系も、開発であっても営業であっても、生産者であっても消費者であっても、学術だろうが実務だろうが関係ないのです。
すなわち、世界はメタデータでまわっている。と言っても過言ではないというのがこの経済、すなわちこの世の理なのです。
みなさんもメタデータを少しでも意識してみて楽しんでもらえればと思います。
※テレビのメタデータの話もしたかったのですが、メタデータだけで長くなってしまいましたので、またの機会に。