ごあいさつ
おはようございます!
この度2025年度入社した新卒1年目の野村と申します!よろしくお願いします!
先輩方も優しくて、相談しやすくて、とても風通しの良い環境で研修に励まさせていただいています!
衝撃の推し技術
では、衝撃の推し技術についてさっそく...それは..「画像生成」です!
特になんの変化球もなく申し訳ございません...
画像系の技術、文字認識など全般が結構好きです!
何を隠そうこの私、大学の研究で画像生成の技術を使用していました!
画像生成はAI技術に分類されるんですかね...?
AIといえば「GaiXer」がありますが、自然言語処理のAIとは違い画像生成のAIです
もしかするとAIというよりは単なる機械学習かディープラーニングかもしれません...
最近では、ChatGPTなどでテキストでの画像生成が出来るようになってきたということで...
ぜひ「GaiXer」でも画像生成を追加していただきたい!したい!と僭越ながら思っております
研究内容についてご紹介
皆さんは「くずし字」を知っていますか?
くずし字とは、すご~く雑に言うと、平安時代とかの文書で見られる「うねうねしてる文字」です

引用:国書データベース
↑くずし字はこんなやつ
次に、皆さんは「くずし字」読めますか?
おそらくほとんどの人は読むことができないと思います
ある情報によると、くずし字を読める人は現代で0.01パーセントだとか何とか
とにかく読むことができる人が少ないんです!
でも、くずし字って過去の歴史を知る重要な情報なんです!
読めない原因として私が考えたものは、くずし字は現在の文字の字形と異なっているということです
そこで私の研究では、くずし字の字形を現在の字形に近づけよう!という研究をしていました
ここで重要なのが、完全に現在の字形に戻しては「くずし字の芸術性」が損なわれてしまうので、いい感じに寄せることです!
使用したモデルは「拡散モデル(Diffusion Model)」といいます
拡散モデルを使用した有名な技術でいうと「Stable Diffusion」があります
具体的にはDDIM(Denoising Diffusion Implicit Models)というモデルを使用しました!
また、これに加えて「画像補間」という技術を使用しました
画像補間とは、これまたすご~く雑に言うと、二つの画像の特徴をブレンドすることです(キメラみたいな?ちょっと違うけど...)
手法のイメージとしては、画像補間でブレンドした画像の潜在表現をDDIMというモデルでサンプリングするという感じです!
こんな感じで、くずし字と現代文字を補間した画像(正確には現代文字ではなく、現代文字に限りなく近いくずし字画像ですが...)を出力して、読みやすくなりましたね!ってことをしてました
本当なら研究の結果をお見せしたかったのですが、大学のメールアドレスが失効となってしまい、かつ兄妹に大学のノートパソコンをあげてしまったので、ご用意できませんでした...申し訳ございません
拡散モデルによる画像補間のイメージだけ引用して載せます

引用:2312.07409
こんな感じで、片方のワンちゃんが徐々に別のワンちゃんになっている様子がわかりますね
さいごに
私の研究について少々熱く語ってしまいましたが、今回はこれくらいにさせていただきます!
読んでいただきありがとうございました!