LOADING

読み込みが遅い場合はキャッシュを有効にしてください。ブラウザはデフォルトで有効になっています

MY BLOG

個人技術ブログ

VITS論文の解読

AI 2024/4/9

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は、変分推論(variational inference)、正規化フロー(normalizing flows)、および敵対的学習を組み合わせた、表現力の高い音声合成モデルです。VITSは、音声合成における音響モデルとボコーダーをスペクトログラムではなく潜在変数で連結し、潜在変数上で確率モデリングを行い、確率的デュレーション予測器を利用することで、合成音声の多様性を向上させています。同じテキストを入力しても、異なるトーンやリズムの音声を合成することが可能になります。

続きを読む

StyleGANシリーズ(v1~v3)の画像生成技術

AI 2024/4/8

StyleGANシリーズ(v1~v3)は、NVIDIAによって開発された高品質な顔画像生成を目的としたGAN(敵対的生成ネットワーク)のアーキテクチャで、特にスタイルベースの生成器構造を採用することで、画像の視覚的特徴をより細かく制御可能にした点が特徴です。v1では潜在空間を分離し、各レイヤーでAdaINを通じてスタイル情報を注入する手法を導入し、v2では水滴状アーティファクトの解消や正則化手法の導入により画像品質を向上させました。さらにv3では、生成画像における「テクスチャが画面上に固定される」問題に対処し、畳み込みネットワークの等変性(平移・回転に対する一貫性)を理論的に保証する設計へと進化させ、自然でリアルな画像生成を実現しています。このシリーズは画像生成技術の基盤として広く応用され、FIDやPPLなどの評価指標を用いてその性能が検証されています。

続きを読む

時系列予測基礎:RNN、LSTM、GRU

AI 2024/4/7

リカレントニューラルネットワーク(RNN)、長短期記憶ネットワーク(LSTM)、およびゲート付きリカレントユニット(GRU)について詳しく解説しています。RNNは時系列データを処理するための基本的なニューラルネットワークアーキテクチャであり、隠れ状態を通じて過去の情報を保持しますが、勾配消失問題により長期依存関係の学習が困難です。この問題を解決するために開発されたLSTMは、入力ゲート、忘却ゲート、出力ゲートの3つのゲート機構を持つことで、長期的な情報保持が可能になります。さらに進化したGRUは、リセットゲートと更新ゲートの2つのゲートのみで構成され、LSTMと比較してよりシンプルで計算効率が良いながらも、同様の性能を発揮します。これらのモデルは自然言語処理や時系列予測など様々な分野で広く利用されています。

続きを読む

AutoEncoder、DAE と VAE (VAE実装含む)

AI 2024/4/6

オートエンコーダーは、主に教師なし学習に使われるニューラルネットワークの一種で、データの効率的な表現を学ぶことを目的とします。特に、次元削減や特徴抽出に用いられます。一方、VAE(Variational Autoencoder)はオートエンコーダーの一種であり、確率的表現を持つため、より柔軟なデータ生成が可能です。

続きを読む

ResNetの説明

AI 2024/4/5

ResNetは2015年にマイクロソフトの何凱明氏らによって提案された深層学習モデルで、従来のCNNが抱えていたネットワークが深くなるほど性能が劣化するという問題を、ショートカット接続と残差学習の概念を導入することで解決しました。このモデルは極めて深いネットワーク構造(152層、場合によっては1000層以上)を可能にし、画像認識・分類タスクにおいて顕著な成果を残し、深層学習の発展に大きな影響を与えました。

続きを読む

生成敵対ネットワーク (GAN) 理論と実装 (PyTorch)

AI 2024/4/3

GAN(生成敵対ネットワーク)は、2014年にIan Goodfellowによって提案された深層生成モデルの一種です。このモデルは、生成器 (Generator) と判別器 (Discriminator) の2つのニューロンネットワークから構成され、互いに競争しながら学習を進めます。

続きを読む

CNN基本建築

AI 2024/4/1

CNN (Convolutional Neural Networks / 畳み込みニューラルネットワーク) は、画像認識に特化した深層学習モデルで、入力層が画像を数値行列に変換し、畳み込み層が特徴を抽出、プーリング層がサイズを縮小して計算量を削減、全結合層が最終的な分類を行う仕組みです。また、畳み込み演算やPadding、活性化関数(ReLU)の役割についても解説し、CNNが画像の局所的な特徴から全体の意味を理解するプロセスを紹介しました。

続きを読む

Huggingface Transformers

AI 2024/3/30

Transformers は、PyTorch, TensorFlow, JAX に対応した機械学習ライブラリで、最先端の学習済みモデルを簡単にダウンロードして利用できるように設計されています。このフレームワークは、自然言語処理やコンピュータビジョン、音声認識などさまざまな分野でのタスクをサポートし、柔軟なフレームワーク間相互運用性と本番環境向けのデプロイメント機能(ONNX や TorchScript 形式へのエクスポート)を提供します。

続きを読む

git: A git directory for 'xxxx' is found locally with remote(s)

AI 2024/1/7

問題

❯ git submodule add https://github.com/volantis-x/hexo-theme-volantis .\themes\volantis
fatal: A git directory for 'themes/volantis' is found locally with remote(s):
  origin        https://github.com/volantis-x/hexo-theme-volantis
If you want to reuse this local git directory instead of cloning again from
  https://github.com/volantis-x/hexo-theme-volantis
use the '--force' option. If the local git directory is not the correct repo
or you are unsure what this means choose another name with the '--name' option.
続きを読む

timmライブラリ入門 - PyTorch Image Models (timm) ライブラリの紹介と使い方

AI 2023/11/18

timm (PyTorch Image Models) ライブラリの紹介と使い方。画像分類、物体検出、特徴抽出などの機能を提供。

続きを読む
avatar
lijunjie2232

平凡なAI開発者であり、様々な技術を学ぶことが好きです

{{ currentImageIndex + 1 }} / {{ images.length }}