Skip to main content

AI

AI 分支

  • 專家系統:模擬人類專家的系統,其性能取決於專家的知識與經驗。
  • 預測型 AI:利用深度學習進行數據分析,運用歷史數據預測趨勢,並可以利用非監督式學習發現數據中的隱含規則。
  • 生成型 AI
    • AIGC (AI Generated Content):使用 AI 生成內容。
    • 生成式 AI (GAI):基於專家團隊 (PGC)、用戶 (UGC) 與生成式平台的演算法。

AI Model 演進

  • 機器學習模型:通過試錯法與反思來積累經驗。
  • 類神經網路模型:模擬人腦神經信號處理與思維過程。
  • 生成式演算法模型:對輸入數據的概率分布建模,生成新數據。
  • 語言模型:用於執行各種自然語言處理任務並理解人類語言。
  • 大規模預訓練模型:能根據上下文進行互動,並以類似人類的方式進行對話。
  • 大型語言模型 (LLM)
tip

梯度消失 (Gradient Vanishing):

指在深層神經網絡中,由於梯度在反向傳播過程中逐層變小,導致靠近輸入層的權重更新非常緩慢甚至停止,影響模型的訓練效果。該問題可以通過使用 ReLU 激活函數、適當的權重初始化(如 He 初始化或 Xavier 初始化)、批量歸一化(Batch Normalization)、殘差網絡(Residual Networks)和改進的遞歸神經網絡結構(如 LSTM 和 GRU)來解決。

AIGC 演算法

  • AE (Autoencoder):無監督學習模型,用於數據壓縮與特徵提取。自編碼器包括一個編碼器和一個解碼器,編碼器將輸入數據壓縮為低維表示,解碼器則將其還原為原始數據。這種模型主要用於降噪、特徵提取和數據壓縮。
  • VAE (Variational Autoencoder):結合自編碼器與概率建模,用於學習數據的低維表示並生成新樣本。VAE 引入了概率分佈的概念,通過對數據的潛在空間進行建模,可以生成具有隨機性的數據樣本,適用於圖像生成和異常檢測等應用。
  • GAN (Generative Adversarial Network):由生成器和判別器組成的一種生成模型。生成器試圖生成逼真的數據樣本,而判別器則負責區分真實數據和生成數據。兩者通過博弈過程相互改進,使生成器最終能夠生成高質量的數據。GAN 常用於圖像生成、圖像超分辨率和圖像修復。
  • PixelRNN:用於生成像素級別圖像的神經網絡模型,學習圖像像素之間的依賴關係。PixelRNN 逐像素地生成圖像,每個像素的生成依賴於之前生成的像素,這使得它能夠捕捉圖像中的複雜結構和細節。
  • Flow:基於圖論的方法,用於模擬與分析資料流的動態行為與交互。Flow 模型通過對數據流的依賴關係進行建模,適用於需要分析數據流動和轉換的場景,如交通流量分析和網絡流量管理。
  • Diffusion:通過在圖像上進行隨機擴散生成圖像的生成模型。Diffusion 模型利用反覆擴散步驟,將圖像的梯度逐漸向噪聲化,從而生成高質量的圖像樣本。這種方法在去噪和圖像生成方面有顯著效果。
  • Transformer:一種強大的神經網絡架構,特別適用於自然語言處理和其他序列建模任務。Transformer 使用自注意力機制來處理輸入序列中的依賴關係,能夠並行處理輸入序列,使其在處理長序列時表現出色,廣泛應用於機器翻譯、文本生成和語音識別。
  • NeRF (Neural Radiance Fields):能從 2D 或 3D 影像中學習出精確的三維場景表示。NeRF 通過將視線從不同角度投影到三維空間中,進行高品質的圖像合成和視圖合成。NeRF 被廣泛應用於三維重建、虛擬影像生成和增強現實等領域。
  • CLIP:由 OpenAI 開發的自監督學習模型,將圖像與文字對齊,理解圖像與文本之間的關係。CLIP 通過預訓練大量的圖像-文本對,能夠在多領域表現出色,應用於圖像檢索、圖像分類和自然語言處理等任務,並且在零標籤訓練情況下也能取得優異的效果。

Stable Diffusion 原理

  • Prompt Engineering:設計高效的提示詞來引導模型生成期望的輸出。
    • prompthero:一個用於提示詞設計的工具。
  • PEFT (Parameter Efficient Fine-Tuning)
    • 添加法:調節器、軟提示。
    • 選擇法:選擇模型參數進行微調。
    • 重參數化:通過修改模型參數進行調整。

Embedding

  • Embedding:通過少量範例影像捕捉新穎概念,微調模型參數。
    • Textual inversion:從文本中尋找關鍵詞並嵌入。

Dreambooth

  • Dreambooth:針對 Txt2Image 的改進方法,通過微調整個模型來提升生成效果。

Lora

  • Lora (Low-Rank Adaptation):在特定層插入模組,使模型適應特定問題的處理。

HyperNetwork

  • HyperNetwork:利用神經網絡生成模型參數,修改 cross attention 模塊。

ControlNet

  • ControlNet:一種文生圖的擴展方法,不需重新訓練模型即可實現客製化生成。

SwinIR

  • SwinIR (Swin Transformer for Image Restoration):一種用於影像重建的方法。

SD XL

  • SD XL:Stable Diffusion 的進階版本,提供更高質量的圖像生成。
技術名稱類型主要用途優點適用情境
Embedding技術特徵提取、降維提高數據處理效率和模型性能自然語言處理、推薦系統
Dreambooth技術文本到圖像生成的微調提升生成圖像的質量和多樣性需要針對特定風格或內容進行圖像生成
LoRA技術大型模型微調保持原有知識,低成本適應新任務有預訓練模型,需要適應新任務
HyperNetwork技術動態生成模型參數靈活調整模型權重以適應多任務需要在多任務或變化環境下工作
ControlNet技術模型功能擴充無需重新訓練,快速實現特定功能需要在現有模型上增加特定控制或功能
SD XL模型高質量圖像生成生成更高分辨率和質量的圖像需要生成高質量或特定用途的圖

評估 LLM 的網站