IT Lab艾鍗學院技術Blog

2024年12月18日星期三

生成深度學習｜訓練機器繪畫、寫作、作曲與玩遊戲第二版
Generative Deep Learning, 2nd Edition

Page 203

X_T should have zero mean and unit variance

中文應為: 均值為 0 且單位變異數為 I

unit variance (If all variables are independent, Σ = I (identity matrix))

I = Σ = [1 0 0 ...

0 1 0 ...

0 0 1 ...

. .. ... ...]

2024年12月16日星期一

判別式AI與生成式AI

生成式AI的崛起與發展

生成式AI（Generative AI）在2022年底隨著ChatGPT的問世而廣受關注。ChatGPT展現出近乎自然的人類對話能力，讓許多人驚嘆AI技術的進展。如今，ChatGPT的功能已不僅限於文字對話，更可解讀圖片、PDF文件分析，並能提供內容摘要與深度分析。市場上類似的工具還包括Microsoft Copilot、Claude和Notebook LLM等。除了文字生成，AI技術也延伸至音樂創作和圖像生成領域。在圖像生成領域已有非常成熟的平台，例如 Stable Diffusion、Midjourney和DALL-E等。

判別式AI與生成式AI的本質差異

相較於2019年主流的判別式AI（Discriminative AI）——專注於圖像分類或文本分類等任務，生成式AI面對的是更具挑戰性的問題。判別式AI主要解決P(y=k|x)的問題，即在已知條件x下，預測標籤y為k的機率，而無需了解x的整體分布。

生成式AI則致力於估計P(x)，即從觀察到的樣本x1, x2, x3...中推測整體的機率分布。這個任務的複雜度遠超過判別式AI。理解P(x)分布的重要性在於：如果我們能找到一個近似分布Q(x)，使其接近真實分布P(x)，那麼從Q(x)中採樣得到的新樣本x將與真實數據具有相似的特徵。

舉例來說，在人臉生成的應用中，即使生成的面孔並不存在於原始訓練數據集中，但由於其符合真實人臉的分布特徵，因此看起來自然且真實，難以與真實人臉區分。這正是生成式AI的強大之處。

生成式AI的技術發展史

Shift from GANs to Diffusion Models for image generation

Evolution from autoregressive models to large language models

2022: Stable Diffusion released as open-source

2023

GPT-4 released with multimodal capabilities
Claude (Anthropic) and Google's PaLM demonstrate advanced reasoning
Improved versions of Stable Diffusion (XL, 3)
Llama and Llama 2 released by Meta
Gemini announced by Google

2024年10月8日星期二

描述常態分佈的特徵: 偏度與峰度

對於常態分佈(可以Histogram 畫下來) ,除了mu (mean), sigma (variance), 還可以用 Skwness 及kurtosis 來描述, 此亦可以作為特徵。

Skwness: 描述圖形是對稱分佈嗎? 還是左偏分佈 ? 或右偏分佈分佈?

偏度 $k_3$ 的計算公式：

\text{Skewness} = \frac{\mathbb{E}[(X - \mu)^3]}{\sigma^3}

峰度（Kurtosis）決定數值分布的同質性與異質性，越接近高狹峰表示越同質，越趨向低闊峰表示越異質。

峰度 (Kurtosis) 的計算公式是：

Kurtosis

\text{Kurtosis} = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{X_i - \mu}{\sigma}\right)^4

標準常態分佈的峰度為 3.  為使標準常態分佈的峰度為 0，故會將原始峰度減去 3，從而更方便地比較其他分佈的峰度。也因此為峰度會有負值的原因。

數據分佈的尾部厚度愈厚，表示有較多異常值(離峰較遠者)，故按公式計算其峰值會較大。

2024年10月5日星期六

多變量常態分佈 Normal Distribution

Multinormal Distribution (多態性常態分佈)

當K=1 時, 即是單維的常態分佈 f(x)

若 u=0, covariane matrix= I

當K=2 時, 為雙變數的常態分佈 PDF f(x,y)

2024年9月25日星期三

觀察資料的趨勢

EDA 中觀察資料的趨勢

針對Time Series Data 通常會觀察原始資料的趨勢(Trend), 季節性/週期性(Seasonality)的狀態或資料中的雜訊.

但這些數據是怎麼取得的呢?

趨勢線: 用原始資料的移動平均值(MA)作為長期走勢的觀察. (移動窗口可以自己設定)
週期性 (Seaonality): 將原始資料減去趨勢線可以強調週期性的特徵
雜訊(Residual) : 原始資料減去趨勢線再減去週期性線, 剩下的值認定是噪訊(隨機波動)或短期的變化。

可以自己用Python 完成或者利用 statsmodels 工具來完成。 statsmodels 本身提供許多不同統計模型和統計資料探索的函數。

另外, 也可以計算ACF ( Autocorrelation) , 自相關係數為原始資料 Xt 和 X的lagged Xt+k計算相關係數，ACF 大小可以幫助我們了解數據中週期性的狀態。當lagged 越大 (即K愈大)，ACF 通常會逐漸減少，特別是對於沒有長期相關性的數據而言。

$$\rho_k = \frac{\sum_{t=k+1}^{n} (X_t - \bar{X})(X_{t-k} - \bar{X})}{\sum_{t=1}^{n} (X_t - \bar{X})^2}$$

Note:$ \rho_0=1 $

繪製出ACF圖, 若每隔 $i$ 之後都能看到這個峰值, 則可能存週期 $i$。序列資料可能有存在一個以上的週期，如每週會有一個週期, 而每季也有一個週期。

ACF圖( X軸為不同的lag k, Y軸為ACF值)

底下ACF圖說明序列資料沒有存在週期性.

--------------

具有週期性的資料

seasonal_pattern = 10 * np.sin(2 * np.pi * time / 12)

trend = 0.1 * time

noise = np.random.normal(0, 1, size=100)

data = seasonal_pattern + trend + noise

ACF圖( X軸為不同的lag k, Y軸為ACF值)

底下ACF圖說明序列資料存在一個週期性, 在Lag n*K 處都有差不多的峰值, 表示其週期性為 k

2024年9月21日星期六

what is Botnet ?

A botnet is a network of compromised computers or devices, often referred to as "bots" or "zombies," that are controlled remotely by a malicious actor (known as a "botmaster"). These devices are typically infected with malware, allowing the botmaster to execute various commands on them without the device owner’s knowledge.

Here are some common uses and dangers of botnets:

Distributed Denial of Service (DDoS) Attacks: Botnets are often used to flood a target server or website with traffic, overwhelming it and causing it to crash or become unavailable to users.
Spam Distribution: They can be used to send out massive amounts of spam emails or phishing messages, which can lead to further infections or fraud.
Credential Stuffing: Botnets may attempt to use stolen usernames and passwords on different sites, automating the process to try many combinations quickly.

2024年9月18日星期三

最大概似估計 (MLE) 與 GLL

看到 y1 情況下 , 機率分佈其參數會是 $ \theta_1 $ 的可能性高於$ \theta_2 $.

可能性的意義亦等同於 $ P( y_1 \mid \theta_1 ) > P( y_1 \mid \theta_2 ) $ ,

但如何找到最好的$ \theta $ 使其可能性達到最大，即機率 $ P( y_1 \mid \theta )$ 能達到最大, 此即為最大概似估計 (Maximum Likelihood Estimation) 的目標。

若此機率模型為高斯分佈，即什麼樣的參數 $(\mu, \sigma^2)$ , 能使 $ P(y_1 \mid \mu, \sigma^2)$ 最大.

若你的機器學習模型是預測一個高斯分佈的參數 $(\mu, \sigma^2)$

$$X \sim \mathcal{N}(\mu, \sigma^2)$$

$$f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{ - \frac{(x - \mu)^2}{2 \sigma^2} }$$

則你可以將對應答案 $y_1$ 丟入得出其機率，即 $$ f ( y_1 \mid \mu, \sigma^2) $$

若預測的參數夠好的話，則$f(y_1\mid \mu, \sigma^2)$ 應該要很大，若取Log 改以$$X \sim \text{Log-N}(\mu, \sigma^2)$$ 表示，值也會是大的。

$$log(f(y_1\mid \mu, \sigma^2)) = -\frac{1}{2} \log(2\pi) -\frac{1}{2} \log(\sigma^2) - \frac{(y_1 - \mu)^2}{2 \sigma^2}$$

此式子的最大值為

σ \to 1 且

y1=μ . y1=μ 代表我們猜得夠準才能使機率值最大

https://www.kaggle.com/competitions/ariel-data-challenge-2024

若預測多組 $(\mu_1, \sigma_1^2), (\mu_2, \sigma_2^2),...,(\mu_n, \sigma_n^2)$

效能可以直接加總 $$f(y_1\mid \mu_1, \sigma_1^2) +f(y_2\mid \mu_2, \sigma_2^2)+...+f(y_n\mid \mu_n, \sigma_n^n)$$ , 或取log 值相加也可以。

$log(f(y_1\mid \mu_1, \sigma_1^2)) +log(f(y_2\mid \mu_2, \sigma_2^2))+...+log(f(y_n\mid \mu_n, \sigma_n^n))$ ---> 這就是 GLL (Gaussian Log Likelihood)

a^2))$$