2025年12月26日星期五

AI 算力新戰場：當 LPU 挑戰 GPU，推論時代的架構革命

當 AI 從雲端走向裝置端，市場需求發生了本質改變：追求低功耗、低延遲、即時互動與本地隱私。目前 AMD 與 Intel 全面主攻 AI PC 推論市場，無論是 Windows、Copilot 或 Edge AI，全部皆圍繞 Inference 打造。

LLM 的發展趨勢也開始「縮小模型、提高反應速度」。NVIDIA 雖然清楚 GPU 在「訓練」領域仍是王者，但推論市場不一定非 GPU 不可。這也是為什麼像 Groq 這樣的公司，以 LPU 架構（Chip + SRAM）展現出領先的高速推論能力，試圖與 NVIDIA GPU 並行發展。

技術瓶頸的突破

GPU： 依賴 HBM（高頻寬記憶體）。為了訓練大模型，它追求極致的吞吐量 (Throughput)，適合一次處理海量數據，但在單次生成的延遲上較難妥協。
LPU ： 針對 LLM 的特性設計。由於 LLM 是「一個字猜一個字」的循序輸出，記憶體存取速度才是瓶頸。LPU 透過內建 SRAM 消除記憶體牆 (Memory Wall)，在即時對話的速度上，表現遠超傳統 GPU。

p.s 當系統效能受限於資料傳輸速度時，就形成典型的「記憶體牆」（Memory Wall）問題。

未來的晶片格局將是「雙軌並行」： 是用 GPU 在雲端訓練出更聰明的大腦，再用 LPU 在你的裝置上實現秒回的互動。AI 硬體的下半場，才正要開始。

2025年11月2日星期日

ROC-AUC 不適合作為Anomaly Detection的效能指標

在異常偵測任務中，即使模型對正樣本（異常樣本）的辨識能力較差，ROC-AUC 仍可能顯示出看似良好的結果。這是因為 ROC-AUC 同時考慮了 FPR（False Positive Rate），而在實務上正常樣本（TN, True Negatives）通常遠多於異常樣本。當 TN 的數量極大時，即使模型誤判許多異常樣本，也會使 FPR 接近 0，進而高估模型的整體表現。

What is ROC-AUC ?

Uderstanding ROC and AUC

相關課程

*** 生成式 AI 實務：從基礎模型到 Agentic AI https://shorturl.at/zyJMe [1] 生成式AI能力認證 https://bit.ly/3E09jNs [2] python程式設計 https://bit.ly/359cz4m [3] 資料分析與視覺化 https://bit.ly/3XEaMjj [4] AI機器學習&深度學習 http://bit.ly/2KDZZz4 [5] 非監督式學習 https://bit.ly/422HA8h [6] AI自然語言與推薦系統應用 https://bit.ly/3qnO2Tg [7] TensorFlow Lite for MCU https://bit.ly/3j2fIIt [8] Intel OpenVINO邊緣運算實務 https://bit.ly/3BOPFjB [9] 電腦視覺演算法 https://bit.ly/3iOpC2x

2025年10月3日星期五

GAN vs Conditional GAN：概念差異與去噪任務的應用

Standard GAN :

Generator (G)：輸入隨機噪聲 $z \sim N (0, 1)$ ，輸出 fake image
Discriminator (D)：輸入一張圖像（可能來自真實 MNIST，也可能是 G 的 fake），判斷 real/fake

是MNIST 資料集的圖像 → 標記為 real (y=1)
G(z) 生成的假圖像 → 標記為 fake (y=0)

D 不需要 paired data，只要能看到真實數據與生成數據
訓練過程中，G 會逐步學會把隨機 z 映射到「看起來像 MNIST 分佈」的圖像

Conditional GAN

想要生成「數字6」，就給模型條件

$y = 6$ ，生成器要輸出像「6」的圖片，而不是別的數字。
圖片裡面打叉的「2」就是說：雖然它來自分佈，但不符合條件（y=6），所以不是正確輸出

Conditional GAN:

Learn a mapping from condition → target (e.g. noisy → clean)

Discriminator (D)：同時看 (noisy, clean) 或 (noisy, fake)

(noisy, clean) → 應該判斷為 real (y=1)

(noisy, fake) → 應該判斷為 fake (y=0)

D 的角色不只是判斷「像不像真實圖像」，還要檢查「輸出和 noisy 是否對應」

透過 Binary Cross Entropy loss，D 訓練得更會分辨；而 G 則被迫學到正確 mapping (noisy → clean)

2025年9月21日星期日

衡量降噪後的語音品質指標:SNR, PESQ, STOI

衡量降噪後的語音品質與可理解度的效能評估指標：

訊噪比（SNR）
語音品質感知評估（PESQ）
短時客觀可懂度（STOI）

SNR → energy ratio (engineering view).

兩個訊號能量比

\[ \text{SNR} = 10 \log_{10} \frac{\|s\|^2}{\|s - \hat{s}\|^2} \]

PESQ

在 20 世紀 90 年代末至 2000 年 ITU-T 標準化階段，研究人員對大量人類受試者進行了聽覺測試。一段語音會由一群人主觀評分，分數範圍 1 = 差，5 = 優，這種平均分數稱為 MOS（Mean Opinion Score，平均意見分數），代表人耳對語音品質的主觀感受。

PESQ（Perceptual Evaluation of Speech Quality）

目標: PESQ(x, x′) ≈ MOS(x′), 即 (x, x') ---> PESQ 模型 ---> MOS-like 的分數

在當年的人類測試中，受試者只聽 $x′$ ，然後給出 MOS(x′) 作為品質評分。但這種方式需要大量受試者，成本高、速度慢。因此，我們希望有一個模型（例如 PESQ），它能同時利用 $(x, x')$ 做比較，並且自動算出一個與 MOS 接近的分數（MOS-like），就能取代昂貴的主觀實驗

要建立 PESQ，必須先有: clean 語音 $x$ 和經過 degradation 的 $x′$ ，還有 MOS(x′) 作為 ground truth。這個 PESQ 可以模擬人耳如何聽到「差異」, 並自動輸出一個介於 –0.5 到 4.5 之間的類 MOS 的分數， 數值越高代表語音品質越好（越接近原始乾淨語音）。

STOI (Short-Time Objective Intelligibility)

STOI 衡量的是 乾淨語音 vs 處理後語音 在 短時頻帶能量包絡 上的相關性

基於短時頻帶的相關性 → 相關係數愈高 → 語音可懂度愈好
分數範圍介於 0 ~ 1：
- 越接近 1 → 表示語音幾乎完全可懂
- 越接近 0 → 表示語音幾乎無法理解

在頻帶處理上，STOI 使用 1/3-octave band filters，這是一組模仿人耳頻率解析度的濾波器，把語音分解成符合聽覺特徵的頻帶。STOI 並不是直接比較波形，而是比較這些 能量包絡 的相似性。這是因為人耳在理解語音時，主要依靠的是 振幅起伏模式（例如母音的共振峰、子音的爆破音）。這些較慢的振幅變化（約 10–50 Hz 範圍）就是所謂的 能量包絡，而它們正是影響可懂度的關鍵。

2025年9月16日星期二

YOLO 物件偵測的兩大誤判：漏檢與誤檢

模型常見的兩種誤判情況

1. 漏檢 (False Negative)
在標註階段，如果一張圖片中實際有 3 個 A 物件，但標註時只框選了其中 1 個，那麼剩下的 2 個未被標註的 A 物件，在模型訓練時就會被誤當作「背景」。這會造成模型學到錯誤資訊，認為「某些 A 物件其實是背景」，結果在預測時無法正確辨識，導致漏檢的情況發生，並使召回率 (Recall) 顯著下降。

2. 誤檢 (False Positive)
舉例來說，在黑熊偵測任務中，大型黑狗、山豬，甚至陰影下的其他動物，都可能因外觀特徵相似而被模型誤判為黑熊。這就是誤檢 (False Positive)。

為了減少誤檢，可以在訓練過程中加入「負樣本 (Negative Samples)」。所謂負樣本，是指那些容易被誤判成黑熊的圖片（如黑狗、山豬等），但不提供任何標註框。YOLO 的訓練機制中，如果模型讀取到一張圖片（例如 dark_dog.jpg），卻找不到對應的標註檔（.txt 檔），它會自動將該圖片視為「負樣本」。透過學習這些負樣本，模型能更準確地掌握「背景」與「非目標物」的特徵，進而提升判斷力，有效降低誤檢發生率。

2025年9月14日星期日

在 Google Drive 建立捷徑存取共用資料夾

當你在 Google Drive 中，對一個分享的資料夾建立「捷徑」，你的帳號裡就會出現一個檔案，指向該共用資料夾。如此一來，當你在 Google Colab 掛載 Google Drive 時，只要存取這個捷徑，就能直接進入並使用他人分享的資料夾內容。

這樣你mount 了你的google driver 你也可以找到我這裡分享的google drive的內容.

只要存取這個捷徑，就能直接進入並使用他人分享的資料夾內容

2025年9月4日星期四

[Python硬體控制教學] 如何用 I2C 精準讀寫單一 Bit 或特定位元？

Quesion:

在GPIO_I2C通訊協定與EEPROM存取"章節中，教的I2C存取是以1個byte(8個bit)為單位做讀及寫，請問有模組(module)或function可以import，只單獨做I2C 1個bit讀寫，或是連續的2或3個bit讀寫嗎？

沒有這樣的函數, 原因是I2C 傳輸資料的最小的單位就是一個位元組 (8個bits)，

每傳輸完一個位元組，接收方就會回傳一個 ACK/NACK位元

你要寫入bit, 一般作法都是將值讀回後, 進行位元運算 bitwise operation, 再將值寫回

例如:

original_value = bus.read_byte_data(DEVICE_ADDR, CONFIG_REGISTER)
new_value = original_value | (1 << 2)
bus.write_byte_data(DEVICE_ADDR, CONFIG_REGISTER, new_value)

2025年7月21日星期一

SimCLR : 重複圖片偵測技術

1.) SimCLR 是一種微調RestNet一種作法，使其能夠對於類似的圖片產生相同的向量至於如何"類似" 由自己定義。凡定義為相似的圖片, 例如把同一個圖片其經過角度旋轉、平移、亮度不同、加入些許雜點的細微變化，仍視為相同的，故SimCLR 模型必須為相似的圖片建立相同的特徵向量。

simclr 的訓練方法其概念同CLIP model, 一種Representation-Based / Contrastive Learning的方式

先用Data augumentation 產生一個pair ,pair 內的資料彼此是相似的, 如下圖的 x1和 x2 很像, 但x1和 x2, x3很不像. 故 L(x1) 可以表示此Contrastive Loss

同樣的 x2,x3,x4 也是相同的概念, 所以此batch 所計算出的loss為 = 0.25 * (L(x1) +L(x2) +L(x3) +L(x4) )

2.) 一旦有了這個SimCLR模型後, 即對於類似的圖片能建立相同的特徵向量。接著我們就可以利用clustering 方法，如k-means 或HDBSCAN 進行圖片的分群，同群表示其群內圖片應該相當雷同。

2025年6月29日星期日

AI 都可以寫程式了，我們為什麼還要學程式？

AI 時代的學習者：為什麼還要學程式？

從農業時代到工業時代，人類第一次大規模用「機器」取代「人力」。許多過去依靠體力與手工的工作逐漸消失。當世界進入資訊時代，自動化與電腦系統又接手了大量重複性的任務，像打字員、收費員、電話接線員等職業，也慢慢成為歷史。

而現在，我們正迎來下一個重大轉變——AI 時代。

很多人會問：「既然 AI 可以寫程式，我們為什麼還要學？」
其實，歷史早已給了答案：每一次科技進步，改變的是工作的方式，而不是人本身。真正被取代的，往往不是人，而是舊的思考方式與工作模式。

學程式，不只是為了寫程式

在 AI 時代學習程式設計，重要的不只是學會語法，而是建立一種新的學習態度。

生成式 AI（例如 ChatGPT）已經成為強大的工具，可以協助寫程式、解釋概念甚至幫助除錯。但對初學者來說，最重要的仍然是：

親自動手寫程式
理解邏輯與結構
培養獨立思考能力

如果一開始就完全依賴 AI，反而可能錯過真正理解問題的機會。當你具備基礎後，再將 AI 作為輔助工具，才能讓學習速度與深度同時提升。

人類真正的優勢是什麼？

即使 AI 越來越強，它在面對大型系統設計、複雜問題拆解，以及跨領域整合時，仍然需要人類的判斷與思考。

因此，在 AI 時代，你不只是「寫程式的人」，更應該把自己當成：

問題解決者
系統思考者
專案整合者

學會如何分析問題、選擇工具、與他人合作，將會比單純會寫某一種語言更加重要。

資料結構與演算法：不是考試，而是思維

許多學生會覺得資料結構與演算法很抽象，但其實它們是一種「解決問題的思考方式」。

例如 Google 地圖如何預測交通狀況，就是透過資料結構、演算法與機器學習的結合，讓我們每天都能做出更好的路線選擇。

當你理解這些基礎概念時，你不只是學會寫程式，而是學會如何用系統化的方法看待世界。

在 AI 時代，你真正要學的是什麼？

AI 不會停止進化，因此學習也不能停止。真正重要的是：

持續培養邏輯思考能力
保持好奇心與實作精神
學會與 AI 協作，而不是依賴

當你能把 AI 當成夥伴，而不是替代者，你就已經站在未來的起點。

2025年6月25日星期三

YOLO物件偵測的效能指標: mAP@IoU

mAP (mean Average Precision) for Object Detection

mAP@0.5 . 0.5 bounding box對Grond Truth 的IoU, 須達到的threshold才認定為物件。該物件為某一類旳預測機率稱為confidence。進行PR-curve 的計算。

對每一個類別都用 PR-Curve 決定其效能， PR-Curve 底下所圍成的積即為 Average Precision,

針對此類別的所有的bounding box ,計算 Recall 及 Precision
在不同的recall 下(由0到1), 所對應的precision 所形成的面積,即為此類別的Average Precision,面積為 0~1 .

接著將所有類別的Average Precision值加總取平均, 即是mAP , 此即為模型在預測各種類別的平均能力

https://youtu.be/R8tb0yNr-Qc

2025年5月21日星期三

模型是根據句中的哪段話判斷分類結果

#Transformer #BERT # Self -Attention #Explainable AI #LIME #SHAP

在NLP中的文章分類或句子的情緒判別中，模型分類結果符合預期，但如何得知到底是這句話或文章那句話或詞語決定了分類的結果 ?

LIME 執行的結果

若使用的是Transformer 的BERT., 那可以透Attention weight distribution , 得知那模型主要關注了那一個字。但若分類模型不是BERT 這種具有Self -Attention 的機制，那作法可以用模型可解釋性 (Explainable AI) 的方法,，如LIME 或 SHAP ，他們會用分類模型結果去建立一個簡線性模型，如Logistic Regression 的這種架構，Y=w1x1+w2x2+w3x3+....如此便可以透過這些權重值w1,w2,... 去了解每個字的重要性。

2025年1月10日星期五

不平衡資料集的解決辦法

當樣本類別分佈很不平均時 , 如何解決?

不平衡資料集

(1) 從資料下手:

除了用data augumentation 增加少數Minority類別的樣本資料，也可以用Resampling 的方法，避免模型訓練後偏向回答多數(Majority)類別的答案 .
Resampling 是指反覆地從訓練資料中抽取不同的樣本子集，並對每組子集重新訓練模型，減少模型的偏差。Resampling 的方法如 Bootstrap 取樣法或 K-Fol 交叉驗證，這兩種方法其主要差異在於樣本子集的抽取方式：Bootstrap使用有放回的隨機抽樣，而 k-fold 交叉驗證則將資料分成 k 個不重疊的子集進行訓練與驗證。