2025年7月21日 星期一

SimCLR : 重複圖片偵測技術

 1.) SimCLR 是一種微調RestNet一種作法,使其 能夠對於類似的圖片產生相同的向量 至於如何"類似" 由自己定義。定義為相似的圖片, 例如把同一個片其經過角度旋轉、平移、亮度不同、加入些許雜點的細微變化, 仍視為相同的,故SimCLR 模型必須為相似的圖片建立相同的特徵向量。


simclr 的訓練方法其概念同CLIP model, 一種Representation-Based / Contrastive Learning的方式
先用Data augumentation 產生一個pair ,pair 內的資料彼此是相似的, 如下圖的 x1和 x2 很像, 但x1和 x2, x3很不像. 故 L(x1) 可以表示此Contrastive  Loss
同樣的 x2,x3,x4 也是相同的概念, 所以此batch 所計算出的loss為 = 0.25 * (L(x1) +L(x2) +L(x3) +L(x4) )

,



2.) 一旦有了這個SimCLR模型後, 即對於類似的圖片能建立相同的特徵向量。接著我們就可以利用clustering 方法,如k-means 或HDBSCAN 進行圖片的分群, 同群表示其群內圖片應該相當雷同。