1.) SimCLR 是一種微調RestNet一種作法,使其 能夠對於類似的圖片產生相同的向量 至於如何"類似" 由自己定義。凡定義為相似的圖片, 例如把同一個圖片其經過角度旋轉、平移、亮度不同、加入些許雜點的細微變化, 仍視為相同的,SimCLR 模型必須建立相同的特徵向量。
simclr 的訓練方法其概念同CLIP model
2.) 一旦有了這個模型後接著我們可以利用clustering 方法,如k-means 或HDBSCAN 進行圖片的分群, 同群表示其群內圖片應極為類似。
1.) SimCLR 是一種微調RestNet一種作法,使其 能夠對於類似的圖片產生相同的向量 至於如何"類似" 由自己定義。凡定義為相似的圖片, 例如把同一個圖片其經過角度旋轉、平移、亮度不同、加入些許雜點的細微變化, 仍視為相同的,SimCLR 模型必須建立相同的特徵向量。
#Transformer #BERT # Self -Attention #Explainable AI #LIME #SHAP
在NLP中的文章分類或句子的情緒判別中,模型分類結果符合預期,但如何得知到底是這句話或文章那句話或詞語決定了分類的結果 ?
![]() |
LIME 執行的結果 |
若使用的是Transformer 的BERT., 那可以透Attention weight distribution , 得知那模型主要關注了那一個字。但若分類模型不是BERT 這種具有Self -Attention 的機制,那作法可以用模型可解釋性 (Explainable AI) 的方法,,如LIME 或 SHAP ,他們會用分類模型結果去建立一個簡線性模型, 如Logistic Regression 的這種架構,Y=w1x1+w2x2+w3x3+....如此便可以透過這些權重值w1,w2,... 去了解每個字的重要性。
![]() |
不平衡資料集 |
如何同時衡量模型的正確性與長期穩定性?
Home Credit - Credit Risk Model Stability
Create a model measured against feature stability over time
https://www.kaggle.com/competitions/home-credit-credit-risk-model-stability/overview
gini = 2 * AUC - 1 (AUC:0~1)
stability metric = mean(gini) + 88.0 * min(0, a) - 0.5 * std(residuals)
針對預測能力呈現下滑趨勢給予懲罰 :即 a < 0 的情況
穏定性評估: 計算 residuals 的標準差, 愈小表示模型愈穏定. 最好是 0
[References ]
問題2: UDA driver version is insufficient for CUDA runtime version
\Anaconda3\lib\site-packages\tensorflow\python\client\session.py in __init__(self, target, graph, config) 674 try: 675 # pylint: disable=protected-access --> 676 self._session = tf_session.TF_NewSessionRef(self._graph._c_graph, opts) 677 # pylint: enable=protected-access 678 finally: InternalError: cudaGetDevice() failed. Status: CUDA driver version is insufficient for CUDA runtime version