Paano Sukatin ang Pagganap ng AI?

Kung nakapagpadala ka na ng modelong nakakabighani sa isang notebook ngunit nahirapan sa produksyon, alam mo na ang sikreto: kung paano sukatin ang pagganap ng AI ay hindi isang mahiwagang sukatan. Ito ay isang sistema ng mga pagsusuri na nakatali sa mga layunin sa totoong mundo. Maganda ang katumpakan. Mas mainam ang pagiging maaasahan, kaligtasan, at epekto sa negosyo.

Mga artikulong maaaring gusto mong basahin pagkatapos nito:

🔗 Paano makipag-usap sa AI
Gabay sa epektibong pakikipag-ugnayan gamit ang AI para sa patuloy na mas mahusay na mga resulta.

🔗 Ano ang hinihikayat ng AI
Nagpapaliwanag kung paano hinuhubog ng mga prompt ang mga tugon at kalidad ng output ng AI.

🔗 Ano ang AI data labeling
Pangkalahatang-ideya ng pagtatalaga ng mga tumpak na label sa datos para sa mga modelo ng pagsasanay.

🔗 Ano ang etika ng AI
Panimula sa mga prinsipyong etikal na gumagabay sa responsableng pagbuo at pag-deploy ng AI.

Ano ang nagpapabuti sa pagganap ng AI? ✅

Maikling bersyon: ang mahusay na pagganap ng AI ay nangangahulugan na ang iyong sistema ay kapaki-pakinabang, mapagkakatiwalaan, at maaaring ulitin sa ilalim ng magulo at nagbabagong mga kondisyon. Sa konkreto:

Kalidad ng gawain - nakukuha nito ang mga tamang sagot para sa mga tamang dahilan.
Kalibrasyon - ang mga marka ng kumpiyansa ay naaayon sa katotohanan, para makagawa ka ng matalinong aksyon.
Katatagan - nakakayanan nito ang pag-agos, mga gilid, at magulong kalabuan.
Kaligtasan at pagiging patas - iniiwasan nito ang mapaminsalang, may kinikilingan, o hindi sumusunod sa mga patakaran.
Kahusayan - ito ay sapat na mabilis, sapat na mura, at sapat na matatag upang tumakbo nang malawakan.
Epekto sa negosyo - talagang binabago nito ang KPI na mahalaga sa iyo.

Kung gusto mo ng pormal na sanggunian para sa pag-aayos ng mga sukatan at panganib, ang NIST AI Risk Management Framework ay isang matibay na north star para sa mapagkakatiwalaang pagsusuri ng sistema. [1]

Ang mataas na antas ng resipe kung paano sukatin ang pagganap ng AI 🍳

Mag-isip sa tatlong patong:

Mga sukatan ng gawain - kawastuhan para sa uri ng gawain: klasipikasyon, regresyon, pagraranggo, pagbuo, kontrol, atbp.
Mga sukatan ng sistema - latency, throughput, cost per call, mga rate ng pagkabigo, mga drift alarm, mga uptime SLA.
Mga sukatan ng resulta - ang mga resulta ng negosyo at user na talagang gusto mo: conversion, pagpapanatili, mga insidente sa kaligtasan, dami ng manu-manong pagsusuri, dami ng tiket.

Ang isang mahusay na plano sa pagsukat ay sadyang pinaghahalo ang lahat ng tatlo. Kung hindi, makakakuha ka ng isang rocket na hindi umaalis sa launchpad.

Mga pangunahing sukatan ayon sa uri ng problema - at kailan gagamitin kung alin 🎯

1) Klasipikasyon

Precision, Recall, F1 - ang trio sa unang araw. Ang F1 ay ang harmonic mean ng precision at recall; kapaki-pakinabang kapag ang mga klase ay hindi balanse o ang mga gastos ay hindi simetriko. [2]
ROC-AUC - threshold-agnostic ranking ng mga classifier; kapag bihira ang mga positibo, siyasatin din ang PR-AUC. [2]
Balanseng katumpakan - average ng pag-alala sa iba't ibang klase; madaling gamitin para sa mga hindi pantay na label. [2]

Pagbabantay sa patibong: ang katumpakan lamang ay maaaring maging lubhang nakaliligaw at may kawalan ng balanse. Kung 99% ng mga gumagamit ay lehitimo, ang isang hangal na modelo na laging lehitimo ay makakakuha ng 99% at mabibigo ang iyong pangkat ng mga manloloko bago magtanghalian.

2) Regresyon

MAE para sa error na nababasa ng tao; RMSE kapag gusto mong parusahan ang malalaking pagkakamali; R² para sa variance na ipinaliwanag. Pagkatapos, suriin ang mga distribusyon at mga residual plot. [2]
(Gumamit ng mga domain-friendly unit para maramdaman talaga ng mga stakeholder ang error.)

3) Pagraranggo, pagkuha, mga rekomendasyon

nDCG - nagmamalasakit sa posisyon at gradong kaugnayan; pamantayan para sa kalidad ng paghahanap.
MRR - nakatuon sa kung gaano kabilis lumitaw ang unang nauugnay na aytem (mahusay para sa mga gawaing "maghanap ng isang mahusay na sagot").
(Ang mga sanggunian sa pagpapatupad at mga halimbawang ginamit ay nasa mga pangunahing aklatan ng metrika.) [2]

4) Pagbuo at pagbubuod ng teksto

BLEU at ROUGE - mga klasikong sukatan ng pagsasanib; kapaki-pakinabang bilang mga baseline.
Ang mga sukatang nakabatay sa pag-embed (hal., BERTScore) ay kadalasang mas mahusay na nauugnay sa pagpapasya ng tao; palaging ipinapares sa mga rating ng tao para sa estilo, katapatan, at kaligtasan. [4]

5) Pagsagot sa tanong

Karaniwan ang Exact Match at token-level na F1 para sa extractive QA; kung ang mga sagot ay kailangang magbanggit ng mga pinagmulan, sukatin din ang grounding (mga pagsusuri sa suporta ng sagot).

Kalibrasyon, kumpiyansa, at ang Brier lens 🎚️

Ang mga confidence score ang tahimik na kinaroroonan ng maraming sistema. Gusto mo ng mga probabilidad na sumasalamin sa realidad para makapagtakda ang mga op ng mga threshold, ruta papunta sa mga tao, o panganib sa presyo.

Mga kurba ng kalibrasyon - mailarawan ang hinulaang probabilidad kumpara sa empirikal na dalas.
Brier score - isang wastong tuntunin sa pagmamarka para sa probabilistikong katumpakan; mas mababa ang mas mabuti. Ito ay lalong kapaki-pakinabang kapag mahalaga sa iyo ang kalidad ng probabilidad, hindi lamang ang ranggo. [3]

Tala: ang isang bahagyang "mas malala" na F1 ngunit mas mahusay na kalibrasyon ay maaaring lubos na mapabuti ang triage - dahil sa wakas ay mapagkakatiwalaan na ng mga tao ang mga marka.

Kaligtasan, pagkiling, at pagiging patas - sukatin kung ano ang mahalaga 🛡️⚖️

Maaaring maging tumpak ang isang sistema sa pangkalahatan ngunit makakasama pa rin sa mga partikular na grupo. Subaybayan ang pinagsamang sukatan at pamantayan sa pagiging patas:

Pagkakapantay-pantay ng demograpiko - pantay na positibong rate sa iba't ibang grupo.
Pantay na logro / Pantay na pagkakataon - pantay na mga rate ng error o mga rate ng true-positive sa iba't ibang grupo; gamitin ang mga ito upang matukoy at pamahalaan ang mga trade-off, hindi bilang mga one-shot pass-fail stamp. [5]

Praktikal na tip: magsimula sa mga dashboard na naghihiwalay sa mga pangunahing sukatan ayon sa mga pangunahing katangian, pagkatapos ay magdagdag ng mga partikular na sukatan ng pagiging patas ayon sa hinihingi ng iyong mga patakaran. Mukhang maselan ito, ngunit mas mura ito kaysa sa isang insidente.

Mga LLM at RAG - isang playbook sa pagsukat na talagang gumagana 📚🔍

Ang pagsukat ng mga generative system ay… paliku-liko. Gawin ito:

Tukuyin ang mga resulta sa bawat pagkakataon ng paggamit: kawastuhan, pagiging matulungin, pagiging hindi nakakapinsala, pagsunod sa istilo, tono batay sa tatak, batayan ng pagbanggit, kalidad ng pagtanggi.
I-automate ang mga baseline eval gamit ang mga matatag na framework (hal., evaluation tooling sa iyong stack) at panatilihing naka-version ang mga ito kasama ng iyong mga dataset.
Magdagdag ng mga semantic metric (nakabatay sa pag-embed) kasama ang mga overlap metric (BLEU/ROUGE) para sa katinuan. [4]
Pagbabatay ng instrumento sa RAG: retrieval hit rate, katumpakan/pag-alala sa konteksto, overlap ng sagot-suporta.
Pagsusuring pantao na may kasunduan - sukatin ang consistency ng tagasuri (hal., Cohen's κ o Fleiss' κ) para hindi magkapareho ang iyong mga label.

Bonus: mga percentile ng log latency at token o compute cost per task. Walang may gusto sa isang mala-tula na sagot na darating sa susunod na Martes.

Ang talahanayan ng paghahambing - mga kagamitang makakatulong sa iyong sukatin ang pagganap ng AI 🛠️📊

(Oo, sadyang medyo magulo - magulo talaga ang mga totoong nota.)

Kagamitan	Pinakamahusay na madla	Presyo	Bakit ito gumagana - mabilisang pag-aaral
mga sukatan ng scikit-learn	Mga nagsasanay ng ML	Libre	Mga kanonikal na implementasyon para sa klasipikasyon, regresyon, at pagraranggo; madaling isama sa mga pagsubok. [2]
Pagsusuri ng MLflow / GenAI	Mga siyentipiko ng datos, MLOps	Libre + bayad	Mga sentralisadong pagpapatakbo, mga awtomatikong sukatan, mga LLM judge, mga custom scorer; malinis na naglo-log ng mga artifact.
Maliwanag	Mga koponan na nagnanais ng mabilis na mga dashboard	OSS + ulap	Mahigit 100 sukatan, mga ulat sa drift at kalidad, mga monitoring hook - magagandang visual sa oras ng kagipitan.
Mga Timbang at Pagkiling	Mga organisasyong maraming eksperimento	Libreng antas	Ang magkakatabing paghahambing, mga dataset ng ebalwasyon, mga hurado; mga talahanayan at mga bakas ay maayos-ayos.
LangSmith	Mga tagabuo ng app ng LLM	Bayad	Subaybayan ang bawat hakbang, paghaluin ang pagsusuri ng tao sa mga tagasuri ng tuntunin o LLM; mainam para sa RAG.
TruLens	Mga mahilig sa open-source na LLM evaluation	OSS	Mga tungkulin ng feedback upang bigyan ng marka ang toxicity, groundedness, relevance; maisama kahit saan.
Mahusay na Inaasahan	Mga organisasyong inuuna ang kalidad ng datos	OSS	Gawing pormal ang mga inaasahan sa datos - dahil ang masamang datos ay sumisira rin sa bawat sukatan.
Mga Deepcheck	Pagsubok at CI/CD para sa ML	OSS + ulap	Pagsubok na kasama ang mga baterya para sa data drift, mga isyu sa modelo, at pagsubaybay; mahusay na mga guardrail.

Nagbabago ang mga presyo - tingnan ang mga dokumento. At oo, maaari mong paghaluin ang mga ito nang hindi nagpapakita ang pulisya ng mga kagamitan.

Mga hangganan, gastos, at kurba ng desisyon - ang sikretong solusyon 🧪

Isang kakaiba ngunit totoo: ang dalawang modelo na may parehong ROC-AUC ay maaaring magkaroon ng ibang-iba na halaga sa negosyo depende sa iyong threshold at mga ratio ng gastos.

Mabilisang sheet para sa pagbuo:

Itakda ang halaga ng isang false positive vs false negative sa pera o oras.
Suriin ang mga limitasyon at kalkulahin ang inaasahang gastos sa bawat 1k na desisyon.
Piliin ang minimum na inaasahang threshold ng gastos, pagkatapos ay i-lock ito gamit ang pagsubaybay.

Gamitin ang mga PR curve kapag bihira ang mga positibo, ang mga ROC curve para sa pangkalahatang hugis, at ang mga calibration curve kapag ang mga desisyon ay umaasa sa mga probabilidad. [2][3]

Mini-case: isang support-ticket triage model na may katamtamang F1 ngunit mahusay na calibration cut, na nag-uudyok sa manu-manong pagbabago ng ruta pagkatapos lumipat ang mga operasyon mula sa isang hard threshold patungo sa tiered routing (hal., “auto-resolve,” “human-review,” “escalate”) na nakatali sa mga naka-calibrate na score band.

Pagsubaybay, pag-anod, at pag-alerto online 🚨

Ang mga offline na pagsusuri ang simula, hindi ang katapusan. Sa produksyon:

Subaybayan ang input drift, output drift, at performance decay ayon sa segment.
Itakda ang mga pagsusuri sa guardrail - pinakamataas na antas ng halusinasyon, mga limitasyon ng toxicity, mga delta ng fairness.
Magdagdag ng mga canary dashboard para sa p95 latency, mga timeout, at gastos sa bawat kahilingan.
Gumamit ng mga library na sadyang binuo para mapabilis ito; nag-aalok ang mga ito ng mga drift, quality, at monitoring primitives na agad-agad na magagamit.

Maliit na may depektong metapora: isipin ang iyong modelo na parang sourdough starter - hindi ka basta-basta nagbe-bake nang isang beses at aalis na; kumakain ka, nanonood, umaamoy, at kung minsan ay nagsisimula ka ulit.

Pagsusuri ng tao na hindi nabubulok 🍪

Kapag binibigyan ng mga tao ng marka ang mga output, ang proseso ay mas mahalaga kaysa sa iyong iniisip.

Sumulat ng masusing rubrics na may mga halimbawa ng pasado laban sa borderline laban sa bagsak.
I-randomize at i-blind ang mga sample kung kaya mo.
Sukatin ang pagkakasundo ng mga tagasuri (hal., ang κ ni Cohen para sa dalawang tagasuri, ang κ ni Fleiss para sa marami) at i-refresh ang rubrics kung may hindi pagkakasundo.

Pinipigilan nito ang iyong mga tatak na pantao na maanod ng mood o suplay ng kape.

Malalimang pagsisiyasat: kung paano sukatin ang pagganap ng AI para sa mga LLM sa RAG 🧩

Kalidad ng pagkuha - recall@k, precision@k, nDCG; saklaw ng mga katotohanan tungkol sa ginto. [2]
Katapatan sa sagot - mga pagsusuring banggitin at beripikahin, mga marka ng groundedness, mga adversarial probe.
Kasiyahan ng gumagamit - mga thumbs, pagkumpleto ng gawain, distansya ng pag-edit mula sa mga iminungkahing draft.
Kaligtasan - toxicity, PII leakage, pagsunod sa patakaran.
Gastos at latency - mga token, mga hit sa cache, mga latency ng p95 at p99.

Iugnay ang mga ito sa mga aksyon sa negosyo: kung ang groundingness ay bumaba sa isang linya, awtomatikong i-route sa strict mode o human review.

Isang simpleng playbook para makapagsimula ngayon 🪄

Tukuyin ang trabaho - sumulat ng isang pangungusap: ano ang dapat gawin ng AI at para kanino.
Pumili ng 2–3 sukatan ng gawain - kasama ang kalibrasyon at kahit isang bahagi ng pagiging patas. [2][3][5]
Magpasya ng mga limitasyon gamit ang gastos - huwag manghula.
Gumawa ng isang maliit na set ng ebalwasyon - 100–500 na may label na mga halimbawa na sumasalamin sa pinaghalong produksyon.
I-automate ang iyong mga eval - wire evaluation/monitoring sa CI para ang bawat pagbabago ay magsagawa ng parehong mga pagsusuri.
Monitor sa prod - drift, latency, cost, incident flags.
Buwan-buwan mong suriin - putulin ang mga sukatang walang gumagamit; magdagdag ng mga sumasagot sa mga totoong tanong.
Idokumento ang mga desisyon - isang buhay na scorecard na aktwal na binabasa ng iyong koponan.

Oo, literal na ganoon nga. At gumagana ito.

Mga karaniwang gotcha at kung paano iwasan ang mga ito 🕳️🐇

Pag-overfit sa iisang sukatan - gumamit ng basket ng sukatan na tumutugma sa konteksto ng desisyon. [1][2]
Hindi pinapansin ang pagkakalibrate - ang kumpiyansa nang walang pagkakalibrate ay isa lamang pagmamalaki. [3]
Walang segmentasyon - laging hatiin ayon sa mga grupo ng gumagamit, heograpiya, aparato, wika. [5]
Mga hindi natukoy na gastos - kung hindi mo lalagayan ng mga error sa pagpepresyo, pipiliin mo ang maling threshold.
Pag-iiba-iba ng pagsusuri ng tao - pagsusukat ng pagkakatugma, mga rubric sa pag-refresh, muling sanayin ang mga tagasuri.
Walang mga instrumentong pangkaligtasan - magdagdag ng pagiging patas, pagkalason, at mga pagsusuri sa patakaran ngayon, hindi sa ibang pagkakataon. [1][5]

Ang pariralang pinuntahan mo: paano sukatin ang pagganap ng AI - ang Masyadong Mahaba, Hindi Ko Ito Nabasa 🧾

Magsimula sa malinaw na mga resulta, pagkatapos ay pagsama-samahin gawain, sistema, at negosyo . [1]
Gamitin ang tamang mga sukatan para sa trabaho - F1 at ROC-AUC para sa klasipikasyon; nDCG/MRR para sa pagraranggo; overlap + semantic metrics para sa henerasyon (ipinares sa mga tao). [2][4]
I-calibrate ang iyong mga probabilidad at i-presyo ang iyong mga error upang pumili ng mga threshold. [2][3]
Magdagdag sa pagiging patas gamit ang mga group slice at pamahalaan nang malinaw ang mga trade-off. [5]
I-automate ang mga pagsusuri at pagsubaybay para makapag-ulit ka nang walang pangamba.

Alam mo naman kung paano - sukatin mo kung ano ang mahalaga, o mapapabuti mo lang ang hindi.

Mga Sanggunian

[1] NIST. AI Risk Management Framework (AI RMF). magbasa pa
[2] scikit-learn. Pagsusuri ng modelo: pagbibilang sa kalidad ng mga hula (Gabay sa Gumagamit). magbasa pa
[3] scikit-learn. Kalibrasyon ng probabilidad (mga kurba ng kalibrasyon, iskor ng Brier). magbasa pa
[4] Papineni et al. (2002). BLEU: isang Paraan para sa Awtomatikong Pagsusuri ng Pagsasalin ng Makina. ACL. magbasa pa
[5] Hardt, Price, Srebro (2016). Pagkakapantay-pantay ng Oportunidad sa Pinangangasiwaang Pagkatuto. NeurIPS. magbasa pa

Hanapin ang Pinakabagong AI sa Opisyal na Tindahan ng AI Assistant

Tungkol sa Amin

Balik sa blog