Maikling sagot: Tukuyin kung ano ang hitsura ng "mabuti" para sa iyong use case, pagkatapos ay subukan gamit ang mga representative, versioned prompts at edge case. Ipares ang mga automated metrics sa human rubric scoring, kasama ang adversarial safety at prompt-injection checks. Kung ang mga limitasyon sa gastos o latency ay maging mapilit, ihambing ang mga modelo ayon sa tagumpay ng gawain bawat pound na ginastos at p95/p99 na oras ng pagtugon.
Mga pangunahing punto:
Pananagutan : Magtalaga ng mga malinaw na may-ari, panatilihin ang mga tala ng bersyon, at patakbuhin muli ang mga pagsusuri pagkatapos ng anumang prompt o pagbabago ng modelo.
Transparency : Isulat ang mga pamantayan sa tagumpay, mga limitasyon, at mga gastos sa pagkabigo bago ka magsimulang mangolekta ng mga marka.
Kakayahang Ma-audit : Panatilihin ang mga paulit-ulit na test suite, mga may label na dataset, at mga sinusubaybayang p95/p99 latency metrics.
Pagtatalo : Gumamit ng mga rubric sa pagsusuri ng tao at isang tinukoy na landas ng apela para sa mga pinagtatalunang output.
Paglaban sa Maling Paggamit : Pag-uudyok ng Red-team na magbigay ng impormasyon, mga sensitibong paksa, at labis na pagtanggi upang protektahan ang mga gumagamit.
Kung pumipili ka ng modelo para sa isang produkto, isang proyekto sa pananaliksik, o kahit isang internal na tool, hindi mo basta-basta pwedeng sabihin na "mukhang matalino" at i-ship ito (tingnan ang gabay sa mga pagsusuri ng OpenAI at ang NIST AI RMF 1.0 ). Ganito ka magkakaroon ng chatbot na may kumpiyansang magpapaliwanag kung paano i-microwave ang isang tinidor. 😬

Mga artikulong maaaring gusto mong basahin pagkatapos nito:
🔗 Ang kinabukasan ng AI: mga usong humuhubog sa susunod na dekada.
Mga pangunahing inobasyon, epekto sa trabaho, at etika na dapat abangan.
🔗 Ipinaliwanag ang mga pundasyong modelo sa generative AI para sa mga nagsisimula.
Alamin kung ano ang mga ito, paano ito sinanay, at bakit mahalaga.
🔗 Paano nakakaapekto ang AI sa kapaligiran at paggamit ng enerhiya.
Galugarin ang mga emisyon, pangangailangan sa kuryente, at mga paraan upang mabawasan ang bakas ng paa.
🔗 Paano gumagana ang AI upscaling para sa mas matatalas na mga imahe ngayon
Tingnan kung paano nagdaragdag ng detalye, nag-aalis ng ingay, at nagpapalaki nang malinis ang mga modelo.
1) Pagbibigay-kahulugan sa "mabuti" (depende, at ayos lang iyon) 🎯
Bago ka magsagawa ng anumang pagsusuri, magdesisyon ka muna kung ano ang hitsura ng tagumpay. Kung hindi, susukatin mo ang lahat at wala kang matututunan. Parang pagdadala ng panukat para husgahan ang isang patimpalak sa cake. Oo, makakakuha ka ng mga numero, pero wala itong gaanong masasabi sa iyo 😅
Linawin:
-
Layunin ng gumagamit : pagbubuod, paghahanap, pagsulat, pangangatwiran, pagkuha ng katotohanan
-
Gastos sa pagkabigo : nakakatawa ang maling rekomendasyon ng pelikula; ang maling medikal na instruksyon ay… hindi nakakatawa (pagbabalangkas ng panganib: NIST AI RMF 1.0 ).
-
Kapaligiran sa oras ng pagpapatakbo : nasa device, sa cloud, sa likod ng firewall, sa isang regulated na kapaligiran
-
Pangunahing mga limitasyon : latency, gastos bawat kahilingan, privacy, kakayahang maipaliwanag, suporta sa maraming wika, kontrol ng tono
Ang isang modelo na "pinakamahusay" sa isang trabaho ay maaaring maging isang sakuna sa iba pa. Hindi iyon isang kontradiksyon, ito ang realidad. 🙂
2) Ano ang hitsura ng isang matibay na balangkas ng pagsusuri ng modelo ng AI 🧰
Oo, ito ang bahaging nilalaktawan ng mga tao. Kumukuha sila ng benchmark, pinapatakbo ito nang isang beses, at tinatapos na lang. Ang isang matibay na balangkas ng pagsusuri ay may ilang pare-parehong katangian (mga praktikal na halimbawa ng tooling: OpenAI Evals / OpenAI evals guide ):
-
Nauulit - maaari mo itong patakbuhin muli sa susunod na linggo at magtiwala sa mga paghahambing
-
Kinatawan - ipinapakita nito ang iyong aktwal na mga gumagamit at gawain (hindi lamang mga trivia)
-
Maraming patong - pinagsasama ang mga awtomatikong sukatan + pagsusuri ng tao + mga pagsubok na may tunggalian
-
Magagamit - sinasabi sa iyo ng mga resulta kung ano ang dapat ayusin, hindi lang "bumaba ang iskor"
-
Lumalaban sa pakikialam - iniiwasan ang "pagturo sa pagsubok" o aksidenteng pagtagas
-
Pagiging maalam sa gastos - ang pagsusuri mismo ay hindi dapat magpabagsak sa iyo (maliban na lang kung gusto mo ng sakit)
Kung hindi kayang tiisin ng ebalwasyon mo ang isang nagdududang kasamahan sa koponan na nagsasabing “Sige, pero iugnay mo ito sa produksyon,” hindi pa ito tapos. Iyan ang vibe check.
3) Paano Suriin ang mga Modelo ng AI sa pamamagitan ng pagsisimula sa mga use-case slices 🍰
Narito ang isang trick na makakatipid ng maraming oras: hatiin ang use case sa mga hiwa .
Sa halip na "suriin ang modelo," gawin ang:
-
Pag-unawa sa layunin (nakukuha ba nito ang gusto ng gumagamit)
-
Pagkuha o paggamit ng konteksto (ginagamit ba nito nang tama ang ibinigay na impormasyon)
-
Mga gawain na may maraming hakbang / pangangatwiran (nananatiling magkakaugnay ba ito sa iba't ibang hakbang)
-
Pag-format at istruktura (sumusunod ba ito sa mga tagubilin)
-
Pagkakahanay ng kaligtasan at patakaran (iniiwasan ba nito ang hindi ligtas na nilalaman; tingnan ang NIST AI RMF 1.0 )
-
Tono at boses ng tatak (tunog ba ito na gusto mo)
Dahil dito, ang "Paano Suriin ang mga Modelo ng AI" ay hindi na parang isang malaking pagsusulit kundi isang hanay ng mga naka-target na pagsusulit. Nakakainis ang mga pagsusulit, pero kaya naman. 😄
4) Mga pangunahing kaalaman sa offline na pagsusuri - mga set ng pagsubok, mga label, at ang mga hindi kaakit-akit na detalye na mahalaga 📦
Ang offline eval ay kung saan ka nagsasagawa ng mga kontroladong pagsubok bago hawakan ng mga gumagamit ang anumang bagay (mga pattern ng daloy ng trabaho: OpenAI Evals ).
Gumawa o mangolekta ng test set na tunay na iyo
Ang isang mahusay na set ng pagsubok ay karaniwang kinabibilangan ng:
-
Mga ginintuang halimbawa : mga mainam na output na buong pagmamalaki mong ipapadala
-
Mga kaso ng gilid : malabong mga prompt, magulo na mga input, hindi inaasahang pag-format
-
Mga probe sa Failure-mode : mga prompt na nanunukso ng mga halusinasyon o mga hindi ligtas na tugon (pagbalangkas ng pagsubok sa peligro: NIST AI RMF 1.0 )
-
Saklaw ng pagkakaiba-iba : iba't ibang antas ng kasanayan ng gumagamit, mga diyalekto, wika, at mga sakop
Kung susubukin mo lang ang mga "malinis" na prompt, magiging kahanga-hanga ang hitsura ng modelo. Pagkatapos ay lalabas ang iyong mga user na may mga typo, kalahating pangungusap, at enerhiya ng pag-click sa galit. Maligayang pagdating sa realidad.
Mga pagpipilian sa paglalagay ng label (kilala rin bilang: mga antas ng pagiging mahigpit)
Maaari mong lagyan ng label ang mga output bilang:
-
Binary : pasado/bigo (mabilis, malupit)
-
Ordinal : 1-5 marka ng kalidad (nuanced, subhetibo)
-
Multi-attribute : katumpakan, pagkakumpleto, tono, paggamit ng sitasyon, atbp (pinakamahusay, mas mabagal)
Ang multi-attribute ay ang pinakamasarap na bagay para sa maraming team. Parang pagtikim ng pagkain at paghusga nang hiwalay sa alat mula sa tekstura. Kung hindi, sasabihin mo lang na "masarap" at magkibit-balikat.
5) Mga sukatang hindi nagsisinungaling - at mga sukatang medyo nagsisinungaling 📊😅
Mahalaga ang mga sukatan… pero maaari rin itong maging parang glitter bomb. Makintab, kahit saan, at mahirap linisin.
Mga karaniwang pamilya ng sukatan
-
Katumpakan / eksaktong tugma : mahusay para sa pagkuha, pag-uuri, mga nakabalangkas na gawain
-
F1 / precision / recall : madaling gamitin kapag ang isang bagay ay nakaligtaan ay mas masahol pa kaysa sa sobrang ingay (mga kahulugan: scikit-learn precision/recall/F-score )
-
Pagsasama-sama ng istilo ng BLEU / ROUGE : ayos lang para sa mga gawaing parang pagbubuod, kadalasang nakaliligaw (orihinal na sukatan: BLEU at ROUGE )
-
Pag-embed ng pagkakatulad : nakakatulong para sa semantikong pagtutugma, maaaring magbigay ng gantimpala sa mga maling-ngunit-magkatulad na sagot
-
Antas ng tagumpay ng gawain : "nakuha ba ng gumagamit ang kanilang kailangan" pamantayang ginto kapag mahusay na natukoy
-
Pagsunod sa mga limitasyon : sumusunod sa format, haba, bisa ng JSON, pagsunod sa schema
Ang pangunahing punto
Kung ang iyong gawain ay bukas ang mga hangganan (pagsulat, pangangatwiran, support chat), ang mga single-number metrics ay maaaring… maging magulo. Hindi naman sa walang saysay, magulo lang talaga. Posible ang pagsukat ng pagkamalikhain gamit ang ruler, pero magmumukha kang katangahan kapag ginagawa mo ito. (Malamang na matusok mo rin ang mata mo.)
Kaya: gumamit ng mga sukatan, ngunit iugnay ang mga ito sa pagsusuri ng tao at mga tunay na resulta ng gawain (isang halimbawa ng talakayan sa pagsusuri batay sa LLM + mga paalala: G-Eval ).
6) Ang Talahanayan ng Paghahambing - mga nangungunang opsyon sa pagsusuri (may mga kakaibang katangian, dahil ang buhay ay may mga kakaibang katangian) 🧾✨
Narito ang isang praktikal na menu ng mga pamamaraan ng pagsusuri. Paghaluin at itugma. Karamihan sa mga koponan ay ginagawa ito.
| Kasangkapan / Paraan | Madla | Presyo | Bakit ito gumagana |
|---|---|---|---|
| Gawang-kamay na suite ng pagsubok ng prompt | Produkto + eng | $ | Napaka-targeted, mabilis na nakakahuli ng mga regression - pero kailangan mo itong panatilihin magpakailanman 🙃 (starter tooling: OpenAI Evals ) |
| Panel ng pagmamarka ng rubrik ng tao | Mga pangkat na maaaring magligtas ng mga tagasuri | $$ | Pinakamahusay para sa tono, nuance, "tanggapin ba ito ng isang tao", bahagyang kaguluhan depende sa mga tagasuri |
| LLM-bilang-hukom (may kasamang rubrics) | Mabilis na mga loop ng pag-ulit | $-$$ | Mabilis at nasusukat, ngunit maaaring magmana ng bias at kung minsan ay nagbibigay ng grado sa mga vibe hindi sa mga katotohanan (pananaliksik + mga kilalang isyu sa bias: G-Eval ) |
| Magkatunggaling sprint ng red-team | Kaligtasan + pagsunod | $$ | Nakakahanap ng mga maanghang na paraan ng pagkabigo, lalo na ang prompt injection - parang stress test sa gym (pangkalahatang-ideya ng banta: OWASP LLM01 Prompt Injection / OWASP Top 10 para sa LLM Apps ) |
| Pagbuo ng sintetikong pagsubok | Mga pangkat na nagbibigay ng data light | $ | Mahusay na saklaw, ngunit ang mga artipisyal na prompt ay maaaring maging masyadong maayos, masyadong magalang… ang mga gumagamit ay hindi magalang |
| Pagsubok ng A/B gamit ang mga totoong gumagamit | Mga produktong nasa hustong gulang | $$$ | Ang pinakamalinaw na senyales -- siya rin ang pinakamatinding emosyonal na nakaka-stress kapag nagbabago ang mga sukatan (klasikong praktikal na gabay: Kohavi et al., “Mga kontroladong eksperimento sa web” ) |
| Pagsusuri batay sa pagkuha (mga pagsusuri sa RAG) | Mga app sa Paghahanap + QA | $$ | Ang mga panukat ay "gumagamit ng konteksto nang tama," binabawasan ang inflation ng iskor ng halusinasyon (Pangkalahatang-ideya ng pagsusuri ng RAG: Ebalwasyon ng RAG: Isang Survey ) |
| Pagsubaybay + pagtukoy ng pag-anod | Mga sistema ng produksyon | $$-$$$ | Nasusuri ang pagkasira sa paglipas ng panahon - hindi magarbo hanggang sa araw na mailigtas ka nito 😬 (pangkalahatang-ideya ng drift: Concept drift survey (PMC) ) |
Pansinin na sadyang malambot ang mga presyo. Depende ang mga ito sa laki, kagamitan, at kung ilang meeting ang aksidente mong naisasagawa.
7) Pagsusuri ng tao - ang sikretong sandata na kinakapos ng pondo ng mga tao 👀🧑⚖️
Kung awtomatiko lang na pagsusuri ang gagawin mo, mawawala mo ang:
-
Hindi pagtutugma ng tono ("bakit ba ang sarkastiko")
-
Mga banayad na pagkakamali sa katotohanan na mukhang mahusay
-
Mga mapaminsalang implikasyon, mga stereotype, o mahirap na pagbigkas (risk + bias framing: NIST AI RMF 1.0 )
-
Mga pagkabigo sa pagsunod sa tagubilin na tila "matalino" pa rin
Gawing konkreto ang mga rubric (o kaya ay mag-freestyle ang mga tagasuri)
Hindi magandang rubric: “Pagiging Matulungin”
Mas magandang rubric:
-
Katumpakan : tumpak ayon sa katotohanan batay sa prompt + konteksto
-
Pagkakumpleto : sumasaklaw sa mga kinakailangang punto nang walang pag-aalinlangan
-
Kalinawan : madaling basahin, nakabalangkas, kaunting kalituhan
-
Patakaran / kaligtasan : iniiwasan ang pinaghihigpitang nilalaman, mahusay na pinangangasiwaan ang pagtanggi (pagbabalangkas ng kaligtasan: NIST AI RMF 1.0 )
-
Estilo : tumutugma sa boses, tono, antas ng pagbasa
-
Katapatan : hindi nag-iimbento ng mga sanggunian o mga pahayag na hindi sinusuportahan
Gayundin, magsagawa ng mga inter-rater check paminsan-minsan. Kung ang dalawang tagasuri ay palaging hindi magkasundo, hindi ito "problema sa mga tao," ito ay isang problema sa rubric. Kadalasan (mga pangunahing kaalaman sa pagiging maaasahan ng inter-rater: McHugh sa kappa ni Cohen ).
8) Paano Suriin ang mga Modelo ng AI para sa kaligtasan, katatagan, at "naku, mga gumagamit" 🧯🧪
Ito ang bahaging ginagawa mo bago ilunsad -- at pagkatapos ay patuloy na gawin, dahil hindi natutulog ang internet.
Kabilang sa mga pagsubok sa katatagan ang
-
Mga typo, slang, sirang gramatika
-
Napakahabang mga prompt at napakaikling mga prompt
-
Magkasalungat na mga tagubilin (“maging maikli ngunit isama ang bawat detalye”)
-
Mga pag-uusap na may maraming direksyon kung saan binabago ng mga user ang kanilang mga layunin
-
Mga pagtatangkang mag-iniksyon agad (“balewalain ang mga nakaraang patakaran…”) (mga detalye ng banta: OWASP LLM01 Prompt Injection )
-
Mga sensitibong paksang nangangailangan ng maingat na pagtanggi (pagbabalangkas ng panganib/kaligtasan: NIST AI RMF 1.0 )
Ang pagsusuri sa kaligtasan ay hindi lamang "tumanggi ba ito"
Ang isang mahusay na modelo ay dapat:
-
Tumanggi nang malinaw at mahinahon sa mga hindi ligtas na kahilingan (pagbabalangkas ng gabay: NIST AI RMF 1.0 )
-
Magbigay ng mas ligtas na mga alternatibo kung naaangkop
-
Iwasan ang labis na pagtanggi sa mga hindi nakakapinsalang tanong (mga maling positibo)
-
Pangasiwaan ang mga malabong kahilingan gamit ang mga tanong na nagpapaliwanag (kung pinahihintulutan)
Ang labis na pagtanggi ay isang tunay na problema sa produkto. Ayaw ng mga gumagamit na tratuhin sila na parang mga kahina-hinalang goblin. 🧌 (Kahit na sila ay mga kahina-hinalang goblin.)
9) Gastos, latency, at realidad sa operasyon - ang ebalwasyon na nakakalimutan ng lahat 💸⏱️
Ang isang modelo ay maaaring maging "kamangha-mangha" at mali pa rin para sa iyo kung ito ay mabagal, magastos, o mahina sa pagpapatakbo.
Suriin:
-
Distribusyon ng latency (hindi lang average - mahalaga ang p95 at p99) (bakit mahalaga ang mga percentile: Google SRE Workbook sa pagsubaybay )
-
Gastos bawat matagumpay na gawain (hindi gastos bawat token nang hiwalay)
-
Katatagan sa ilalim ng load (mga timeout, mga limitasyon sa rate, mga abnormal na spike)
-
Kahusayan ng pagtawag ng tool (kung gumagamit ito ng mga function, gumagana ba ito)
-
Mga tendensiya sa haba ng output (ang ilang modelo ay pabigla-bigla, at ang pabigla-bigla ay nagkakahalaga ng pera)
Ang isang medyo mas masamang modelo na doble ang bilis ay maaaring manalo sa pagsasanay. Mukhang halata naman iyon, pero binabalewala lang ito ng mga tao. Parang pagbili ng sports car para mag-grocery, tapos magrereklamo pa tungkol sa espasyo sa trunk.
10) Isang simpleng daloy ng trabaho mula simula hanggang katapusan na maaari mong kopyahin (at baguhin) 🔁✅
Narito ang isang praktikal na daloy para sa Paano Suriin ang mga Modelo ng AI nang hindi nabibitag sa walang katapusang mga eksperimento:
-
Tukuyin ang tagumpay : gawain, mga limitasyon, mga gastos sa pagkabigo
-
Gumawa ng isang maliit na set ng pagsubok na "pangunahing" gamit ang: 50-200 halimbawa na sumasalamin sa totoong paggamit
-
Magdagdag ng mga set ng gilid at magkasalungat : mga pagtatangka sa pag-iniksyon, mga hindi malinaw na prompt, mga safety probe (prompt injection class: OWASP LLM01 )
-
Magpatakbo ng mga awtomatikong pagsusuri : pag-format, bisa ng JSON, pangunahing kawastuhan kung saan posible
-
Magpatakbo ng pagsusuring pantao : mga halimbawang output sa iba't ibang kategorya, bigyan ng puntos gamit ang rubric
-
Paghambingin ang mga kompromiso : kalidad vs gastos vs latency vs kaligtasan
-
Pilot sa limitadong paglabas : Mga A/B test o unti-unting paglulunsad (Gabay sa pagsubok ng A/B: Kohavi et al. )
-
Monitor sa produksyon : drift, regression, user feedback loops (pangkalahatang-ideya ng drift: Concept drift survey (PMC) )
-
Iterate : mga prompt sa pag-update, pagkuha, pagpino, mga guardrail, pagkatapos ay muling patakbuhin ang eval (mga pattern ng iteration ng eval: gabay sa mga eval ng OpenAI )
Panatilihin ang mga talaan na may bersyon. Hindi dahil masaya ito, kundi dahil sa hinaharap—magpapasalamat ka habang may hawak na kape at bumubulong ng “ano ang nagbago…” ☕🙂
11) Mga karaniwang patibong (kilala rin bilang: mga paraan kung paano hindi sinasadyang niloloko ng mga tao ang kanilang sarili) 🪤
-
Pagsasanay para sa pagsubok : ino-optimize mo ang mga prompt hanggang sa magmukhang maganda ang benchmark, ngunit ang mga user ang magdurusa
-
Tumutulo na datos ng pagsusuri : lumalabas ang mga prompt ng pagsubok sa datos ng pagsasanay o pagpipino (oops)
-
Pagsamba sa iisang sukatan : paghabol sa isang iskor na hindi sumasalamin sa halaga ng gumagamit
-
Hindi pinapansin ang pagbabago ng distribusyon : nagbabago ang kilos ng gumagamit at tahimik na nasisira ang iyong modelo (pagbabalangkas ng panganib sa produksyon: Concept drift survey (PMC) )
-
Labis na pag-index sa "katalinuhan" : hindi mahalaga ang matalinong pangangatwiran kung sinisira nito ang pag-format o nag-iimbento ng mga katotohanan
-
Hindi sinusubukan ang kalidad ng pagtanggi : Maaaring tama ang "Hindi" ngunit masama pa rin ang UX
Mag-ingat din sa mga demo. Parang mga trailer ng pelikula ang mga demo. Ipinapakita nito ang mga highlight, itinatago ang mga mabagal na bahagi, at paminsan-minsan ay may kasamang dramatikong musika. 🎬
12) Pangwakas na buod sa Paano Suriin ang mga Modelo ng AI 🧠✨
Ang pagsusuri sa mga modelo ng AI ay hindi isang iisang iskor, ito ay isang balanseng pagkain. Kailangan mo ng protina (wasto), gulay (kaligtasan), carbs (bilis at gastos), at oo, minsan panghimagas (tono at kasiyahan) 🍲🍰 (risk framing: NIST AI RMF 1.0 )
Kung wala ka nang ibang maalala:
-
Tukuyin ang ibig sabihin ng "mabuti" para sa iyong paggamit
-
Gumamit ng mga representatibong set ng pagsubok, hindi lamang mga sikat na benchmark
-
Pagsamahin ang mga awtomatikong sukatan sa pagsusuri ng rubric ng tao
-
Ang katatagan at kaligtasan ng pagsubok tulad ng mga gumagamit ay magkasalungat (dahil minsan... ganoon nga) (prompt injection class: OWASP LLM01 )
-
Isama ang gastos at latency sa pagsusuri, hindi bilang isang nahuling pag-iisip (bakit mahalaga ang mga percentile: Google SRE Workbook )
-
Monitor pagkatapos ilunsad - nagbabago ang mga modelo, umuunlad ang mga app, nagiging malikhain ang mga tao (pangkalahatang-ideya ng drift: Concept drift survey (PMC) )
Ganoon Mag-evaluate ng AI Models sa paraang tatagal kapag live na ang produkto mo at nagsisimula nang gumawa ng mga bagay na hindi mahuhulaan ang mga tao. Na palaging nangyayari. 🙂
Mga Madalas Itanong
Ano ang unang hakbang sa kung paano suriin ang mga modelo ng AI para sa isang tunay na produkto?
Magsimula sa pamamagitan ng pagtukoy sa ibig sabihin ng "mabuti" para sa iyong partikular na sitwasyon ng paggamit. Ipaliwanag ang layunin ng gumagamit, kung ano ang magiging epekto ng mga pagkabigo (mababa ang nakataya kumpara sa malaki ang nakataya), at kung saan tatakbo ang modelo (cloud, on-device, regulated environment). Pagkatapos ay ilista ang mga mahahalagang limitasyon tulad ng latency, gastos, privacy, at tone control. Kung wala ang pundasyong ito, marami kang masusukat ngunit makakagawa ka pa rin ng maling desisyon.
Paano ako bubuo ng test set na tunay na sumasalamin sa aking mga gumagamit?
Gumawa ng isang set ng pagsubok na tunay na iyo, hindi lamang isang pampublikong benchmark. Magsama ng mga ginintuang halimbawa na buong pagmamalaki mong ipapadala, kasama ang maingay at hindi inaasahang mga prompt na may mga typo, kalahating pangungusap, at malabong mga kahilingan. Magdagdag ng mga edge case at mga failure-mode probe na nanunukso ng mga halusinasyon o hindi ligtas na mga tugon. Sakop ang pagkakaiba-iba sa antas ng kasanayan, mga diyalekto, mga wika, at mga domain upang hindi bumagsak ang mga resulta sa produksyon.
Aling mga sukatan ang dapat kong gamitin, at alin ang maaaring maging mapanlinlang?
Itugma ang mga sukatan sa uri ng gawain. Ang eksaktong tugma at katumpakan ay mahusay na gumagana para sa pagkuha at mga nakabalangkas na output, habang ang katumpakan/pag-alala at F1 ay nakakatulong kapag ang isang bagay ay mas malala kaysa sa labis na ingay. Ang mga magkakapatong na sukatan tulad ng BLEU/ROUGE ay maaaring makapanlinlang para sa mga gawaing walang katapusan, at ang pag-embed ng pagkakatulad ay maaaring magbigay ng gantimpala sa mga sagot na "mali ngunit magkatulad". Para sa pagsulat, suporta, o pangangatwiran, pagsamahin ang mga sukatan sa pagsusuri ng tao at mga rate ng tagumpay ng gawain.
Paano ko dapat isaayos ang mga pagsusuri upang maulit ang mga ito at maging pang-produksiyonal?
Ang isang matibay na balangkas ng pagsusuri ay maaaring ulitin, representatibo, maraming patong, at naaaksyunan. Pagsamahin ang mga awtomatikong pagsusuri (format, JSON validity, basic correctness) sa pagmamarka ng rubric ng tao at mga adversarial test. Gawin itong hindi tinatablan ng anumang pagbabago sa pamamagitan ng pag-iwas sa leakage at "pagtuturo sa pagsubok." Panatilihing may kamalayan sa gastos ang pagsusuri upang maaari mo itong patakbuhin muli nang madalas, hindi lamang isang beses bago ilunsad.
Ano ang pinakamahusay na paraan upang magsagawa ng pagsusuri ng tao nang hindi ito mauuwi sa kaguluhan?
Gumamit ng konkretong rubric upang hindi mag-freestyle ang mga tagasuri. Bigyan ng marka ang mga katangian tulad ng kawastuhan, pagkakumpleto, kalinawan, kaligtasan/paghawak ng patakaran, tugma ng istilo/tinig, at katapatan (hindi pag-iimbento ng mga pahayag o sanggunian). Pana-panahong suriin ang pagkakasundo ng mga tagasuri; kung palaging hindi magkasundo ang mga tagasuri, malamang na kailangan pang pinuhin ang rubric. Ang pagsusuri ng tao ay lalong mahalaga para sa hindi pagtutugma ng tono, mga banayad na pagkakamali sa katotohanan, at mga pagkabigo sa pagsunod sa tagubilin.
Paano ko susuriin ang kaligtasan, katatagan, at mga panganib sa agarang pag-iniksyon?
Subukan gamit ang mga input na “ugh, mga user”: mga typo, slang, magkasalungat na mga tagubilin, napakahaba o napakaikling mga prompt, at mga pagbabago sa layunin sa maraming turno. Isama ang mga pagtatangka sa prompt na pag-inject tulad ng “balewalain ang mga nakaraang patakaran” at mga sensitibong paksa na nangangailangan ng maingat na pagtanggi. Ang mahusay na pagganap sa kaligtasan ay hindi lamang pagtanggi - ito ay malinaw na pagtanggi, pag-aalok ng mas ligtas na mga alternatibo kung naaangkop, at pag-iwas sa labis na pagtanggi sa mga hindi nakakapinsalang query na nakakasira sa UX.
Paano ko susuriin ang gastos at latency sa paraang naaayon sa realidad?
Huwag lang sukatin ang mga average - subaybayan ang distribusyon ng latency, lalo na ang p95 at p99. Suriin ang gastos sa bawat matagumpay na gawain, hindi ang gastos sa bawat token nang hiwalay, dahil ang mga muling pagsubok at paulit-ulit na output ay maaaring magbura ng mga natipid. Subukan ang katatagan sa ilalim ng load (mga timeout, mga limitasyon sa rate, mga spike) at pagiging maaasahan ng pagtawag ng tool/function. Ang isang medyo mas masamang modelo na doble ang bilis o mas matatag ay maaaring maging mas mainam na pagpipilian ng produkto.
Ano ang isang simpleng end-to-end na daloy ng trabaho para sa kung paano suriin ang mga modelo ng AI?
Tukuyin ang mga pamantayan at limitasyon ng tagumpay, pagkatapos ay lumikha ng isang maliit na hanay ng pangunahing pagsubok (humigit-kumulang 50-200 halimbawa) na sumasalamin sa totoong paggamit. Magdagdag ng mga edge at adversarial set para sa mga pagtatangka sa kaligtasan at pag-iniksyon. Magpatakbo ng mga awtomatikong pagsusuri, pagkatapos ay kumuha ng sample ng mga output para sa pagmamarka ng rubric ng tao. Paghambingin ang kalidad vs gastos vs latency vs kaligtasan, mag-pilot gamit ang isang limitadong rollout o A/B test, at subaybayan sa produksyon para sa drift at regression.
Ano ang mga pinakakaraniwang paraan na hindi sinasadyang naloloko ng mga pangkat ang kanilang mga sarili sa pagsusuri ng modelo?
Kabilang sa mga karaniwang patibong ang mga prompt sa pag-optimize para makakuha ng magandang resulta sa isang benchmark habang nagdurusa ang mga user, pagtagas ng mga prompt sa ebalwasyon sa training o pag-fine-tune ng data, at pagsamba sa iisang sukatan na hindi sumasalamin sa halaga ng user. Hindi rin pinapansin ng mga team ang pagbabago ng distribution, labis na binibigyang-diin ang "smartness" sa halip na ang format compliance at faithfulness, at nilalaktawan ang pagtanggi sa quality testing. Maitatago ng mga demo ang mga isyung ito, kaya umasa sa mga structured eval, hindi sa mga reel.
Mga Sanggunian
-
OpenAI - Gabay sa mga pagsusuri ng OpenAI - platform.openai.com
-
Pambansang Instituto ng mga Pamantayan at Teknolohiya (NIST) - Balangkas ng Pamamahala ng Panganib ng AI (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (repositoryo ng GitHub) - github.com
-
scikit-learn - sa precision_recall_fscore - scikit-learn.org
-
Asosasyon para sa Computational Linguistics (ACL Anthology) - BLEU - aclanthology.org
-
Asosasyon para sa Computational Linguistics (ACL Anthology) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: Agarang Pag-iniksyon - owasp.org
-
OWASP - Nangungunang 10 ng OWASP para sa Malalaking Aplikasyon ng Modelo ng Wika - owasp.org
-
Stanford University - Kohavi et al., “Mga kontroladong eksperimento sa web” - stanford.edu
-
arXiv - Ebalwasyon ng RAG: Isang Survey - arxiv.org
-
PubMed Central (PMC) - Survey sa Pagkakaiba-iba ng Konsepto (PMC) - nih.gov
-
PubMed Central (PMC) - McHugh tungkol sa kappa ni Cohen - nih.gov
-
Google - SRE Workbook sa pagsubaybay - google.workbook