Maikling sagot: Ang AI preprocessing ay isang hanay ng mga paulit-ulit na hakbang na ginagawang pare-parehong input ng modelo ang hilaw at mataas na variance na data, kabilang ang paglilinis, pag-encode, pag-scale, pag-tokenise, at mga pagbabago sa imahe. Mahalaga ito dahil kung magkaiba ang mga input ng pagsasanay at mga input ng produksyon, maaaring tahimik na mabigo ang mga modelo. Kung ang isang hakbang ay "natututo" ng mga parameter, ilalagay lamang ito sa data ng pagsasanay upang maiwasan ang pagtagas.
Ang AI preprocessing ay lahat ng ginagawa mo sa raw data bago (at minsan habang) pagsasanay o paghihinuha upang ang isang modelo ay talagang matuto mula rito. Hindi lang basta "paglilinis". Ito ay paglilinis, paghubog, pag-scale, pag-encode, pagpapalaki, at pag-iimpake ng data sa isang pare-parehong representasyon na hindi tahimik na magpapagulo sa iyong modelo sa hinaharap. [1]
Mga pangunahing punto:
Kahulugan : Kino-convert ng preprocessing ang mga raw table, teksto, mga imahe, at mga log sa mga feature na handa nang gamitin bilang modelo.
Pagkakapare-pareho : Ilapat ang parehong mga transform habang nagsasanay at hinuha upang maiwasan ang mga pagkabigo ng mismatch.
Leakage : Magkabit lamang ng mga scaler, encoder, at tokeniser sa training data.
Reproducibility : Gumawa ng mga pipeline na may mga istatistikang maaaring suriin, hindi mga ad-hoc na sequence ng notebook cell.
Pagsubaybay sa produksyon : Subaybayan ang skew at drift upang hindi unti-unting masira ng mga input ang performance.
Mga artikulong maaaring gusto mong basahin pagkatapos nito:
🔗 Paano subukan ang mga modelo ng AI para sa pagganap sa totoong mundo
Mga praktikal na pamamaraan upang mabilis na masuri ang katumpakan, katatagan, at pagkiling.
🔗 Text-to-speech AI ba at paano ito gumagana?
Ipinapaliwanag ang mga pangunahing kaalaman sa TTS, mga pangunahing gamit, at mga karaniwang limitasyon ngayon.
🔗 Mababasa ba nang wasto ng AI ang kursibong sulat-kamay ngayon?
Sinasaklaw nito ang mga hamon sa pagkilala, pinakamahusay na mga kagamitan, at mga tip sa katumpakan.
🔗 Gaano katumpakan ang AI sa mga karaniwang gawain
Pinaghihiwa-hiwalay ang mga salik ng katumpakan, mga benchmark, at pagiging maaasahan sa totoong buhay.
Pagpoproseso ng AI sa simpleng wika (at kung ano ang hindi nito) 🤝
Ang AI preprocessing ay ang pagbabago ng mga raw input (mga talahanayan, teksto, mga imahe, mga log) tungo sa mga feature na handa nang gamitin bilang modelo. Kung ang raw data ay isang magulo na garahe, ang preprocessing ay ang paglalagay ng label sa mga kahon, paghahagis ng mga sirang basura, at pagpapatong-patong ng mga bagay para makadaan ka nang walang pinsala.
Hindi ang modelo mismo ang mahalaga. Ito ang mga bagay na nagpapangyari sa modelo:
-
paggawa ng mga kategorya sa mga numero (one-hot, ordinal, atbp.) [1]
-
pag-scale ng malalaking numeric range patungo sa mga sane range (standardisasyon, min-max, atbp.) [1]
-
pag-tokenize ng teksto sa mga input ID (at kadalasan ay isang attention mask) [3]
-
pagpapalit ng laki/pag-crop ng mga imahe at naaangkop na paglalapat ng deterministic vs random transforms [4]
-
pagbuo ng mga paulit-ulit na pipeline upang ang pagsasanay at mga input sa "totoong buhay" ay hindi magkaiba sa mga banayad na paraan [2]
Isang maliit na praktikal na paalala: kasama sa "preprocessing" ang anumang nangyayari nang palagian bago makita ng modelo ang input . Hinahati ito ng ilang pangkat sa "feature engineering" laban sa "data cleaning", ngunit sa totoong buhay ay malabo ang mga linyang iyon.

Bakit mas mahalaga ang preprocessing ng AI kaysa sa inaamin ng mga tao 😬
Ang isang modelo ay isang tagatutugma ng mga pattern, hindi isang mambabasa ng isip. Kung ang iyong mga input ay hindi pare-pareho, natututo ang modelo ng mga hindi pare-parehong tuntunin. Hindi iyon pilosopikal, ito ay literal na masakit.
Ang paunang pagproseso ay makakatulong sa iyo:
-
Pagbutihin ang katatagan ng pagkatuto sa pamamagitan ng paglalagay ng mga tampok sa mga representasyon na magagamit ng mga estimator nang maaasahan (lalo na kapag kasangkot ang scaling/encoding). [1]
-
Bawasan ang ingay sa pamamagitan ng pagpapamukhang ang magulo na realidad ay isang bagay na maaaring gawing pangkalahatan ng isang modelo (sa halip na isaulo ang mga kakaibang artifact).
-
Pigilan ang mga silent failure mode tulad ng leakage at mga hindi pagkakatugma ng train/serve (yung tipong mukhang "kamangha-mangha" sa validation at pagkatapos ay faceplants sa production). [2]
-
Pabilisin ang iterasyon dahil mas maganda ang repeatable transforms kaysa sa notebook spaghetti araw-araw ng linggo.
At saka, dito talaga nanggagaling ang maraming "pagganap ng modelo". Parang... nakakagulat na napakarami. Minsan parang hindi patas, pero iyon ang realidad 🙃
Ano ang bumubuo sa isang mahusay na pipeline ng preprocessing ng AI ✅
Ang isang "mabuting bersyon" ng preprocessing ay karaniwang may mga katangiang ito:
-
Maaaring kopyahin : parehong input → parehong output (walang misteryosong randomness maliban kung ito ay sinasadyang pagpapalaki).
-
Konsistensiyang paglilingkod sa tren : anuman ang gawin mo sa oras ng pagsasanay ay inilalapat sa parehong paraan sa oras ng paghihinuha (parehong akmang mga parameter, parehong mga mapa ng kategorya, parehong config ng tokenizer, atbp.). [2]
-
Ligtas sa pagtagas : walang anumang epekto sa pagsusuri/pagsubok ang anumang
sa pag-angkop. (Mas marami pang impormasyon tungkol sa bitag na ito mamaya.) [2] -
Napapansin : maaari mong siyasatin kung ano ang nagbago (mga istatistika ng tampok, kawalan, bilang ng kategorya) kaya ang pag-debug ay hindi nakabatay sa vibes na engineering.
Kung ang iyong preprocessing ay isang tambak ng mga notebook cell na tinatawag na final_v7_really_final_ok … alam mo na kung paano ito. Gumagana ito hanggang sa hindi na ito gumana 😬
Mga pangunahing bloke ng pagbuo ng AI preprocessing 🧱
Isipin ang preprocessing bilang isang hanay ng mga bloke ng gusali na pinagsama-sama mo sa isang pipeline.
1) Paglilinis at pagpapatunay 🧼
Mga karaniwang gawain:
-
alisin ang mga duplicate
-
pangasiwaan ang mga nawawalang halaga (alisin, i-impute, o hayagang ipakita ang kawalan)
-
ipatupad ang mga uri, yunit, at saklaw
-
tuklasin ang mga maling input
-
gawing pamantayan ang mga format ng teksto (whitespace, casing rules, Unicode quirks)
Hindi man kaakit-akit ang bahaging ito, pinipigilan nito ang mga napaka-bobo na pagkakamali. Sinasabi ko iyan nang may pagmamahal.
2) Pag-encode ng mga datos na pang-kategoriya 🔤
Karamihan sa mga modelo ay hindi direktang maaaring gumamit ng mga raw string tulad ng "red" o "premium_user" .
Mga karaniwang pamamaraan:
-
One-hot encoding (kategorya → binary column) [1]
-
Ordinal na pag-encode (kategorya → integer ID) [1]
Ang mahalaga ay hindi kung aling encoder ang pipiliin mo—kundi ang pagiging pare-pareho ng pagmamapa at hindi "nagbabago ng hugis" sa pagitan ng pagsasanay at paghihinuha. Ganyan ka makakakuha ng isang modelo na mukhang maayos offline at kumikilos na parang pinagmumultuhan online. [2]
3) Pag-scale at normalisasyon ng tampok 📏
Mahalaga ang pag-scale kapag ang mga feature ay nasa iba't ibang saklaw.
Dalawang klasiko:
-
Istandardisasyon : alisin ang mean at iskala sa unit variance [1]
-
Min-max scaling : i-scale ang bawat feature sa isang tinukoy na range [1]
Kahit na gumagamit ka ng mga modelong "karamihan ay nakakayanan," ang scaling ay kadalasang ginagawang mas madaling pag-isipan ang mga pipeline—at mas mahirap itong aksidenteng masira.
4) Feature engineering (kilala rin bilang kapaki-pakinabang na pandaraya) 🧪
Dito mo mapapadali ang trabaho ng modelo sa pamamagitan ng paglikha ng mas mahuhusay na signal:
-
mga ratio (mga pag-click / impression)
-
mga rolling window (huling N araw)
-
mga bilang (mga kaganapan bawat gumagamit)
-
mga pagbabago sa log para sa mga heavy-tailed na distribusyon
May sining dito. Minsan lilikha ka ng isang tampok na pelikula, makakaramdam ka ng pagmamalaki... at wala itong nagagawa. O mas malala pa, masakit. Normal lang iyon. Huwag kang maging emosyonal na nakakabit sa mga tampok na pelikula - hindi ka naman nila mamahalin pabalik 😅
5) Paghahati ng datos sa tamang paraan ✂️
Mukhang halata ito hangga't hindi pa:
-
mga random na hati para sa datos ng iid
-
mga paghahati batay sa oras para sa serye ng oras
-
mga nakagrupong hati kapag umuulit ang mga entity (mga user, device, pasyente)
At pinakamahalaga: hatiin bago i-adaptar ang preprocessing na natututo mula sa datos . Kung ang iyong hakbang sa preprocessing ay "natututo" ng mga parameter (tulad ng means, bokabularyo, mapa ng kategorya), dapat lamang itong matutunan mula sa pagsasanay. [2]
Paunang pagproseso ng AI ayon sa uri ng datos: tabular, teksto, mga imahe 🎛️
Nagbabago ang hugis ng preprocessing depende sa kung ano ang ipapakain mo sa modelo.
Tabular na datos (mga spreadsheet, log, database) 📊
Mga karaniwang hakbang:
-
estratehiya sa nawawalang halaga
-
kategoryang pag-encode [1]
-
pag-scale ng mga numeric column [1]
-
outlier handling (mas madalas na mas mahusay ang domain rules kaysa sa “random clipping”)
-
mga hinangong tampok (mga pagsasama-sama, mga pagkaantala, mga rolling stats)
Praktikal na payo: tukuyin nang malinaw ang mga grupo ng kolum (numeric vs categorical vs identifier). Magpapasalamat sa iyo ang iyong magiging sarili sa hinaharap.
Datos ng teksto (NLP) 📝
Kadalasang kinabibilangan ng preprocessing ng teksto ang:
-
tokenization sa mga token/subword
-
conversion sa mga input ID
-
padding/truncation
-
mga maskarang nagbibigay ng atensyon para sa pag-batch [3]
Maliit na tuntunin na nakakatipid sa abala: para sa mga setup na nakabatay sa transformer, sundin ang inaasahang mga setting ng tokenizer ng modelo at huwag mag-freestyle maliban na lang kung may dahilan. Ang freestyling ay kung paano ka nauuwi sa "nagsasanay ito pero kakaiba."
Mga Larawan (pananaw sa kompyuter) 🖼️
Karaniwang paunang pagproseso:
-
baguhin ang laki / i-crop sa mga pare-parehong hugis
-
mga deterministikong pagbabago para sa pagsusuri
-
mga random na pagbabago para sa pagpapalaki ng pagsasanay (hal., random cropping) [4]
Isang detalyeng hindi nakikita ng mga tao: ang mga "random transform" ay hindi lang basta isang vibe—literal silang kumukuha ng sample ng mga parameter sa tuwing tinatawag sila. Mahusay para sa pagsasanay ng diversity, ngunit hindi maganda para sa ebalwasyon kung nakalimutan mong patayin ang randomness. [4]
Ang bitag na kinahuhumalingan ng lahat: pagtagas ng datos 🕳️🐍
Ang leakage ay kapag ang impormasyon mula sa datos ng ebalwasyon ay palihim na pumapasok sa pagsasanay—kadalasan sa pamamagitan ng preprocessing. Maaari nitong gawing mahiwagang magmukha ang iyong modelo habang nagpapatunay, at pagkatapos ay mabigo ka sa totoong mundo.
Mga karaniwang pattern ng pagtagas:
-
pag-scale gamit ang mga istatistika ng full-dataset (sa halip na pagsasanay lamang) [2]
-
mga mapa ng kategorya ng pagbuo gamit ang train+test nang magkasama [2]
-
anumang
fit()ofit_transform()na "nakakakita" sa set ng pagsubok [2]
Panuntunan ng hinlalaki (simple, brutal, epektibo):
-
Anumang bagay na may fit step ay dapat na fit lamang sa panahon ng pagsasanay.
-
Pagkatapos ay i-transform ang validation/test gamit ang akmang transformer na iyon. [2]
At kung gusto mo ng gut-check na "gaano kaya kalala ito?": ang mga dokumento mismo ng scikit-learn ay nagpapakita ng isang halimbawa ng leakage kung saan ang isang maling preprocessing order ay nagbubunga ng accuracy na nasa bandang 0.76 sa mga random na target—pagkatapos ay bumabalik sa ~ 0.5 kapag naayos na ang leakage. Ganito maaaring magmukhang nakakakumbinsing maling leakage. [2]
Pagsisimula ng preprocessing patungo sa produksyon nang walang kaguluhan 🏗️
Maraming modelo ang nabibigo sa produksyon hindi dahil "masama" ang modelo, kundi dahil nagbabago ang input reality —o dahil nagbabago ang iyong pipeline.
Karaniwang kinabibilangan ng preprocessing na nakatuon sa produksyon ang:
-
Mga na-save na artifact (mga encoder mapping, mga scaler param, tokenizer config) kaya ang inference ay gumagamit ng eksaktong parehong natutunang mga transform [2]
-
Mahigpit na mga kontrata ng input (mga inaasahang column/uri/saklaw)
-
Pagsubaybay para sa skew at drift , dahil ang datos ng produksyon ay maglalaho [5]
Kung gusto mo ng mga konkretong kahulugan: Tinutukoy ng Vertex AI Model Monitoring ng Google ang training-serving skew (ang distribusyon ng produksyon ay lumilihis sa pagsasanay) at inference drift (ang distribusyon ng produksyon ay nagbabago sa paglipas ng panahon), at sinusuportahan ang pagsubaybay para sa parehong mga kategorya at numerikal na katangian. [5]
Dahil mahal ang mga sorpresa. At hindi yung tipong masaya.
Talahanayan ng paghahambing: mga karaniwang kagamitan sa preprocessing + pagsubaybay (at para kanino ang mga ito) 🧰
| Kagamitan / aklatan | Pinakamahusay para sa | Presyo | Bakit ito gumagana (at kaunting katapatan) |
|---|---|---|---|
| paunang pagproseso ng scikit-learn | Mga pipeline ng ML na may tabular na talaan | Libre | Mga solidong encoder + scaler (OneHotEncoder, StandardScaler, atbp.) at mahuhulaang pag-uugali [1] |
| Mga tokenizer ng Yakap na Mukha | Paghahanda ng input ng NLP | Libre | Gumagawa ng mga input ID + attention mask nang palagian sa lahat ng run/modelo [3] |
| mga pagbabago ng torchvision | Mga pagbabago sa paningin + pagpapalaki | Libre | Malinis na paraan para paghaluin ang mga deterministic at random transform sa isang pipeline [4] |
| Pagsubaybay sa Modelo ng Vertex AI | Pagtukoy ng drift/skew sa prod | Bayad (cloud) | Nagtatampok ang mga monitor ng skew/drift at mga alerto kapag lumampas na sa limitasyon [5] |
(Oo, may mga opinyon pa rin ang talahanayan. Pero kahit papaano, tapat ang mga opinyon 😅)
Isang praktikal na checklist para sa preprocessing na maaari mong gamitin 📌
Bago ang pagsasanay
-
Tukuyin ang isang input schema (mga uri, yunit, pinapayagang saklaw)
-
I-audit ang mga nawawalang halaga at mga duplikado
-
Hatiin ang datos sa tamang paraan (random / batay sa oras / nakagrupo)
-
Pagpoproseso ng Fit sa pagsasanay lamang (
ang fit/fit_transformay nananatili sa tren) [2] -
I-save ang mga preprocessing artifact para magamit muli ng inference ang mga ito [2]
Habang nagsasanay
-
Maglagay lamang ng random augmentation kung saan naaangkop (karaniwan ay training split lamang) [4]
-
Panatilihing deterministic ang preprocessing ng pagsusuri [4]
-
Subaybayan ang mga pagbabago sa preprocessing tulad ng mga pagbabago sa modelo (dahil ganoon nga)
Bago ang pag-deploy
-
Tiyaking ginagamit ng inference ang magkaparehong preprocessing path at mga artifact [2]
-
Mag-set up ng drift/skew monitoring (kahit ang mga basic feature distribution checks ay malaki ang maitutulong) [5]
Malalimang pagsisiyasat: mga karaniwang pagkakamali sa preprocessing (at kung paano iwasan ang mga ito) 🧯
Pagkakamali 1: “Mabilis ko na lang gagawing normal ang lahat” 😵
Kung kinukuwenta mo ang mga scaling params sa buong dataset, naglalabas ka ng impormasyon sa ebalwasyon. Magkasya ka na, baguhin mo ang iba. [2]
Pagkakamali 2: mga kategoryang naaanod sa kaguluhan 🧩
Kung ang iyong category mapping ay lilipat sa pagitan ng training at inference, maaaring tahimik na magkamali ang iyong modelo sa pagbasa ng mundo. Panatilihing maayos ang mga mapping sa pamamagitan ng mga naka-save na artifact. [2]
Pagkakamali 3: random na pagpapalaki na palihim na pumapasok sa ebalwasyon 🎲
Ang mga random transform ay mahusay sa pagsasanay, ngunit hindi dapat "lihim na naka-on" ang mga ito kapag sinusubukan mong sukatin ang performance. (Ang random ay nangangahulugang random.) [4]
Mga Pangwakas na Paalala 🧠✨
Ang AI preprocessing ay ang disiplinadong sining ng paggawa ng magulo at makatotohanang realidad tungo sa mga pare-parehong input ng modelo. Saklaw nito ang paglilinis, pag-encode, pag-scale, tokenization, mga pagbabago sa imahe, at—pinakamahalaga—mga paulit-ulit na pipeline at artifact.
-
Gawin ang preprocessing nang sadya, hindi basta-basta. [2]
-
Hatiin muna, ang mga pagbabago ay ilalagay lamang sa pagsasanay, iwasan ang pagtagas. [2]
-
Gumamit ng mga preprocessing na naaangkop sa modality (mga tokenizer para sa teksto, mga transform para sa mga imahe). [3][4]
-
Subaybayan ang skew/drift ng produksyon upang ang iyong modelo ay hindi unti-unting mapunta sa kalokohan. [5]
At kung sakaling ma-stuck ka, tanungin ang iyong sarili:
“Magkakaroon pa rin ba ng katuturan ang hakbang na ito ng preprocessing kung patakbuhin ko ito bukas sa mga bagong-bagong data?”
Kung ang sagot ay “uhh… siguro?”, iyan ang iyong clue 😬
Mga Madalas Itanong
Ano ang AI preprocessing, sa simpleng pananalita?
Ang AI preprocessing ay isang paulit-ulit na hanay ng mga hakbang na ginagawang pare-parehong input ang maingay at mataas na variance na hilaw na data upang maging mga pare-parehong input na maaaring pag-aralan ng isang modelo. Maaari itong kabilangan ng paglilinis, pagpapatunay, pag-encode ng mga kategorya, pag-scale ng mga numeric value, pag-tokenize ng teksto, at paglalapat ng mga image transform. Ang layunin ay upang matiyak na ang pagsasanay at ang production inference ay makakakita ng "parehong uri" ng input, upang ang modelo ay hindi mapunta sa hindi mahuhulaan na pag-uugali sa hinaharap.
Bakit napakahalaga ng preprocessing ng AI sa produksyon?
Mahalaga ang preprocessing dahil sensitibo ang mga modelo sa representasyon ng input. Kung ang training data ay ini-scale, in-encode, in-tokenize, o in-transform nang iba kaysa sa production data, maaari kang makakuha ng mga train/serve mismatch failure na mukhang maayos naman offline ngunit tahimik na nabibigo online. Binabawasan din ng malalakas na preprocessing pipeline ang noise, pinapabuti ang learning stability, at pinapabilis ang iteration dahil hindi mo nilulutas ang mga problema sa notebook spaghetti.
Paano ko maiiwasan ang pagtagas ng datos kapag nagpoproseso pa lamang?
Isang simpleng tuntunin ang gumagana: anumang bagay na may fit step ay dapat na fit lamang sa training data. Kasama rito ang mga scaler, encoder, at tokeniser na natututo ng mga parameter tulad ng means, category map, o bokabularyo. Una mong ihahati, ihahati sa training split, pagkatapos ay ita-transform ang validation/test gamit ang fitted transformer. Ang leakage ay maaaring magmukhang "mahiwagang" maganda ang validation at pagkatapos ay mag-collapse sa production use.
Ano ang mga pinakakaraniwang hakbang sa paunang pagproseso para sa tabular data?
Para sa tabular data, ang karaniwang pipeline ay kinabibilangan ng paglilinis at pagpapatunay (mga uri, saklaw, nawawalang mga halaga), categorical encoding (one-hot o ordinal), at numeric scaling (standardization o min-max). Maraming pipeline ang nagdaragdag ng domain-driven feature engineering tulad ng mga ratio, rolling window, o count. Isang praktikal na gawi ang tahasang tukuyin ang mga column group (numeric vs categorical vs identifier) upang manatiling pare-pareho ang iyong mga transform.
Paano gumagana ang preprocessing para sa mga text model?
Ang preprocessing ng teksto ay karaniwang nangangahulugan ng tokenisasyon sa mga token/subword, pag-convert ng mga ito sa mga input ID, at paghawak ng padding/truncation para sa batching. Maraming workflow ng transformer ang lumilikha rin ng attention mask kasama ng mga ID. Ang isang karaniwang pamamaraan ay ang paggamit ng inaasahang configuration ng tokenizer ng modelo sa halip na mag-improvise, dahil ang maliliit na pagkakaiba sa mga setting ng tokeniser ay maaaring humantong sa mga resulta na "nagsasanay ito ngunit kumikilos ito nang hindi mahuhulaan".
Ano ang pagkakaiba sa preprocessing ng mga imahe para sa machine learning?
Karaniwang tinitiyak ng preprocessing ng imahe ang pare-parehong mga hugis at paghawak ng pixel: pagbabago ng laki/pag-crop, normalisasyon, at isang malinaw na paghahati sa pagitan ng deterministic at random na mga transform. Para sa ebalwasyon, ang mga transform ay dapat na deterministic upang ang mga sukatan ay maihahambing. Para sa pagsasanay, ang random na pagpapalaki (tulad ng mga random na pag-crop) ay maaaring mapabuti ang robustness, ngunit ang randomness ay dapat na sadyang saklawin sa training split, hindi aksidenteng maiwan habang sinusuri.
Ano ang nagpapabuti sa isang preprocessing pipeline sa halip na marupok?
Ang isang mahusay na AI preprocessing pipeline ay maaaring kopyahin, ligtas sa pagtagas, at naoobserbahan. Ang ibig sabihin ng reproducible ay ang parehong input ay nagbubunga ng parehong output maliban kung ang randomness ay sadyang pagpapalaki. Ang ibig sabihin ng leakage-safe ay ang mga fit steps ay hindi kailanman nakakaapekto sa validation/test. Ang ibig sabihin ng Observable ay maaari mong siyasatin ang mga istatistika tulad ng missingness, bilang ng kategorya, at distribusyon ng feature kaya ang pag-debug ay batay sa ebidensya, hindi sa kutob. Ang mga pipeline ay mas mahusay kaysa sa mga ad-hoc notebook sequence sa bawat pagkakataon.
Paano ko mapapanatiling pare-pareho ang pagsasanay at preprocessing ng hinuha?
Ang susi ay ang muling paggamit ng eksaktong parehong natutunang artifact sa oras ng paghihinuha: mga parameter ng scaler, mga encoder mapping, at mga config ng tokenizer. Gusto mo rin ng isang input contract (mga inaasahang column, uri, at saklaw) upang ang data ng produksyon ay hindi tahimik na maanod sa mga hindi wastong hugis. Ang consistency ay hindi lamang "gawin ang parehong mga hakbang" - ito ay "gawin ang parehong mga hakbang gamit ang parehong mga akmang parameter at mapping."
Paano ko masusubaybayan ang mga isyu sa preprocessing tulad ng drift at skew sa paglipas ng panahon?
Kahit na may matibay na pipeline, nagbabago pa rin ang datos ng produksyon. Ang isang karaniwang pamamaraan ay ang pagsubaybay sa mga pagbabago sa distribusyon ng tampok at pag-alerto sa training-serving skew (lumilihis ang produksyon mula sa pagsasanay) at inference drift (mga pagbabago sa produksyon sa paglipas ng panahon). Ang pagsubaybay ay maaaring magaan (mga pangunahing pagsusuri sa distribusyon) o pinamamahalaan (tulad ng Vertex AI Model Monitoring). Ang layunin ay mahuli nang maaga ang mga pagbabago sa input - bago pa man unti-unting masira ng mga ito ang pagganap ng modelo.
Mga Sanggunian
[1] scikit-learn API:
sklearn.preprocessing (mga encoder, scaler, normalization) [2] scikit-learn: Mga karaniwang patibong - Pagtagas ng datos at kung paano ito maiiwasan
[3] Mga dokumento ng Hugging Face Transformers: Mga Tokenizer (mga input ID, mga attention mask)
[4] Mga dokumento ng PyTorch Torchvision: Mga Transform (Resize/Normalize + mga random na transform)
[5] Mga dokumento ng Google Cloud Vertex AI: Pangkalahatang-ideya ng Pagsubaybay sa Modelo (feature skew at drift)