Ano ang mga Foundation Model sa Generative AI?

Ano ang mga Foundation Model sa Generative AI?

Maikling sagot: Ang mga foundation model ay malalaki at pangkalahatang-gamit na AI model na sinanay sa malawak at malawak na dataset, at pagkatapos ay iniangkop sa maraming trabaho (pagsulat, paghahanap, pag-coding, mga imahe) sa pamamagitan ng pag-prompt, pagpino, mga tool, o pagkuha ng impormasyon. Kung kailangan mo ng maaasahang mga sagot, ipares ang mga ito sa grounding (tulad ng RAG), malinaw na mga constraint, at mga pagsusuri, sa halip na hayaan silang mag-improvise.

Mga pangunahing punto:

Kahulugan : Isang malawakang sinanay na batayang modelo na muling ginagamit sa maraming gawain, hindi isang gawain bawat modelo.

Adaptasyon : Gumamit ng prompting, fine-tuning, LoRA/adapters, RAG, at mga tool upang gabayan ang pag-uugali.

Generative fit : Pinapagana ng mga ito ang pagbuo ng teksto, imahe, audio, code, at multimodal na nilalaman.

Mga senyales ng kalidad : Unahin ang kakayahang kontrolin, mas kaunting mga halusinasyon, kakayahang multimodal, at mahusay na paghihinuha.

Mga kontrol sa peligro : Magplano para sa mga halusinasyon, bias, pagtagas ng privacy, at agarang iniksyon sa pamamagitan ng pamamahala at pagsusuri.

Ano ang mga Foundation Model sa Generative AI? Infographic

Mga artikulong maaaring gusto mong basahin pagkatapos nito:

🔗 Ano ang isang kumpanya ng AI
Unawain kung paano bumubuo ng mga produkto, pangkat, at modelo ng kita ang mga kumpanya ng AI.

🔗 Ano ang hitsura ng AI code
Tingnan ang mga halimbawa ng AI code, mula sa mga modelo ng Python hanggang sa mga API.

🔗 Ano ang isang algorithm ng AI
Alamin kung ano ang mga algorithm ng AI at kung paano sila gumagawa ng mga desisyon.

🔗 Ano ang teknolohiya ng AI
Galugarin ang mga pangunahing teknolohiya ng AI na nagpapagana ng automation, analytics, at mga matatalinong app.


1) Mga modelo ng pundasyon - isang kahulugan ng walang hamog 🧠

Ang isang foundation model ay isang malaki, pangkalahatang-gamit na AI model na sinanay sa malawak na datos (karaniwan ay tonelada nito) upang maaari itong iakma sa maraming gawain, hindi lamang sa isa ( NIST , Stanford CRFM ).

Sa halip na bumuo ng isang hiwalay na modelo para sa:

  • pagsusulat ng mga email

  • pagsagot sa mga tanong

  • pagbubuod ng mga PDF

  • pagbuo ng mga imahe

  • pag-uuri ng mga tiket ng suporta

  • pagsasalin ng mga wika

  • paggawa ng mga mungkahi sa code

...magsasanay ka ng isang malaking base model na "natututo sa mundo" sa isang malabong istatistikal na paraan, pagkatapos ay iaakma ito sa mga partikular na trabaho gamit ang mga prompt, fine-tuning, o mga karagdagang tool ( Bommasani et al., 2021 ).

Sa madaling salita: ito ay isang pangkalahatang makina na maaari mong patakbuhin.

At oo, ang keyword ay “pangkalahatan.” Iyan ang buong sikreto.


2) Ano ang mga Foundation Model sa Generative AI? (Paano sila partikular na umaakma) 🎨📝

Kaya, ano ang mga Foundation Model sa Generative AI? Ang mga ito ang mga pinagbabatayang modelo na nagpapagana sa mga sistema na maaaring makabuo ng mga bagong nilalaman - teksto, mga imahe, audio, code, video, at parami nang parami… mga halo ng lahat ng mga iyon ( NIST , NIST Generative AI Profile ).

Ang generative AI ay hindi lamang tungkol sa paghula ng mga label tulad ng "spam / hindi spam." Ito ay tungkol sa paggawa ng mga output na mukhang ginawa ng isang tao.

  • mga talata

  • mga tula

  • mga paglalarawan ng produkto

  • mga ilustrasyon

  • mga himig

  • mga prototype ng app

  • mga sintetikong boses

  • at kung minsan ay walang katiyakang kalokohan 🙃

Ang mga modelo ng pundasyon ay lalong maganda rito dahil:

  • Nakuha nila ang malawak na mga padron mula sa malalaking dataset ( Bommasani et al., 2021 )

  • maaari silang mag-generalize sa mga bagong prompt (kahit na sa mga kakaiba) ( Brown et al., 2020 )

  • maaari itong gamitin muli para sa dose-dosenang mga output nang hindi na kailangang magsanay muli mula sa simula ( Bommasani et al., 2021 )

Sila ang "base layer" - parang masa ng tinapay. Pwede mo itong i-bake para gawing baguette, pizza, o cinnamon rolls… hindi ito perpektong metapora, pero naiintindihan mo na ako 😄


3) Bakit nila binago ang lahat (at bakit ayaw tumigil ng mga tao sa pag-uusap tungkol sa kanila) 🚀

Bago ang mga modelo ng pundasyon, maraming AI ang partikular sa gawain:

  • magsanay ng isang modelo para sa pagsusuri ng damdamin

  • sanayin ang isa pa para sa pagsasalin

  • sanayin ang isa pa para sa pag-uuri ng imahe

  • sanayin ang isa pa para sa pagkilala sa pinangalanang entity

Gumana iyon, pero mabagal, magastos, at medyo… malutong.

Binaligtad ito ng mga modelo ng pundasyon:

  • magsanay nang isang beses (malaking pagsisikap)

  • muling gamitin sa lahat ng dako (malaking kabayaran) ( Bommasani et al., 2021 )

Ang muling paggamit na iyon ang nagpaparami. Maaaring bumuo ang mga kumpanya ng 20 tampok sa ibabaw ng isang pamilya ng modelo, sa halip na muling likhain ang gulong nang 20 beses.

Gayundin, naging mas natural ang karanasan ng gumagamit:

  • hindi ka "gumagamit ng classifier"

  • Kinakausap mo ang modelo na parang isa kang matulunging katrabaho na hindi natutulog ☕🤝

Minsan parang katrabaho rin na may kumpiyansang hindi maintindihan ang lahat, pero sige. Paglago.


4) Ang pangunahing ideya: paunang pagsasanay + pag-aangkop 🧩

Halos lahat ng modelo ng pundasyon ay sumusunod sa isang padron ( Stanford CRFM , NIST ):

Pretraining (ang yugto ng "pag-intindi sa internet") 📚

Ang modelo ay sinanay sa napakalaki at malawak na mga dataset gamit ang self-supervised learning ( NIST ). Para sa mga modelo ng wika, kadalasan ay nangangahulugan ito ng paghula sa mga nawawalang salita o sa susunod na token ( Devlin et al., 2018 , Brown et al., 2020 ).

Ang punto ay hindi para ituro ito sa isang gawain lamang. Ang punto ay para ituro dito ang mga pangkalahatang representasyon :

  • gramatika

  • mga katotohanan (parang)

  • mga padron ng pangangatwiran (minsan)

  • mga istilo ng pagsulat

  • istruktura ng kodigo

  • karaniwang hangarin ng tao

Adaptasyon (ang yugto ng "gawing praktikal") 🛠️

Pagkatapos ay iakma mo ito gamit ang isa o higit pa sa:

  • pag-uudyok (mga tagubilin sa simpleng wika)

  • pag-tune ng instruksyon (pagsasanay nito upang sumunod sa mga instruksyon) ( Wei et al., 2021 )

  • pagpipino (pagsasanay sa data ng iyong domain)

  • LoRA / mga adaptor (mga magaan na pamamaraan ng pag-tune) ( Hu et al., 2021 )

  • RAG (retrieval-augmented generation - kumukunsulta ang modelo sa iyong mga dokumento) ( Lewis et al., 2020 )

  • paggamit ng tool (pagtawag sa mga function, pag-browse sa mga internal system, atbp.)

Ito ang dahilan kung bakit ang parehong base model ay kayang magsulat ng romance scene… tapos makakatulong sa pag-debug ng SQL query pagkalipas ng limang segundo 😭


5) Ano ang bumubuo sa isang magandang bersyon ng isang modelo ng pundasyon? ✅

Ito ang seksyong nilalaktawan ng mga tao, at pagkatapos ay pinagsisisihan sa bandang huli.

Ang isang "mabuting" modelo ng pundasyon ay hindi lamang "mas malaki." Nakakatulong ang mas malaki, oo... ngunit hindi lang iyon ang tanging bagay. Ang isang mahusay na bersyon ng isang modelo ng pundasyon ay karaniwang may:

Malakas na paglalahat 🧠

Mahusay itong gumaganap sa maraming gawain nang hindi nangangailangan ng muling pagsasanay na partikular sa gawain ( Bommasani et al., 2021 ).

Pagmamaneho at kakayahang kontrolin 🎛️

Maaari itong masunod nang maaasahan ang mga tagubilin tulad ng:

  • "Maging maigsi"

  • "Gumamit ng mga bullet point"

  • "Sumulat sa isang palakaibigang tono"

  • "huwag ibunyag ang kumpidensyal na impormasyon"

May mga modelong matalino pero madulas. Parang sinusubukang humawak ng sabon sa shower. Matulungin, pero pabago-bago 😅

Mababang tendensiya sa halusinasyon (o kahit man lang lantaran na kawalan ng katiyakan) 🧯

Walang modelo ang ligtas sa mga halusinasyon, ngunit ang mga magaganda ay:

  • bawasan ang halusinasyon

  • mas madalas na aminin ang kawalan ng katiyakan

  • manatiling malapit sa ibinigay na konteksto kapag gumagamit ng retrieval ( Ji et al., 2023 , Lewis et al., 2020 )

Mahusay na kakayahang gumamit ng maraming gamit (kung kinakailangan) 🖼️🎧

Kung ikaw ay mga building assistant na nagbabasa ng mga imahe, nag-iintindi ng mga tsart, o umiintindi ng audio, napakahalaga ng multimodal ( Radford et al., 2021 ).

Mahusay na hinuha ⚡

Mahalaga ang latency at gastos. Ang isang modelo na malakas ngunit mabagal ay parang isang sports car na flat ang gulong.

Kaligtasan at pag-uugali sa pag-align 🧩

Hindi lang basta "tanggihan ang lahat," kundi:

  • iwasan ang mga mapaminsalang tagubilin

  • bawasan ang pagkiling

  • hawakan nang may pag-iingat ang mga sensitibong paksa

  • labanan ang mga pangunahing pagtatangka sa jailbreak (medyo…) ( NIST AI RMF 1.0 , NIST Generative AI Profile )

Dokumentasyon + ekosistema 🌱

Parang tuyo ito, pero totoo:

  • kagamitan

  • mga eval harness

  • mga opsyon sa pag-deploy

  • mga kontrol sa negosyo

  • suporta sa pagpino

Oo, ang salitang "ecosystem" ay malabo. Ayaw ko rin nito. Pero mahalaga ito.


6) Talahanayan ng Paghahambing - mga karaniwang opsyon sa modelo ng pundasyon (at kung para saan ang mga ito ay mabuti) 🧾

Nasa ibaba ang isang praktikal ngunit medyo hindi perpektong talahanayan ng paghahambing. Hindi ito "ang nag-iisang totoong listahan," ito ay mas katulad ng: kung ano ang pinipili ng mga tao sa kalikasan.

uri ng kagamitan / modelo madla presyo bakit ito gumagana
Pagmamay-ariang LLM (istilong chat) mga koponan na naghahangad ng bilis at kahusayan batay sa paggamit / suskrisyon Mahusay na pagsunod sa mga tagubilin, mahusay na pangkalahatang pagganap, kadalasan ay pinakamahusay na "labas ng kahon" 😌
Open-weight LLM (maaaring i-host sa sarili) mga tagapagtayo na nagnanais ng kontrol gastos sa imprastraktura (at sakit ng ulo) Nako-customize, ligtas sa privacy, maaaring gumana nang lokal... kung mahilig kang mag-ayos sa hatinggabi
Tagabuo ng imahe ng pagsasabog mga malikhain, mga pangkat ng disenyo libre hanggang bayad Napakahusay na sintesis ng imahe, iba't ibang estilo, paulit-ulit na daloy ng trabaho (gayundin: maaaring hindi magamit ang mga daliri) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 )
Modelo ng "wikang pang-pangitain" na multimodal mga app na nagbabasa ng mga larawan + teksto batay sa paggamit Nagbibigay-daan sa iyong magtanong tungkol sa mga imahe, screenshot, at diagram - nakakagulat na kapaki-pakinabang ( Radford et al., 2021 )
Modelo ng pundasyon ng pag-embed mga sistema ng paghahanap + RAG mababang gastos sa bawat tawag Ginagawang vector ang teksto para sa semantic search, clustering, rekomendasyon - tahimik na enerhiya ng MVP ( Karpukhin et al., 2020 , Douze et al., 2024 )
Modelo ng pundasyon ng pagsasalita-sa-teksto mga call center, mga tagalikha batay sa paggamit / lokal Mabilis na transkripsyon, suporta sa maraming wika, sapat na mabuti para sa maingay na audio (karaniwan) 🎙️ ( Whisper )
Modelo ng pundasyon ng text-to-speech mga pangkat ng produkto, media batay sa paggamit Ang natural na paglikha ng boses, mga istilo ng boses, pagsasalaysay - ay maaaring maging parang nakakatakot at totoong-totoo ( Shen et al., 2017 )
LLM na nakatuon sa kodigo mga developer batay sa paggamit / suskrisyon Mas magaling na sa mga code pattern, debugging, refactors… pero hindi pa rin marunong magbasa ng isip 😅

Pansinin kung paano ang "foundation model" ay hindi lamang nangangahulugang "chatbot." Ang mga embedding at speech model ay maaari ring maging parang pundasyon, dahil malawak ang mga ito at magagamit muli sa iba't ibang gawain ( Bommasani et al., 2021 , NIST ).


7) Mas malapitang pagtingin: kung paano natututo ang mga modelo ng pundasyon ng wika (ang bersyon ng vibe) 🧠🧃

Ang mga modelo ng pundasyon ng wika (madalas tinatawag na mga LLM) ay karaniwang sinasanay sa malalaking koleksyon ng teksto. Natututo sila sa pamamagitan ng paghula ng mga token ( Brown et al., 2020 ). Iyon lang. Walang sikretong alikabok ng diwata.

Ngunit ang mahika ay ang paghula ng mga token ay pinipilit ang modelo na matuto ng istruktura ( CSET ):

  • gramatika at sintaks

  • mga ugnayan sa paksa

  • mga padron na parang pangangatwiran (minsan)

  • mga karaniwang pagkakasunod-sunod ng pag-iisip

  • kung paano ipinapaliwanag ng mga tao ang mga bagay-bagay, nakikipagtalo, humihingi ng tawad, nakikipagnegosasyon, nagtuturo

Parang natutong gayahin ang milyun-milyong pag-uusap nang hindi "naiintindihan" ang paraan ng pag-unawa ng mga tao. Na parang hindi dapat gumana... ngunit patuloy pa rin itong gumagana.

Isang bahagyang pagmamalabis: parang pagsiksik lang ito ng sulatin ng tao sa isang higanteng utak na probabilistiko.
Pero, medyo isinumpa ang metapora na iyan. Pero babalik tayo 😄


8) Mas malapitang pagtingin: mga modelo ng diffusion (kung bakit iba ang paggana ng mga imahe) 🎨🌀

Ang mga modelo ng pundasyon ng imahe ay kadalasang gumagamit ng diffusion ( Ho et al., 2020 , Rombach et al., 2021 ).

Ang magaspang na ideya:

  1. magdagdag ng ingay sa mga imahe hanggang sa maging halos static na ang mga ito sa TV

  2. sanayin ang isang modelo upang baligtarin ang ingay na iyon nang paunti-unti

  3. sa panahon ng henerasyon, magsimula sa ingay at "denoise" sa isang imahe na ginagabayan ng isang prompt ( Ho et al., 2020 )

Kaya ang pagbuo ng imahe ay parang "pagbuo" ng isang larawan, maliban lang sa larawang iyon ay isang dragon na nakasuot ng sneakers sa pasilyo ng supermarket 🛒🐉

Mabuti ang mga modelo ng diffusion dahil:

  • nakakabuo sila ng mataas na kalidad na mga biswal

  • maaari silang gabayan nang husto ng teksto

  • Sinusuportahan nila ang paulit-ulit na pagpipino (mga baryasyon, inpainting, upscaling) ( Rombach et al., 2021 )

Minsan din silang nahihirapan sa:

  • pag-render ng teksto sa loob ng mga imahe

  • mga detalyadong detalye ng anatomiya

  • pare-parehong pagkakakilanlan ng karakter sa iba't ibang eksena (bumubuti na, pero ganoon pa rin)


9) Mas malapitang pagtingin: mga modelo ng pundasyong multimodal (teksto + mga larawan + audio) 👀🎧📝

Ang mga multimodal foundation model ay naglalayong umunawa at makabuo sa iba't ibang uri ng datos:

Bakit mahalaga ito sa totoong buhay:

  • kayang bigyang-kahulugan ng customer support ang mga screenshot

  • ang mga tool sa accessibility ay maaaring maglarawan ng mga imahe

  • Maaaring ipaliwanag ng mga app sa edukasyon ang mga diagram

  • mabilis na kayang i-remix ng mga tagalikha ang mga format

  • kayang "basahin" ng mga business tool ang screenshot ng dashboard at ibuod ito

Sa ilalim ng hood, ang mga multimodal system ay kadalasang nag-a-align ng mga representasyon:

  • gawing mga embedding ang isang imahe

  • gawing mga embedding ang teksto

  • Alamin ang isang nakabahaging espasyo kung saan ang "pusa" ay tumutugma sa mga pixel ng pusa 😺 ( Radford et al., 2021 )

Hindi ito laging elegante. Minsan ito ay tinatahi nang sama-sama na parang isang kubrekama. Pero gumagana naman.


10) Pagpino vs. pag-udyok vs. RAG (kung paano mo iaangkop ang batayang modelo) 🧰

Kung sinusubukan mong gawing praktikal ang isang modelo ng pundasyon para sa isang partikular na larangan (legal, medikal, serbisyo sa customer, panloob na kaalaman), mayroon kang ilang mga hakbang:

Pag-uudyok 🗣️

Pinakamabilis at pinakasimple.

  • mga kalamangan: walang pagsasanay, agarang pag-ulit

  • mga disbentaha: maaaring hindi pare-pareho, mga limitasyon sa konteksto, agarang kahinaan

Pag-aayos 🎯

Sanayin pa ang modelo gamit ang iyong mga halimbawa.

  • mga kalamangan: mas pare-parehong pag-uugali, mas mahusay na wika ng domain, maaaring mabawasan ang haba ng prompt

  • mga disbentaha: gastos, mga kinakailangan sa kalidad ng datos, panganib ng labis na pag-aayos, pagpapanatili

Magaan na pag-tune (LoRA / mga adapter) 🧩

Isang mas mahusay na bersyon ng fine-tuning ( Hu et al., 2021 ).

  • mga kalamangan: mas mura, modular, mas madaling palitan

  • mga disbentaha: kailangan pa rin ng pipeline ng pagsasanay at pagsusuri

RAG (pagbuo ng retrieval-augmented) 🔎

Kinukuha ng modelo ang mga kaugnay na dokumento mula sa iyong knowledge base at sinasagot ang mga ito gamit ang mga ito ( Lewis et al., 2020 ).

  • mga kalamangan: napapanahong kaalaman, mga sitasyon sa loob ng kumpanya (kung ipapatupad mo ito), mas kaunting muling pagsasanay

  • mga disbentaha: ang kalidad ng pagkuha ay maaaring maging dahilan o maging dahilan, nangangailangan ng mahusay na chunking + mga embedding

Totoong usapan: maraming matagumpay na sistema ang pinagsasama ang prompting + RAG. Mabisa ang fine-tuning, pero hindi laging kailangan. Masyadong mabilis ang mga tao sa paggawa nito dahil kahanga-hanga ang dating nito 😅


11) Mga panganib, limitasyon, at ang seksyong “huwag itong basta-basta i-deploy” 🧯😬

Makapangyarihan ang mga foundation model, ngunit hindi ito matatag tulad ng tradisyonal na software. Para silang… isang mahuhusay na intern na may problema sa kumpiyansa.

Mga pangunahing limitasyon na dapat planuhin:

Mga halusinasyon 🌀

Maaaring mag-imbento ang mga modelo ng:

  • mga pekeng mapagkukunan

  • maling mga katotohanan

  • mga hakbang na kapani-paniwala ngunit mali ( Ji et al., 2023 )

Mga Pagpapagaan:

  • RAG na may kontekstong may batayan ( Lewis et al., 2020 )

  • mga nilimitahang output (mga iskema, mga tawag sa tool)

  • tahasang panuto na “huwag manghula”

  • mga patong ng beripikasyon (mga panuntunan, cross-check, pagsusuri ng tao)

Pagkiling at mapaminsalang mga gawi ⚠️

Dahil ang datos ng pagsasanay ay sumasalamin sa mga tao, makukuha mo ang:

Mga Pagpapagaan:

Pagkapribado at pagtagas ng datos 🔒

Kung maglalagay ka ng kumpidensyal na datos sa isang endpoint ng modelo, kailangan mong malaman:

  • kung paano ito iniimbak

  • kung ito ay ginagamit para sa pagsasanay

  • anong pag-log ang umiiral

  • Ano ang kumokontrol sa mga pangangailangan ng iyong organisasyon ( NIST AI RMF 1.0 )

Mga Pagpapagaan:

Agarang iniksyon (lalo na gamit ang RAG) 🕳️

Kung ang modelo ay nagbabasa ng hindi mapagkakatiwalaang teksto, maaaring subukang manipulahin ito ng tekstong iyon:

Mga Pagpapagaan:

  • mga tagubilin sa sistema ng paghihiwalay

  • i-sanitize ang nakuhang nilalaman

  • gumamit ng mga patakarang nakabatay sa tool (hindi lamang mga prompt)

  • pagsubok gamit ang mga adversarial input ( OWASP Cheat Sheet , NIST Generative AI Profile )

Hindi ko naman tinatakot ka. Basta... mas mabuting malaman kung saan tumutunog ang mga tabla ng sahig.


12) Paano pumili ng modelo ng pundasyon para sa iyong paggamit 🎛️

Kung pipili ka ng modelo ng pundasyon (o gagawa ng pundasyon dito), magsimula sa mga sumusunod na prompt:

Tukuyin kung ano ang iyong nalilikha 🧾

  • teksto lamang

  • mga imahe

  • tunog

  • halo-halong multimodal

Itakda ang iyong pamantayan sa pagiging makatotohanan 📌

Kung kailangan mo ng mataas na katumpakan (pinansiyal, kalusugan, legal, kaligtasan):

Magpasya sa iyong target na latency ⚡

Agad ang chat. Maaaring mas mabagal ang batch summarization.
Kung kailangan mo ng agarang tugon, mahalaga ang laki ng modelo at hosting.

Mga pangangailangan sa privacy at pagsunod sa mapa 🔐

Ang ilang mga koponan ay nangangailangan ng:

Balansehin ang badyet - at pasensya na po 😅

Ang self-hosting ay nagbibigay ng kontrol ngunit nagdaragdag ng pagiging kumplikado.
Ang mga managed API ay madali ngunit maaaring magastos at hindi gaanong napapasadya.

Isang maliit na praktikal na tip: gumawa muna ng prototype na may madaling gawin, saka patigasin kalaunan. Ang pagsisimula sa "perpektong" setup ay kadalasang nagpapabagal sa lahat.


13) Ano ang mga Foundation Model sa Generative AI? (Ang quick mental model) 🧠✨

Ibalik natin ito. Ano ang mga Foundation Model sa Generative AI?

Sila ay:

  • malalaki at pangkalahatang modelo na sinanay sa malawak na datos ( NIST , Stanford CRFM )

  • may kakayahang lumikha ng nilalaman (teksto, mga imahe, audio, atbp.) ( NIST Generative AI Profile )

  • madaling ibagay sa maraming gawain sa pamamagitan ng mga prompt, fine-tuning, at retrieval ( Bommasani et al., 2021 )

  • ang base layer na nagpapagana sa karamihan ng mga modernong generative AI na produkto

Hindi sila iisang arkitektura o tatak lamang. Isa silang kategorya ng mga modelo na kumikilos na parang isang plataporma.

Ang isang foundation model ay hindi parang calculator kundi parang kusina. Maraming pagkain ang puwede mong lutuin dito. Puwede mo ring i-toast kung hindi ka nag-iingat… pero madaling gamitin pa rin ang kusina 🍳🔥


14) Buod at takeaway ✅🙂

Ang mga pundasyong modelo ay ang mga magagamit muli na makina ng generative AI. Malawak ang pagsasanay sa mga ito, pagkatapos ay iniangkop sa mga partikular na gawain sa pamamagitan ng pag-udyok, pagpino, at pagkuha ( NIST , Stanford CRFM ). Maaari silang maging kamangha-mangha, magulo, makapangyarihan, at paminsan-minsan ay katawa-tawa - lahat nang sabay-sabay.

Buod:

  • Modelo ng pundasyon = modelo ng pangkalahatang layunin ( NIST )

  • Generative AI = paglikha ng nilalaman, hindi lamang klasipikasyon ( NIST Generative AI Profile )

  • Ginagawang praktikal ito ng mga pamamaraan ng adaptasyon (pag-uudyok, RAG, pag-tune) ( Lewis et al., 2020 , Hu et al., 2021 )

  • Ang pagpili ng modelo ay tungkol sa mga kompromiso: katumpakan, gastos, latency, privacy, kaligtasan ( NIST AI RMF 1.0 )

Kung nagtatayo ka ng kahit ano gamit ang generative AI, hindi opsyonal ang pag-unawa sa mga modelo ng pundasyon. Ito ay ang buong palapag kung saan nakatayo ang gusali… at oo, minsan ay medyo umuuga ang sahig 😅

Mga Madalas Itanong

Mga modelo ng pundasyon, sa simpleng mga salita

Ang isang foundation model ay isang malaki at pangkalahatang-gamit na AI model na sinanay sa malawak na datos upang magamit itong muli para sa maraming gawain. Sa halip na bumuo ng isang modelo bawat trabaho, magsisimula ka sa isang matibay na "base" na modelo at iaangkop ito kung kinakailangan. Ang adaptasyong iyon ay kadalasang nangyayari sa pamamagitan ng pag-udyok, pagpino, pagkuha (RAG), o mga tool. Ang pangunahing ideya ay lawak at kakayahang magmaneho.

Paano naiiba ang mga modelo ng pundasyon mula sa mga tradisyonal na modelo ng AI na partikular sa gawain

Kadalasang nagsasanay ang tradisyonal na AI ng hiwalay na modelo para sa bawat gawain, tulad ng pagsusuri ng damdamin o pagsasalin. Binabaligtad ng mga modelo ng pundasyon ang pattern na iyon: magsanay muna nang isang beses, pagkatapos ay muling gamitin sa maraming feature at produkto. Maaari nitong mabawasan ang paulit-ulit na pagsisikap at mapabilis ang paghahatid ng mga bagong kakayahan. Ang kapalit nito ay maaari itong maging hindi gaanong mahuhulaan kaysa sa klasikong software maliban kung magdadagdag ka ng mga limitasyon at pagsubok.

Mga modelo ng pundasyon sa generative AI

Sa generative AI, ang mga foundation model ay ang mga base system na maaaring gumawa ng mga bagong nilalaman tulad ng teksto, mga imahe, audio, code, o mga multimodal output. Hindi sila limitado sa paglalagay ng label o klasipikasyon; bumubuo sila ng mga tugon na kahawig ng gawang-tao. Dahil natututo sila ng malawak na mga pattern habang nag-i-pretraining, kaya nilang pangasiwaan ang maraming uri at format ng prompt. Sila ang "base layer" sa likod ng karamihan sa mga modernong generative na karanasan.

Paano natututo ang mga modelo ng pundasyon habang naghahanda

Karamihan sa mga modelo ng pundasyon ng wika ay natututo sa pamamagitan ng paghula ng mga token, tulad ng susunod na salita o mga nawawalang salita sa teksto. Ang simpleng layuning iyon ay nagtutulak sa kanila na isapuso ang istruktura tulad ng gramatika, istilo, at mga karaniwang padron ng paliwanag. Maaari rin silang sumipsip ng maraming kaalaman sa mundo, bagama't hindi palaging maaasahan. Ang resulta ay isang matibay na pangkalahatang representasyon na maaari mong idirekta sa ibang pagkakataon patungo sa partikular na gawain.

Ang pagkakaiba sa pagitan ng prompting, fine-tuning, LoRA, at RAG

Ang pag-uudyok ay ang pinakamabilis na paraan upang gabayan ang pag-uugali gamit ang mga tagubilin, ngunit maaari itong maging marupok. Ang pag-fine-tune ay higit pang nagsasanay sa modelo sa iyong mga halimbawa para sa mas pare-parehong pag-uugali, ngunit nagdaragdag ito ng gastos at pagpapanatili. Ang LoRA/adapters ay isang mas magaan na pamamaraan ng pag-fine-tune na kadalasang mas mura at mas modular. Kinukuha ng RAG ang mga kaugnay na dokumento at inilalahad ang sagot sa modelo gamit ang kontekstong iyon, na nakakatulong sa pagiging bago at grounding.

Kailan gagamitin ang RAG sa halip na fine-tuning

Ang RAG ay kadalasang isang matibay na pagpipilian kapag kailangan mo ng mga sagot na nakabatay sa iyong kasalukuyang mga dokumento o panloob na kaalaman. Maaari nitong mabawasan ang "panghuhula" sa pamamagitan ng pagbibigay sa modelo ng may-katuturang konteksto sa oras ng pagbuo. Ang fine-tuning ay mas akma kapag kailangan mo ng pare-parehong istilo, domain phrasing, o pag-uugali na hindi maaasahang maibubuo ng prompting. Maraming praktikal na sistema ang pinagsasama ang prompting + RAG bago maabot ang fine-tuning.

Paano mabawasan ang mga halusinasyon at makakuha ng mas maaasahang mga sagot

Isang karaniwang pamamaraan ang pag-ground ng modelo gamit ang retrieval (RAG) upang manatili itong malapit sa ibinigay na konteksto. Maaari mo ring limitahan ang mga output gamit ang mga schema, humingi ng mga tool call para sa mga pangunahing hakbang, at magdagdag ng mga tahasang tagubilin na "huwag manghula". Mahalaga rin ang mga verification layer, tulad ng mga rule check, cross-checking, at human review para sa mga higher-stakes use case. Ituring ang modelo bilang isang probabilistic helper, hindi isang pinagmumulan ng katotohanan bilang default.

Ang pinakamalaking panganib sa mga modelo ng pundasyon sa produksyon

Kabilang sa mga karaniwang panganib ang mga halusinasyon, may kinikilingan o mapaminsalang mga pattern mula sa data ng pagsasanay, at pagtagas ng privacy kung ang sensitibong data ay hindi maayos na nahawakan. Maaari ring maging mahina ang mga sistema sa prompt injection, lalo na kapag ang modelo ay nagbabasa ng hindi mapagkakatiwalaang teksto mula sa mga dokumento o nilalaman ng web. Karaniwang kinabibilangan ng mga mitigasyon ang pamamahala, red-teaming, mga kontrol sa pag-access, mas ligtas na mga pattern ng prompting, at nakabalangkas na pagsusuri. Magplano para sa mga panganib na ito nang maaga sa halip na mag-patch mamaya.

Mabilis na iniksyon at kung bakit ito mahalaga sa mga sistema ng RAG

Ang prompt injection ay kapag sinusubukan ng hindi pinagkakatiwalaang teksto na i-override ang mga tagubilin, tulad ng "balewalain ang mga nakaraang direksyon" o "ibunyag ang mga sikreto." Sa RAG, ang mga nakuhang dokumento ay maaaring maglaman ng mga malisyosong tagubiling iyon, at maaaring sundin ng modelo ang mga ito kung hindi ka mag-iingat. Ang isang karaniwang pamamaraan ay ang paghiwalayin ang mga tagubilin ng system, pag-sanitize ng nakuhang nilalaman, at umasa sa mga patakaran na nakabatay sa tool sa halip na mga prompt lamang. Ang pagsubok gamit ang mga adversarial input ay nakakatulong na ipakita ang mga kahinaan.

Paano pumili ng modelo ng pundasyon para sa iyong paggamit

Magsimula sa pamamagitan ng pagtukoy sa kung ano ang kailangan mong mabuo: teksto, mga imahe, audio, code, o mga multimodal na output. Pagkatapos ay itakda ang iyong factuality bar - ang mga high-accuracy domain ay kadalasang nangangailangan ng grounding (RAG), validation, at kung minsan ay pagsusuri ng tao. Isaalang-alang ang latency at gastos, dahil ang isang malakas na modelo na mabagal o mahal ay maaaring mahirap ipadala. Panghuli, i-map ang mga pangangailangan sa privacy at pagsunod sa mga opsyon at kontrol sa pag-deploy.

Mga Sanggunian

  1. Pambansang Instituto ng mga Pamantayan at Teknolohiya (NIST) - Modelo ng Pundasyon (Termino sa Glosaryo) - csrc.nist.gov

  2. Pambansang Instituto ng mga Pamantayan at Teknolohiya (NIST) - NIST AI 600-1: Generative AI Profile - nvlpubs.nist.gov

  3. Pambansang Instituto ng mga Pamantayan at Teknolohiya (NIST) - NIST AI 100-1: Balangkas ng Pamamahala ng Panganib ng AI (AI RMF 1.0) - nvlpubs.nist.gov

  4. Stanford Center for Research on Foundation Models (CRFM) - Ulat - crfm.stanford.edu

  5. arXiv - Tungkol sa Mga Oportunidad at Mga Panganib ng Mga Modelong Foundation (Bommasani et al., 2021) - arxiv.org

  6. arXiv - Ang mga Modelo ng Wika ay mga Mag-aaral na May Kaunting Posisyon (Brown et al., 2020) - arxiv.org

  7. arXiv - Paglikha ng Pinahusay na Pagkuha para sa mga Gawaing NLP na Masinsinang Nagpapalawak ng Kaalaman (Lewis et al., 2020) - arxiv.org

  8. arXiv - LoRA: Mababang-Ranggo na Adaptasyon ng Malalaking Modelo ng Wika (Hu et al., 2021) - arxiv.org

  9. arXiv - BERT: Paunang Pagsasanay ng mga Deep Bidirectional Transformer para sa Pag-unawa sa Wika (Devlin et al., 2018) - arxiv.org

  10. arXiv - Ang mga Finetuned Language Model ay mga Zero-Shot Learners (Wei et al., 2021) - arxiv.org

  11. ACM Digital Library - Survey ng Halusinasyon sa Paglikha ng Natural na Wika (Ji et al., 2023) - dl.acm.org

  12. arXiv - Pag-aaral ng mga Naililipat na Biswal na Modelo Mula sa Natural na Superbisyon ng Wika (Radford et al., 2021) - arxiv.org

  13. arXiv - Mga Modelong Probabilistiko ng Denoizing Diffusion (Ho et al., 2020) - arxiv.org

  14. arXiv - Sintesis ng Imahe na May Mataas na Resolusyon gamit ang mga Modelo ng Latent Diffusion (Rombach et al., 2021) - arxiv.org

  15. arXiv - Pagkuha ng Siksikan sa Siksikan para sa Pagsagot sa mga Tanong sa Open-Domain (Karpukhin et al., 2020) - arxiv.org

  16. arXiv - The Faiss library (Douze et al., 2024) - arxiv.org

  17. OpenAI - Ipinakikilala ang Whisper - openai.com

  18. arXiv - Natural na Sintesis ng TTS sa pamamagitan ng Pagkondisyon ng WaveNet sa mga Hula ng Mel Spectrogram (Shen et al., 2017) - arxiv.org

  19. Center for Security and Emerging Technology (CSET), Georgetown University - Ang nakakagulat na kapangyarihan ng prediksyon ng susunod na salita: ipinaliwanag ang malalaking modelo ng wika (bahagi 1) - cset.georgetown.edu

  20. USENIX - Pagkuha ng Datos ng Pagsasanay mula sa Malalaking Modelo ng Wika (Carlini et al., 2021) - usenix.org

  21. OWASP - LLM01: Agarang Pag-iniksyon - genai.owasp.org

  22. arXiv - Higit pa sa iyong hiniling: Isang Komprehensibong Pagsusuri ng mga Bagong Banta ng Prompt Injection sa mga Modelo ng Malalaking Wika na Pinagsama ng Aplikasyon (Greshake et al., 2023) - arxiv.org

  23. Serye ng Cheat Sheet ng OWASP - Cheat Sheet para sa Pag-iwas sa Prompt Injection ng LLM - cheatsheetseries.owasp.org

Hanapin ang Pinakabagong AI sa Opisyal na Tindahan ng AI Assistant

Tungkol sa Amin

Balik sa blog