Saan kumukuha ng impormasyon ang AI

Saan nakukuha ng AI ang impormasyon nito?

Naranasan mo na bang umupo at napakamot ng ulo, na parang... saan nga ba talaga nanggagaling ang mga 'to ? Ibig kong sabihin, ang AI ay hindi naman basta-basta naghahalungkat ng mga maalikabok na library o palihim na nagbabasa ng mga maikling palabas sa YouTube. Pero kahit papaano ay nakakagawa ito ng mga sagot sa lahat ng bagay—mula sa mga hacks sa lasagna hanggang sa black hole physics—na parang may filing cabinet sa loob na walang katapusan. Ang totoo ay mas kakaiba, at marahil ay mas nakakaintriga kaysa sa inaakala mo. Suriin natin ito nang kaunti (at oo, baka may ilang maling akala pa).


Pangkukulam ba ito? 🌐

Hindi ito pangkukulam, bagama't minsan ay ganoon ang pakiramdam. Ang nangyayari sa ilalim ng hood ay karaniwang hula ng pattern . Ang mga malalaking modelo ng wika (LLM) ay hindi nag-iimbak ng mga katotohanan tulad ng pagkapit ng iyong utak sa recipe ng cookie ng iyong lola; sa halip, sinanay sila na hulaan ang susunod na salita (token) batay sa kung ano ang nauna [2]. Sa pagsasagawa, nangangahulugan ito na kumakapit sila sa mga relasyon: kung aling mga salita ang magkakasamang nakalatag, kung paano karaniwang nabubuo ang mga pangungusap, kung paano binubuo ang buong ideya na parang scaffolding. Kaya naman ang tunog , kahit na—ganap na katapatan—ito ay panggagaya sa istatistika, hindi pag-unawa [4].

nagpapapakinabang sa impormasyong nabuo gamit ang AI ? Narito ang ilang bagay:

  • Pagkakaiba-iba ng datos - kumukuha mula sa hindi mabilang na mga mapagkukunan, hindi sa iisang makitid na daluyan.

  • Mga Update - mabilis itong masisira kung walang refresh cycle.

  • Pagsala - mainam kung huhulihin ang basura bago pa man ito tumagos (pero, maging totoo tayo, may mga butas ang lambat na iyan).

  • Pagsusuri sa iba't ibang aspeto - pagsandig sa mga pinagmumulan ng awtoridad (tulad ng NASA, WHO, mga pangunahing unibersidad), na siyang kailangang-kailangan sa karamihan ng mga aklat-aralin sa pamamahala ng AI [3].

Gayunpaman, minsan ay nagkukunwari ito—nang may kumpiyansa. Ang mga tinatawag na halusinasyon ? Mga pinakintab na kalokohan na inihahatid nang may seryosong mukha [2][3].

Mga artikulong maaaring gusto mong basahin pagkatapos nito:

🔗 Maaari bang mahulaan ng AI ang mga numero ng lotto
Paggalugad sa mga mito at katotohanan tungkol sa mga hula sa lotto ng AI.

🔗 Ano ang ibig sabihin ng paggamit ng holistikong pamamaraan sa AI
Pag-unawa sa AI na may balanseng pananaw sa etika at epekto.

🔗 Ano ang sinasabi ng Bibliya tungkol sa artipisyal na katalinuhan
Pagsusuri sa mga pananaw ng Bibliya tungkol sa teknolohiya at paglikha ng tao.


Mabilisang Paghahambing: Kung Saan Nagmumula ang AI 📊

Hindi lahat ng pinagmulan ay pantay-pantay, ngunit bawat isa ay may kanya-kanyang papel. Narito ang isang snapshot view.

Uri ng Pinagmulan Sino ang Gumagamit Nito (AI) Gastos/Halaga Bakit Ito Gumagana (o Hindi Gumagana...)
Mga Libro at Artikulo Malalaking modelo ng wika Walang kasinghalaga (medyo) Siksik at nakabalangkas na kaalaman—mabilis lang tumanda.
Mga Website at Blog Halos lahat ng AI Libre (may ingay) Ligaw na uri; pinaghalong kinang at talagang basura.
Mga Akademikong Papel Mga AI na maraming pananaliksik Minsan ay may paywall Kahigpitan + kredibilidad, ngunit binalot ng mabibigat na jargon.
Datos ng Gumagamit Mga Personalized na AI Sobrang sensitibo ⚠️ Matalinong pananahi, pero maraming problema sa privacy.
Real-Time na Web Mga AI na naka-link sa paghahanap Libre (kung online) Pinapanatiling sariwa ang impormasyon; ang downside ay ang panganib ng pagpapalaganap ng tsismis.

Ang Uniberso ng Data ng Pagsasanay 🌌

Ito ang yugto ng "pagkatuto noong bata pa". Isipin mong ibigay sa isang bata ang milyun-milyong storybook, mga ginupit na balita, at mga pira-pirasong impormasyon mula sa Wikipedia nang sabay-sabay. Ganito ang hitsura ng pretraining. Sa totoong mundo, pinagsasama-sama ng mga provider ang pampublikong datos, mga lisensyadong mapagkukunan, at tekstong ginawa ng trainer [2].

Patong-patong: mga piling halimbawa ng tao—mabubuting sagot, masasamang sagot, mga pagtulak sa tamang direksyon—bago pa man magsimula ang pagpapatibay [1].

Paalala tungkol sa transparency: hindi isinisiwalat ng mga kumpanya ang bawat detalye. Ang ilang guardrail ay may mga sikreto (IP, mga alalahanin sa kaligtasan), kaya't bahagya lamang ang makikita sa aktwal na proseso [2].


Paghahanap sa Real-Time: Ang Dagdag na Topping 🍒

Ang ilang mga modelo ay maaari nang sumilip sa labas ng kanilang training bubble. Iyan ay retrieval-augmented generation (RAG) - karaniwang kumukuha ng mga piraso mula sa isang live index o doc store, pagkatapos ay hinabi ito sa reply [5]. Perpekto para sa mabilis na pagbabago ng mga bagay tulad ng mga headline ng balita o presyo ng stock.

Ang problema? Ang internet ay parehong henyo at basura. Kung mahina ang mga filter o provenance check, nanganganib kang makalusot pabalik ang junk data—na siyang babala ng mga risk framework [3].

Isang karaniwang solusyon: iniuugnay ng mga kumpanya ang mga modelo sa sarili nilang mga internal database, kaya binabanggit ng mga sagot ang kasalukuyang patakaran sa HR o na-update na dokumento ng produkto sa halip na basta na lang ito ituloy. Isipin: mas kaunting "uh-oh" na sandali, mas maraming mapagkakatiwalaang tugon.


Pagpino: Hakbang sa Pagpapakintab ng AI 🧪

Ang mga hilaw na pretrained na modelo ay mahirap gamitin. Kaya naman inaayos :

  • Pagtuturo sa kanila na maging matulungin, hindi nakakapinsala, at tapat (sa pamamagitan ng reinforcement learning mula sa human feedback, RLHF) [1].

  • Pagliha sa mga hindi ligtas o nakalalasong gilid (pag-align) [1].

  • Pag-aayos para sa tono—maging palakaibigan, pormal, o mapaglarong sarkastikong.

Hindi ito pagpapakintab ng diyamante kundi pag-iipon ng statistical avalanche para kumilos na parang kausap.


Ang mga Pagkabigo at Pagkabigo 🚧

Huwag nating magpanggap na walang kapintasan:

  • Mga halusinasyon - mga malinaw na sagot na talagang mali [2][3].

  • Bias - sinasalamin nito ang mga pattern na inilagay sa datos; maaari pa nga itong palakasin kung hindi susuriin [3][4].

  • Walang karanasan mismo - maaari itong magsabi ng mga recipe ng sopas ngunit hindi pa nakatikim nito [4].

  • Labis na kumpiyansa - ang prosa ay dumadaloy na parang alam nito, kahit na hindi naman. Binibigyang-diin ng mga balangkas ng panganib ang mga pagpapalagay na nagpapababa ng marka [3].


Bakit Parang May Alam 🧠

Wala itong mga paniniwala, walang alaala sa diwa ng tao, at tiyak na walang sarili. Ngunit dahil maayos nitong pinagsasama-sama ang mga pangungusap, binabasa ito ng iyong utak na parang naiintindihan . Ang nangyayari ay isa lamang napakalaking prediksyon ng susunod na token : pagdurog ng trilyong probabilidad sa loob lamang ng ilang segundo [2].

Ang dating ng "katalinuhan" ay umuusbong na pag-uugali—tinatawag ito ng mga mananaliksik, medyo pabiro, na "stochastic parrot" effect [4].


Analohiyang Pangbata 🎨

Gunigunihin ang isang loro na nabasa na ang lahat ng libro sa aklatan. Hindi nito naiintindihan ang mga kuwento ngunit kayang baguhin ang mga salita para maging parang matalino. Minsan ay tama ito; minsan naman ay walang katuturan—ngunit kung sapat na ang talino, hindi mo laging mahahalata ang pagkakaiba.


Pagtatapos: Kung Saan Nagmumula ang Impormasyon ng AI 📌

Sa madaling salita:

  • Napakaraming datos ng pagsasanay (pampubliko + lisensyado + gawa ng tagapagsanay) [2].

  • Pagpino gamit ang feedback ng tao upang hubugin ang tono/pag-uugali [1].

  • Mga sistema ng pagkuha kapag nakakonekta sa mga live data stream [5].

Walang "alam" ang AI— hinuhulaan nito ang teksto . Iyon ang parehong superpower nito at ang Achilles' heel nito. Ang konklusyon? Palaging i-cross-check ang mahahalagang bagay laban sa isang mapagkakatiwalaang source [3].


Mga Sanggunian

  1. Ouyang, L. et al. (2022). Pagsasanay sa mga modelo ng wika upang sundin ang mga tagubilin na may feedback ng tao (InstructGPT) . arXiv .

  2. OpenAI (2023). Ulat Teknikal ng GPT-4 - pinaghalong datos na lisensyado, pampubliko, at nilikha ng tao; layunin at mga limitasyon ng prediksyon ng next-token. arXiv .

  3. NIST (2023). Balangkas ng Pamamahala ng Panganib ng AI (AI RMF 1.0) - pinagmulan, pagiging mapagkakatiwalaan, at mga kontrol sa panganib. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Tungkol sa mga Panganib ng mga Stokastikong Parrot: Maaari Bang Maging Masyadong Malaki ang mga Modelo ng Wika? PDF .

  5. Lewis, P. et al. (2020). Paglikha ng Pinahusay na Pagkuha para sa NLP na Masinsinang Nagpapalawak ng Kaalaman . arXiv .


Hanapin ang Pinakabagong AI sa Opisyal na Tindahan ng AI Assistant

Tungkol sa Amin

Balik sa blog