Gaano katumpakan ang AI sa pagbabasa ng kursibong sulat-kamay?

Iba-iba ang kakayahan ng AI na magbasa ng kursibong sulat-kamay. Mabisa nitong nakukuha ang diwa ng maayos at malinaw na sulat-kamay, ngunit para sa mga mahahalagang nilalaman tulad ng mga pangalan o medikal na tala, ipinapayong manu-manong i-verify ang mga resulta dahil sa mga potensyal na pagkakamali.

Anong teknolohiya ang pinakamainam para sa pagkilala ng cursive text?

Para sa pagkilala ng cursive na sulat-kamay, inirerekomenda ang mga sistemang OCR (Optical Character Recognition) na may kakayahang sulat-kamay kaysa sa mga tradisyonal na naka-print na solusyon sa OCR, dahil partikular na idinisenyo ang mga ito upang pangasiwaan ang magkakaugnay na mga stroke na tipikal sa cursive na pagsulat.

Anu-anong mga salik ang nakakatulong sa katumpakan ng pagkilala ng kursibong sulat-kamay?

Ang katumpakan ng pagkilala sa cursive na sulat-kamay ay naiimpluwensyahan ng mga salik tulad ng kalinawan ng imahe, pagkakapare-pareho ng sulat-kamay, at kalidad ng OCR tool na ginamit. Ang malinis at mataas na resolution na mga scan ng mahusay na nakasulat na cursive ay lubos na nagpapabuti sa mga resulta.

Paano naiiba ang kursibong sulat-kamay sa nakalimbag na teksto pagdating sa mga hamon sa OCR?

Ang pagsulat nang may kursiba ay nagpapakita ng mga natatanging hamon para sa OCR dahil sa magkakaugnay na katangian ng mga letra nito at sa pagkakaiba-iba ng mga indibidwal na istilo ng pagsulat. Dahil dito, mahirap matukoy kung saan nagtatapos ang isang letra at nagsisimula ang isa pa, na kadalasang nagreresulta sa mas mataas na antas ng pagkakamali.

Kailangan ba ang isang pagsusuri ng tao para sa kritikal na impormasyong nakuha mula sa cursive na sulat-kamay?

Oo, lalo na para sa mahahalagang impormasyon tulad ng mga pangalan, address, at ID, mahalagang magsagawa ng manu-manong pagsusuri sa mga resultang kinuha ng AI. Ang pag-asa lamang sa output ng AI nang walang beripikasyon ay maaaring humantong sa malalaking pagkakamali.

Ano ang ilang mga tip para mapabuti ang mga resulta ng OCR mula sa mga imahe ng cursive na sulat-kamay?

Para mapahusay ang mga resulta ng OCR, siguraduhing pantay ang ilaw kapag kumukuha ng mga imahe, panatilihin ang parallel na anggulo ng kamera sa papel, gumamit ng mataas na resolution, at i-crop ang mga imahe para mag-focus sa teksto habang pinapataas ang contrast para mas malinaw ang manipis na mga stroke.

Maaari bang kumuha ng mga lagda ang AI mula sa mga dokumentong sulat-kamay, at maaasahan ba ito?

Kayang matukoy at makapagbigay ng impormasyon ang AI tungkol sa mga lagda, ngunit kadalasan ay nakatuon ito sa lokasyon at antas ng kumpiyansa ng mga ito sa halip na direktang isalin ang mga ito sa mga pangalan. Para sa tumpak na pagkuha ng pangalan, kadalasang kinakailangan ang manu-manong kumpirmasyon.

Maaari bang basahin ng AI ang kursibo?

Maikling sagot: Oo - Kayang basahin ng AI ang kursiba, ngunit malawak ang pagkakaiba-iba ng pagiging maaasahan. Mas gumagana ito nang maayos kapag pare-pareho ang sulat-kamay at malinaw ang scan o larawan; kung mahirap basahin ang sulat, malabo, may mataas na istilo, o may malaking panganib ang teksto (mga pangalan, address, medikal/legal na tala), magplano para sa mga pagkakamali at umasa sa pagsusuri ng tao.

Mga pangunahing punto:

Kahusayan: Asahan ang katumpakan sa antas ng gist kapag maayos ang pagkakasulat at malinaw ang mga imahe.

Mga Kagamitan: Gumamit ng OCR na may kakayahang sulat-kamay, hindi OCR na may naka-print na teksto, para sa mga pahinang kursibo.

Beripikasyon: Suriin muna ang mga output na may mababang kumpiyansa, lalo na para sa mga kritikal na field at ID.

Kontrol sa kalidad: Pagbutihin ang pagkuha (ilaw, anggulo, resolusyon) upang mabawasan ang mga error sa pagkilala.

Pagkapribado: I-redact ang sensitibong data o gumamit ng mga on-prem na opsyon kapag humahawak ng mga pribadong dokumento.

Mga artikulong maaaring gusto mong basahin pagkatapos nito:

🔗 Gaano katumpakan ang AI sa totoong paggamit
Pinaghihiwa-hiwalay kung ano ang nakakaapekto sa katumpakan ng AI sa iba't ibang gawain.

🔗 Paano matuto ng AI nang paunti-unti
Isang roadmap na madaling gamitin para sa mga baguhan upang makapagsimulang matuto ng AI nang may kumpiyansa.

🔗 Gaano karaming tubig ang ginagamit ng AI
Ipinapaliwanag kung saan nagmumula ang paggamit ng tubig ng AI at bakit.

🔗 Paano hinuhulaan ng AI ang mga uso at pattern
Ipinapakita kung paano hinuhulaan ng mga modelo ang demand, pag-uugali, at mga pagbabago sa merkado.

Maaasahan bang mabasa ng AI ang kursiba? 🤔

Nakakabasa ba ang AI ng cursive na teksto? Oo - ang modernong OCR/pagkilala sa sulat-kamay ay kayang kumuha ng cursive na teksto mula sa mga imahe at scan, lalo na kapag pare-pareho ang pagkakasulat at malinaw ang imahe. Halimbawa, ang mga mainstream na platform ng OCR ay tahasang sumusuporta sa pagkuha ng sulat-kamay bilang bahagi ng kanilang alok. [1][2][3]

Ngunit ang "maaasahan" ay talagang nakasalalay sa iyong ibig sabihin:

Kung ang ibig mong sabihin ay "sapat na para maunawaan ang buod" - kadalasan ay oo ✅
Kung ang ibig mong sabihin ay "sapat na tumpak para sa mga legal na pangalan, address, o medikal na tala nang hindi sinusuri" - hindi, hindi ligtas 🚩
Kung ang ibig mong sabihin ay "gawing perpektong teksto ang anumang scribble, agad-agad" - maging totoo tayo... hindi 😬

Ang AI ay lalong nahihirapan kapag:

Pagsasama-sama ng mga letra (klasikong problema sa kursiba)
Malabo ang tinta, may tekstura ang papel, o may bakas ng paglabo
Ang sulat-kamay ay lubos na personal (kakaiba at paulit-ulit na pag-uulit, hindi pantay na pagkiling)
Ang teksto ay makasaysayan/istilado o gumagamit ng mga hindi pangkaraniwang anyo ng letra/baybay
Ang larawan ay tabingi, malabo, at malabo (mga litrato mula sa telepono sa ilalim ng lampara… naranasan na nating lahat iyan)

Kaya ang mas mainam na pag-frame ay: Kayang basahin ng AI ang kursiba, ngunit kailangan nito ang tamang setup at tamang tool. [1][2][3]

Bakit mas mahirap ang cursive kaysa sa "normal" na OCR 😵💫

Ang naka-print na OCR ay parang pagbabasa ng mga Lego brick - magkakahiwalay na hugis, maayos na mga gilid.
Ang kursibo ay parang spaghetti - magkakaugnay na mga hagod, hindi pantay na pagitan, at paminsan-minsang… mga artistikong desisyon 🍝

Mga pangunahing punto ng sakit:

Segmentasyon: magkakaugnay ang mga letra, kaya ang "saan humihinto ang isang letra" ay nagiging isang malaking problema
Pagkakaiba-iba: dalawang tao ang sumusulat ng "parehong" letra sa ganap na magkaibang paraan
Pagdepende sa konteksto: madalas mong kailanganin ang paghula sa antas ng salita upang mabasa ang isang magulo na letra
Sensitibo sa ingay: ang kaunting paglabo ay maaaring magbura ng manipis na mga guhit na tumutukoy sa mga letra

Kaya naman ang mga produktong OCR na may kakayahang sulat-kamay ay may posibilidad na umasa sa mga modelo ng machine-learning / deep-learning kaysa sa lumang lohika na "hanapin ang bawat hiwalay na karakter". [2][5]

Ano ang bumubuo sa isang mahusay na "AI cursive reader" ✅

Kung pipili ka ng solusyon, ang isang tunay na mahusay na sulat-kamay/cursive na setup ay karaniwang may:

Suporta sa sulat-kamay na inihanda (hindi "naka-print na teksto lamang") [1][2][3]
Kamalayan sa layout (para makayanan nito ang mga dokumento, hindi lang isang linya ng teksto) [2][3]
Mga marka ng kumpiyansa + mga bounding box (para mabilis mong marepaso ang mga hindi gaanong malinaw na bahagi) [2][3]
Paghawak ng wika (magkahalong istilo ng pagsulat at multilingual na teksto ang mahalaga) [2]
Mga opsyong pangtao para sa anumang mahalagang bagay (medikal, legal, pananalapi)

Gayundin - nakakabagot pero totoo - dapat nitong hawakan ang iyong mga input: mga larawan, PDF, mga multi-page scan, at mga larawang “Kinunan ko ito sa isang anggulo sa isang kotse” 😵. [2][3]

Talahanayan ng Paghahambing: mga kagamitang ginagamit ng mga tao kapag nagtatanong ng “Maaari bang Basahin ng AI ang Cursive?” 🧰

Walang pangakong presyo rito (dahil gustong-gusto magbago ang presyo). Ito ang katangian ng kakayahan, hindi isang checkout cart.

Kagamitan / Plataporma	Pinakamahusay para sa	Bakit ito gumagana (at kung saan hindi)
Google Cloud Vision (OCR na may kakayahang sulat-kamay) [1]	Mabilis na pagkuha mula sa mga imahe/scan	Dinisenyo upang matukoy ang teksto at sulat-kamay sa mga imahe; mahusay na baseline kapag malinis ang iyong imahe, hindi gaanong masaya kapag ang sulat-kamay ay nagiging magulo. [1]
Microsoft Azure Read OCR (Azure Vision / Document Intelligence) [2]	Pinaghalong naka-print at sulat-kamay na mga dokumento	Hayagan nitong sinusuportahan ang pagkuha ng naka-print at sulat-kamay na teksto at nagbibigay ng lokasyon at kumpiyansa; maaari ring patakbuhin sa pamamagitan ng mga on-prem container para sa mas mahigpit na kontrol ng data. [2]
Amazon Textract [3]	Mga form/istrukturang dokumento + sulat-kamay + mga tseke na may nakasulat na “pirmado na ba?”	Kinukuha ang teksto/sulat-kamay/datos at may kasamang Mga Lagda na nakakakita ng mga lagda/inisyal at nagbabalik ng lokasyon + kumpiyansa. Mahusay kapag kailangan mo ng istruktura; kailangan pa ring suriin ang mga magulo na talata. [3]
Transkribus [4]	Mga dokumentong pangkasaysayan + maraming pahina mula sa iisang kamay	Malakas kapag maaari kang gumamit ng mga pampublikong modelo o magsanay ng mga pasadyang modelo para sa isang partikular na istilo ng sulat-kamay - sa sitwasyong "parehong manunulat, maraming pahina" ito talaga maaaring magningning. [4]
Kraken (OCR/HTR) [5]	Pananaliksik + mga makasaysayang iskrip + pasadyang pagsasanay	Bukas at masasanay na OCR/HTR na partikular na angkop para sa mga konektadong script dahil maaari itong matuto mula sa mga hindi naka-segment na datos ng linya (kaya hindi mo na kailangang hatiin muna ang mga cursive na letra sa perpektong maliliit na letra). Mas praktikal ang pag-setup. [5]

Malalimang pagsisiyasat: kung paano binabasa ng AI ang kursiba sa ilalim ng hood 🧠

Karamihan sa mga matagumpay na sistema ng pagbabasa ng kursibo ay gumagana nang mas katulad ng transkripsyon kaysa sa "pagtukoy sa bawat letra." Kaya naman ang mga modernong dokumento ng OCR ay nagsasalita tungkol sa mga modelo ng machine-learning at pagkuha ng sulat-kamay sa halip na mga simpleng template ng karakter. [2][5]

Isang pinasimpleng pipeline:

Paunang proseso (deskew, denoise, pagbutihin ang contrast)
Tukuyin ang mga rehiyon ng teksto (kung saan mayroong nakasulat)
Paghihiwalay ng mga linya (mga linya ng sulat-kamay)
Pagkilala sa pagkakasunod-sunod (paghula ng teksto sa isang linya)
Output + kumpiyansa (para masuri ng mga tao ang mga hindi tiyak na bahagi) [2][3]

Ang ideyang "pagkakasunod-sunod sa isang linya" ay isang malaking dahilan kung bakit kayang harapin ng mga modelo ng sulat-kamay ang kursiba: hindi sila napipilitang "hulaan nang perpekto ang hangganan ng bawat letra". [5]

Anong kalidad ang maaari mong makatotohanang asahan (ayon sa kaso ng paggamit) 🎯

Ito yung parte na nilalaktawan ng mga tao, tapos nagagalit din kalaunan. Kaya... heto na.

Magandang tsansa 👍

Malinis na kursiba sa papel na may linya
Isang manunulat, pare-pareho ang istilo
Mataas na resolusyon ng pag-scan na may mahusay na contrast
Maiikling tala na may karaniwang bokabularyo

Magkahalong tsansa 😬

Mga tala sa silid-aralan (mga scribble + mga arrow + margin chaos)
Mga photocopy ng mga photocopy (at ang isinumpang third-generation blur)
Mga journal na may kupas na tinta
Maraming manunulat sa iisang pahina
Mga tala na may mga pagpapaikli, palayaw, at biro sa loob

Mapanganib - huwag magtiwala nang walang pagsusuri 🚩

Mga medikal na tala, mga legal na affidavit, mga pangakong pinansyal
Anumang bagay na may mga pangalan, address, numero ng ID, numero ng account
Mga manuskritong pangkasaysayan na may kakaibang baybay o anyong titik

Kung mahalaga ito, ituring ang output ng AI na parang isang draft, hindi ang pangwakas na katotohanan.

Halimbawa ng daloy ng trabaho na karaniwang gumagana:
Ang isang pangkat na nagdi-digitize ng mga sulat-kamay na intake form ay nagpapatakbo ng OCR, pagkatapos ay manu-manong sinusuri lamang ang mga field na may mababang kumpiyansa (mga pangalan, petsa, numero ng ID). Iyan ang pattern na "Iminumungkahi ng AI, kinukumpirma ng tao" - at ito ang paraan kung paano mo pinapanatili ang bilis at katinuan. [2][3]

Pagkuha ng mas magagandang resulta (gawing hindi gaanong nalilito ang AI) 🛠️

Mga tip sa pagkuha (telepono o scanner)

Gumamit ng pantay na ilaw (iwasan ang mga anino sa buong pahina)
Panatilihing parallel ang kamera sa papel (iwasan ang mga pahinang trapezoid)
Gumamit ng mas mataas na resolution kaysa sa inaakala mong kailangan mo
Iwasan ang mga agresibong "beauty filter" - maaari nitong burahin ang mga manipis na hagod

Mga tip sa paglilinis (bago makilala)

I-crop sa rehiyon ng teksto (paalam sa mga gilid ng mesa, mga kamay, mga tasa ng kape ☕)
Dagdagan nang kaunti ang contrast (ngunit huwag gawing bagyo ng niyebe ang tekstura ng papel)
Ituwid ang pahina (deskew)
Kung ang mga linya ay magkakapatong o ang mga gilid ay magulo, hatiin sa magkakahiwalay na mga imahe

Mga tip sa daloy ng trabaho (tahimik na makapangyarihan)

Gumamit ng OCR na may kakayahang sulat-kamay (parang halata naman… nilalaktawan pa rin ito ng mga tao) [1][2][3]
Mga marka ng kumpiyansa sa tiwala: suriin muna ang mga lugar na may mababang kumpiyansa [2][3]
Kung marami kang pahina mula sa iisang manunulat, isaalang-alang ang custom training (doon nangyayari ang "meh" → "wow" jump) [4][5]

"Maaari bang basahin ng AI ang kursibong" para sa mga lagda at maliliit na eskribyut? 🖊️

Ang mga lagda ay sarili nilang halimaw.

Ang isang lagda ay kadalasang mas malapit sa isang marka kaysa sa nababasang teksto, kaya maraming sistema ng dokumento ang itinuturing ito bilang isang bagay na dapat tuklasin (at hanapin) sa halip na "isalin sa isang pangalan." Halimbawa, Mga Lagda ay nakatuon sa pagtukoy ng mga lagda/inisyal at pagbabalik ng lokasyon + kumpiyansa, hindi "paghula sa na-type na pangalan." [3]

Kaya kung ang layunin mo ay "alisin ang pangalan ng tao mula sa lagda," asahan ang pagkadismaya maliban na lang kung ang lagda ay halos mababasa nang sulat-kamay.

Pagkapribado at seguridad: hindi laging nakakarelaks ang pag-upload ng mga sulat-kamay na tala 🔒

Kung nagpoproseso ka ng mga medikal na rekord, impormasyon ng estudyante, mga form ng customer, o mga pribadong liham: mag-ingat sa kung saan napupunta ang mga larawang iyon.

Mas ligtas na mga pattern:

I-redact muna ang mga identifier (mga pangalan, address, numero ng account)
Mas gusto ang mga lokal/on-prem na opsyon para sa mga sensitibong workload kung maaari (sinusuportahan ng ilang OCR stack ang pag-deploy ng container) [2]
Panatilihin ang isang loop ng pagsusuri ng tao para sa mga kritikal na larangan

Bonus: ang ilang daloy ng trabaho sa dokumento ay gumagamit din ng impormasyon sa lokasyon (mga bounding box) upang suportahan ang mga pipeline ng redaction. [3]

Mga Pangwakas na Komento 🧾✨

Maaari bang magbasa ang AI ng kursiba? Oo - at nakakagulat na disente ito kapag:

malinis ang imahe
pare-pareho ang sulat-kamay
ang kagamitan ay tunay na ginawa para sa pagkilala ng sulat-kamay [1][2][3]

Pero ang kursiba ay likas na magulo, kaya ang tapat na tuntunin ay: gumamit ng AI para pabilisin ang transkripsyon, pagkatapos ay suriin ang output.

Halimbawa sa totoong buhay: Pag-digitize ng mga sulat-kamay na form ng pagpasok 📝

Senaryo

Gunigunihin ang isang maliit na klinika ng physiotherapy na may 500 lumang papel na form para sa pagtanggap ng mga pasyente. Karamihan sa mga form ay may kasamang pinaghalong naka-print na kahon, mga cursive note, petsa, numero ng telepono, pangalan ng doktor, deskripsyon ng pinsala, at mga lagda.

Hindi kailangan ng klinika ng perpektong mahika na "awtomatikong basahin ang lahat". Kailangan nito ng mas ligtas na daloy ng trabaho: gumamit ng AI para i-draft ang transkripsyon, pagkatapos ay ipa-check sa receptionist ang mga field kung saan mahalaga ang mga pagkakamali.

Magandang bagay ito para sa OCR sa sulat-kamay dahil ang mga dokumento ay may paulit-ulit na layout, ngunit kailangan pa rin itong suriin ng tao dahil ang mga pangalan, petsa, address, at mga medikal na tala ay mga field na may mataas na panganib.

Ano ang kailangan ng daloy ng trabaho

Malinaw na mga scan ng bawat form, mas mainam kung 300 DPI o mas mataas pa
Isang OCR tool na may kakayahang sulat-kamay
Isang spreadsheet o database para sa mga nakuha na field
Isang listahan ng mga patlang na "dapat suriin": pangalan ng pasyente, petsa ng kapanganakan, numero ng telepono, tirahan, gamot, mga alerdyi, pangalan ng doktor, at katayuan sa lagda
Isang tagasuri na naghahambing ng mga field na may mababang kumpiyansa laban sa orihinal na scan

Halimbawang tagubilin

Gamitin ang ganitong uri ng tagubilin kapag inaayos ang extraction:

Basahin ang sulat-kamay na intake form na ito at kunin ang mga sumusunod na patlang: buong pangalan, petsa ng kapanganakan, numero ng telepono, tirahan, dahilan ng pagbisita, petsa ng pinsala, kasalukuyang gamot, mga allergy, pangalan ng doktor, kontak para sa emergency, at kung mayroon bang lagda.

Ibalik ang resulta sa isang simpleng talahanayan. Markahan ang anumang hindi malinaw na patlang bilang "Kailangan ng pagsusuri" sa halip na manghula. Kung ang isang salita ay bahagyang nababasa, isama ang iyong pinakamahusay na pagbasa kasunod ang "hindi tiyak". Huwag mag-imbento ng mga nawawalang detalye.

Paano ito subukan

Magsimula sa isang maliit na set ng pagsubok bago iproseso ang bawat form.

Gumamit ng 30 anyo na hinati sa tatlong grupo:

10 maayos na anyo na may malinaw na kursiba
10 karaniwang anyo na may magkahalong letra at kursiba
10 mahirap basahin na mga anyong may mahinang tinta, mga salitang may ekis, o kakaibang sulat-kamay

Para sa bawat anyo, ihambing ang output ng AI sa isang manu-manong transkripsyon

Ilang field ang tama
Ilan ang minarkahan ng "Kailangan ng pagsusuri"
Ilang maling field ang hindi na-flag
Gaano katagal ang manu-manong pagpasok bago at pagkatapos gamitin ang OCR

Ang isang mahusay na pagsubok ay hindi lamang "nabasa ba ng AI ang pahina?" Kundi "natunton ba ng daloy ng trabaho ang mga mapanganib na pagkakamali bago ginamit ang data?"

Resulta

Paglalarawang resulta: Batay sa tiyempo ng isang 30-form na pagsusulit, ang manu-manong pagpasok ay tumagal nang humigit-kumulang 4 na minuto bawat form, o 120 minuto sa kabuuan.

Ang paggamit ng handwriting OCR kasama ang pagsusuri ng tao ay umabot sa:

45 segundo para sa pagproseso at pag-export ng OCR bawat form
90 segundo para sa pagsusuri ng tao bawat form
Humigit-kumulang 67.5 minuto sa kabuuan para sa 30 na porma

Nagbibigay ito ng tinatayang matitipid na 52.5 minuto sa 30 form, o humigit-kumulang 1 minuto at 45 segundong natipid sa bawat form.

Kailangan ding sukatin ang katumpakan ayon sa uri ng larangan. Sa halimbawang pagsubok na ito:

Ang mga patlang ng pangkalahatang tala ay magagamit para sa gist sa 26 sa 30 na anyo
Kinakailangan pa rin ang manu-manong pagsuri sa mga pangalan at petsa sa lahat ng 30 form
7 form ang may kahit isang kritikal na field na minarkahan ng "Kailangan ng pagsusuri"
2 form ang may salitang gamot o allergy na mali ang pagkakaintindi ng AI at tanging ang human reviewer lang ang nakahuli

Kaya ang panalo ay hindi "hindi kailangan ng tao". Ang panalo ay mas mabilis na first-pass transcription habang pinapanatili ang isang human gate sa mapanganib na impormasyon.

Ano ang maaaring magkamali

Ang pinakamalaking pagkakamali ay ang labis na pagtitiwala sa mukhang malinis na resulta. Maaaring makagawa ang AI ng sagot na mukhang may kumpiyansa kahit na hindi malinaw ang pagkakasulat.

Iba pang mga karaniwang problema:

Pag-scan ng mga form sa mababang resolution
Ang pagpapahintulot sa mga anino o kurba ng pahina na baguhin ang teksto
Paggamit ng naka-print na tekstong OCR sa halip na sulat-kamay na OCR
Pagtrato sa mga lagda bilang mga nababasang pangalan
Hindi pagrepaso ng mga pangalan, petsa, gamot, allergy, at ID
Pag-upload ng mga sensitibong form sa isang tool nang hindi sinusuri ang mga kontrol sa privacy

Praktikal na takeaway

Para sa mga cursive na dokumento, ang pinakamahusay na daloy ng trabaho ay hindi ang "Pinapalitan ng AI ang transkripsyon". Ito ay "Ang AI ang lumilikha ng unang draft, sinusuri ng mga tao ang mga mapanganib na bahagi." Bibigyan ka nito ng bilis nang hindi nagkukunwaring ang mahirap na sulat-kamay ay biglang walang error.

Mga Madalas Itanong

Mababasa ba nang wasto ng AI ang kursibong sulat-kamay?

Kayang basahin ng AI ang kursibong titik, ngunit ang katumpakan ay lubos na nakasalalay sa kung gaano kalinis at kakonsistente ang sulat-kamay, at kung gaano kalinaw ang hitsura ng imahe o scan. Sa maraming pagkakataon, sapat na ito upang makuha ang buod ng isang tala. Para sa anumang bagay na may malaking panganib - tulad ng mga pangalan, address, o medikal/legal na nilalaman - asahan ang mga pagkakamali at magplano sa beripikasyon ng tao.

Ano ang pinakamahusay na opsyon sa OCR para sa kursiba: normal na OCR o sulat-kamay na OCR?

Para sa cursive, ang OCR na may kakayahang sulat-kamay ay mas akma kaysa sa naka-print na tekstong OCR. Ang naka-print na OCR ay ginawa para sa malinis at hiwalay na mga karakter, habang ang cursive ay nangangailangan ng mga modelong kayang bigyang-kahulugan ang magkakaugnay na mga stroke at konteksto sa antas ng salita. Maraming pangunahing platform ng OCR ngayon ang may kasamang mga tampok sa pagkuha ng sulat-kamay, na karaniwang tamang lugar upang magsimula para sa mga pahinang cursive.

Bakit mas maraming pagkakamali ang sanhi ng kursiba kaysa sa nakalimbag na teksto?

Mas mahirap ang kursibo dahil ang mga letra ay magkakaugnay, ang mga pagkakaiba-iba ng pagitan, at ang mga indibidwal na istilo ng pagsulat ay maaaring mag-iba nang malaki. Dahil dito, hindi gaanong halata kung saan nagtatapos ang isang letra at kung saan nagsisimula ang susunod kumpara sa nakalimbag na teksto. Ang maliliit na isyu tulad ng malabo, malabong tinta, o teksturadong papel ay maaari ring magbura ng manipis na mga guhit na may kahulugan, na mabilis na nagpapataas ng mga pagkakamali sa pagkilala.

Gaano ka-maaasahan ang AI para sa pagbabasa ng mga cursive na pangalan, address, at ID number?

Ito ang kategoryang may pinakamataas na panganib. Kahit na mahusay na nahawakan ng AI ang nakapalibot na teksto, ang mga kritikal na field tulad ng mga pangalan, address, numero ng account, o ID ay nagdudulot ng malalaking kahihinatnan sa maliliit na pagkakamali sa pagkilala. Ang isang karaniwang pamamaraan ay ituring ang output ng AI bilang isang draft: gumamit ng mga confidence score upang i-flag ang mga hindi tiyak na seksyon, pagkatapos ay unahin muna ang manu-manong pagsusuri para sa mga kritikal na field na iyon.

Ano ang pinakamahusay na daloy ng trabaho upang mabasa nang maaasahan ang kursiba sa malawak na sukat?

Ang isang praktikal na daloy ng trabaho ay "Ang AI ay nagmumungkahi, ang tao ay kumukumpirma." Patakbuhin ang OCR na yari sa sulat-kamay, pagkatapos ay suriin ang mga output na may mababang kumpiyansa sa halip na suriin ang lahat. Maraming sistema ng OCR ang nagbibigay ng mga marka ng kumpiyansa at datos ng lokasyon (tulad ng mga bounding box), na tumutulong sa iyong mabilis na mahanap ang mga bahaging malamang na mali. Binabalanse ng pamamaraang ito ang bilis at katumpakan para sa mga dokumento sa pagsasagawa.

Paano ko mapapabuti ang mga resulta ng cursive OCR mula sa mga larawan sa telepono?

Napakahalaga ng kalidad ng pagkuha ng litrato. Gumamit ng pantay na ilaw upang maiwasan ang mga anino, panatilihing parallel ang camera sa pahina upang mabawasan ang distortion, at pumili ng mas mataas na resolution kaysa sa inaakala mong kailangan mo. Ang pag-crop sa rehiyon ng teksto, maingat na pagpapataas ng contrast, at pag-deskew ng imahe ay maaaring makabawas sa mga error. Iwasan ang mabibigat na "beauty" filter na maaaring makabura sa manipis na stroke ng panulat.

Maaari bang basahin ng AI ang mga cursive signature at i-convert ang mga ito sa mga naka-type na pangalan?

Karaniwang naiiba ang pagtrato sa mga lagda kumpara sa regular na sulat-kamay dahil kadalasan ay mas malapit ang mga ito sa isang marka kaysa sa nababasang teksto. Maraming sistema ang nakatuon sa pagtukoy sa presensya at lokasyon ng isang lagda (at pagbibigay ng kumpiyansa), hindi sa pagtatala nito sa nai-type na pangalan ng isang tao. Kung kailangan mo ang pangalan ng lumagda, karaniwan kang aasa sa isang hiwalay na naka-print na field o manu-manong kumpirmasyon.

Sulit ba ang pagsasanay ng isang pasadyang modelo para sa cursive na sulat-kamay?

Maaari itong mangyari, lalo na kung marami kang pahina mula sa iisang manunulat o pare-pareho ang istilo ng pagsulat sa mga dokumento. Sa mga sitwasyong "parehong kamay, maraming pahina," ang pasadyang pagsasanay ay maaaring makabuluhang mapabuti ang mga resulta kumpara sa mga generic na modelo. Kung ang iyong mga input ay iba-iba sa maraming manunulat at istilo, kadalasang mas maliit ang mga natamo, at gugustuhin mo pa ring magsagawa ng hakbang sa pagsusuri.

Ligtas bang mag-upload ng mga sulat-kamay na tala sa isang serbisyo ng OCR?

Depende ito sa sensitibidad ng nilalaman at kung saan nagaganap ang pagproseso. Kung humahawak ka ng mga pribadong dokumento tulad ng mga medikal na rekord, datos ng estudyante, o mga form ng customer, isang mas ligtas na paraan ay ang pag-redact muna ng mga identifier at gumamit ng mas mahigpit na mga opsyon sa pag-deploy kung mayroon. Ang pagpapanatili ng isang human review loop para sa mga kritikal na field ay nakakabawas din sa panganib ng pagkilos sa mga maling pagkuha.

Mga Sanggunian

[1] Pangkalahatang-ideya ng paggamit ng Google Cloud OCR, kabilang ang suporta para sa pagtukoy ng sulat-kamay sa pamamagitan ng Cloud Vision. magbasa pa
[2] Pangkalahatang-ideya ng OCR (Read) ng Microsoft na sumasaklaw sa naka-print + sulat-kamay na pagkuha, mga marka ng kumpiyansa, at mga opsyon sa pag-deploy ng container. magbasa pa
[3] Post ng AWS na nagpapaliwanag sa feature na Signatures ng Textract para sa pagtukoy ng mga lagda/inisyal na may output ng lokasyon + kumpiyansa. magbasa pa
[4] Gabay sa Transkribus kung bakit (at kailan) sanayin ang isang modelo ng pagkilala ng teksto para sa mga partikular na istilo ng sulat-kamay. magbasa pa
[5] Dokumentasyon ng Kraken sa pagsasanay ng mga modelo ng OCR/HTR gamit ang hindi naka-segment na data ng linya para sa mga konektadong script. magbasa pa

Hanapin ang Pinakabagong AI sa Opisyal na Tindahan ng AI Assistant

Tungkol sa Amin

Balik sa blog