Mašīnmācība (ML) ir tehnoloģisks jauninājums, kas turpina pierādīt savu vērtību daudzās nozarēs.
Mašīnmācība ir saistīta ar mākslīgo intelektu un dziļo mācīšanos. Tā kā mēs dzīvojam nepārtraukti progresējošā tehnoloģiju laikmetā, tagad ir iespējams paredzēt, kas notiks tālāk, un zināt, kā mainīt savu pieeju, izmantojot ML.
Tādējādi jūs neaprobežojaties ar manuāliem veidiem; gandrīz katrs uzdevums mūsdienās ir automatizēts. Ir dažādi mašīnmācīšanās algoritmi, kas paredzēti dažādiem darbiem. Šie algoritmi var atrisināt sarežģītas problēmas un ietaupīt biznesa laiku.
To piemēri varētu būt šaha spēlēšana, datu aizpildīšana, operāciju veikšana, labākā varianta izvēle no iepirkumu saraksta un daudz kas cits.
Šajā rakstā es sīki izskaidrošu mašīnmācīšanās algoritmus un modeļus.
Te nu mēs esam!
Kas ir mašīnmācīšanās?
Mašīnmācīšanās ir prasme vai tehnoloģija, kurā mašīnai (piemēram, datoram) ir jāveido spēja mācīties un pielāgoties, izmantojot statistikas modeļus un algoritmus bez īpaši programmētas.
Tā rezultātā mašīnas uzvedas līdzīgi kā cilvēki. Tas ir mākslīgā intelekta veids, kas ļauj programmatūras lietojumprogrammām precīzāk prognozēt un veikt dažādus uzdevumus, izmantojot datus un pilnveidojot sevi.
Tā kā skaitļošanas tehnoloģijas strauji attīstās, mūsdienu mašīnmācība nav tāda pati kā iepriekšējā mašīnmācība. Mašīnmācība pierāda savu eksistenci, sākot no modeļu atpazīšanas un beidzot ar teoriju par apmācību veikt noteiktus uzdevumus.
Izmantojot mašīnmācīšanos, datori mācās no iepriekšējiem aprēķiniem, lai iegūtu atkārtojamus, uzticamus lēmumus un rezultātus. Citiem vārdiem sakot, mašīnmācīšanās ir zinātne, kas ir ieguvusi jaunu impulsu.
Lai gan daudzi algoritmi ir izmantoti jau ilgu laiku, iespēja automātiski piemērot sarežģītus aprēķinus lielajiem datiem, arvien ātrāk un ātrāk, atkal un atkal, ir nesena attīstība.
Daži publiskotie piemēri ir šādi:
- Tiešsaistes ieteikumu atlaides un piedāvājumi, piemēram, no Netflix un Amazon
- Pašbraucošs un ļoti reklamēts Google auto
- Krāpšanas atklāšana un daži veidi, kā izlaist šīs problēmas
Un vēl daudz vairāk.
Kāpēc jums ir nepieciešama mašīnmācība?
Mašīnmācība ir svarīgs jēdziens, ko katrs uzņēmuma īpašnieks ievieš savās lietojumprogrammās, lai uzzinātu savu klientu uzvedību, uzņēmuma darbības modeļus un daudz ko citu. Tas atbalsta jaunāko produktu izstrādi.
Daudzi vadošie uzņēmumi, piemēram, Google, Uber, Instagram, Amazon utt., padara mašīnmācīšanos par savu darbību galveno daļu. Tomēr nozares, kas strādā ar lielu datu apjomu, zina, cik svarīgi ir mašīnmācīšanās modeļi.
Organizācijas spēj efektīvi strādāt ar šo tehnoloģiju. Tādas nozares kā finanšu pakalpojumi, valdība, veselības aprūpe, mazumtirdzniecība, transports un naftas gāze izmanto mašīnmācīšanās modeļus, lai nodrošinātu vērtīgākus klientu rezultātus.
Kas izmanto mašīnmācīšanos?
Mašīnmācība mūsdienās tiek izmantota daudzās lietojumprogrammās. Vispazīstamākais piemērs ir ieteikumu dzinējs Instagram, Facebook, Twitter utt.
Facebook izmanto mašīnmācīšanos, lai personalizētu dalībnieku pieredzi viņu ziņu plūsmās. Ja lietotājs bieži apstājas, lai pārbaudītu vienas un tās pašas kategorijas ziņas, ieteikumu programma sāk rādīt vairāk vienas kategorijas ziņu.
Aiz ekrāna ieteikumu programma mēģina izpētīt dalībnieku tiešsaistes uzvedību, izmantojot viņu modeļus. Ziņu plūsma tiek automātiski pielāgota, kad lietotājs maina savu darbību.
Saistībā ar ieteikumu dzinējiem daudzi uzņēmumi izmanto vienu un to pašu koncepciju, lai vadītu savas kritiskās biznesa procedūras. Viņi ir:
- Klientu attiecību pārvaldības (CRM) programmatūra: tā izmanto mašīnmācīšanās modeļus, lai analizētu apmeklētāju e-pastus un mudinātu pārdošanas komandu vispirms nekavējoties atbildēt uz vissvarīgākajiem ziņojumiem.
- Biznesa inteliģence (BI): Analytics un BI pārdevēji izmanto tehnoloģiju, lai identificētu būtiskus datu punktus, modeļus un anomālijas.
- Cilvēkresursu informācijas sistēmas (HRIS): tā programmatūrā izmanto mašīnmācīšanās modeļus, lai filtrētu lietojumprogrammas un atpazītu labākos kandidātus vajadzīgajam amatam.
- Pašbraucošas automašīnas: mašīnmācīšanās algoritmi ļauj automašīnu ražošanas uzņēmumiem identificēt objektu vai uztvert vadītāja uzvedību, lai nekavējoties brīdinātu, lai novērstu negadījumus.
- Virtuālie palīgi: virtuālie palīgi ir viedie palīgi, kas apvieno uzraudzītus un neuzraudzītus modeļus, lai interpretētu runu un piegādes kontekstu.
Kas ir mašīnmācīšanās modeļi?
ML modelis ir datora programmatūra vai lietojumprogramma, kas apmācīta novērtēt un atpazīt dažus modeļus. Jūs varat apmācīt modeli ar datu palīdzību un nodrošināt to ar algoritmu, lai tas mācās no šiem datiem.
Piemēram, vēlaties izveidot lietojumprogrammu, kas atpazīst emocijas, pamatojoties uz lietotāja sejas izteiksmēm. Šeit jums ir jābaro modele ar dažādiem seju attēliem, kas apzīmēti ar dažādām emocijām, un labi jāapmāca savs modelis. Tagad varat izmantot to pašu modeli savā lietojumprogrammā, lai viegli noteiktu lietotāja noskaņojumu.
Vienkārši izsakoties, mašīnmācīšanās modelis ir vienkāršots procesa attēlojums. Tas ir vienkāršākais veids, kā kaut ko noteikt vai ieteikt patērētājam. Viss modelī darbojas kā tuvinājums.
Piemēram, kad mēs zīmējam vai izgatavojam globusu, mēs piešķiram tam sfēras formu. Bet īstais globuss nav sfērisks, kā mēs zinām. Šeit mēs pieņemam formu, lai kaut ko izveidotu. ML modeļi darbojas līdzīgi.
Sāksim ar dažādiem mašīnmācības modeļiem un algoritmiem.
Mašīnmācīšanās modeļu veidi
Visi mašīnmācīšanās modeļi tiek klasificēti kā uzraudzīta, neuzraudzīta un pastiprinoša apmācība. Uzraudzīta un nekontrolēta mācīšanās tālāk tiek klasificēta kā dažādi termini. Apspriedīsim katru no tiem sīkāk.
#1. Uzraudzīta mācīšanās
Uzraudzītā mācīšanās ir vienkāršs mašīnmācīšanās modelis, kas ietver pamatfunkcijas apgūšanu. Šī funkcija kartē ievadi ar izvadi. Piemēram, ja jums ir datu kopa, kas sastāv no diviem mainīgajiem, vecums kā ievade un augstums kā izvade.
Izmantojot uzraudzītu mācību modeli, varat viegli paredzēt personas augumu, pamatojoties uz šīs personas vecumu. Lai saprastu šo mācību modeli, jums ir jāiziet cauri apakškategorijām.
#2. Klasifikācija
Klasifikācija ir plaši izmantots prognozēšanas modelēšanas uzdevums mašīnmācības jomā, kurā tiek prognozēta etiķete konkrētiem ievades datiem. Tam ir nepieciešama apmācības datu kopa ar plašu ievades un izvades gadījumu klāstu, no kuriem modelis mācās.
Apmācības datu kopa tiek izmantota, lai atrastu minimālo veidu, kā kartēt ievades datu paraugus uz norādītajām klašu etiķetēm. Visbeidzot, apmācības datu kopa atspoguļo problēmu, kas satur lielu skaitu izvades paraugu.
To izmanto surogātpasta filtrēšanai, dokumentu meklēšanai, ar roku rakstītu rakstzīmju atpazīšanai, krāpšanas atklāšanai, valodas identificēšanai un noskaņojuma analīzei. Izvade šajā gadījumā ir diskrēta.
#3. Regresija
Šajā modelī izvade vienmēr ir nepārtraukta. Regresijas analīze būtībā ir statistiska pieeja, kas modelē saikni starp vienu vai vairākiem neatkarīgiem mainīgajiem un mērķa vai atkarīgo mainīgo.
Regresija ļauj redzēt, kā mainās atkarīgā mainīgā skaits attiecībā pret neatkarīgo mainīgo, kamēr pārējie neatkarīgie mainīgie ir nemainīgi. To izmanto, lai prognozētu algu, vecumu, temperatūru, cenu un citus reālus datus.
Regresijas analīze ir “labākā minējuma” metode, kas ģenerē prognozi no datu kopas. Vienkāršiem vārdiem sakot, dažādu datu punktu ievietošana grafikā, lai iegūtu visprecīzāko vērtību.
Piemērs. Lidojuma biļetes cenas prognozēšana ir parasts regresijas darbs.
#4. Mācības bez uzraudzības
Nepārraudzīta mācīšanās galvenokārt tiek izmantota, lai izdarītu secinājumus, kā arī atrastu modeļus no ievades datiem bez atsaucēm uz iezīmētajiem rezultātiem. Šo paņēmienu izmanto, lai atklātu slēptās datu grupas un modeļus bez cilvēka iejaukšanās.
Tas var atklāt informācijas atšķirības un līdzības, padarot šo paņēmienu ideāli piemērotu klientu segmentēšanai, izpētes datu analīzei, modeļu un attēlu atpazīšanai un savstarpējās pārdošanas stratēģijām.
Nepārraudzīta mācīšanās tiek izmantota arī, lai samazinātu modeļa ierobežoto funkciju skaitu, izmantojot dimensiju samazināšanas procesu, kas ietver divas pieejas: vienreizējās vērtības sadalīšanu un galveno komponentu analīzi.
#5. Klasterizācija
Klasterizācija ir neuzraudzīts mācību modelis, kas ietver datu punktu grupēšanu. To bieži izmanto krāpšanas atklāšanai, dokumentu klasifikācijai un klientu segmentēšanai.
Visizplatītākie klasterizācijas vai grupēšanas algoritmi ietver hierarhisku klasterizāciju, uz blīvumu balstītu klasterizāciju, vidējo nobīdi un k-vidējo klasterizāciju. Katrs algoritms klasteru atrašanai tiek izmantots atšķirīgi, taču mērķis katrā gadījumā ir vienāds.
#6. Izmēru samazināšana
Tā ir dažādu nejaušo mainīgo samazināšanas metode, kas tiek apsvērta, lai iegūtu galveno mainīgo kopu. Citiem vārdiem sakot, funkciju kopas dimensijas samazināšanas procesu sauc par dimensijas samazināšanu. Šī modeļa populāro algoritmu sauc par galveno komponentu analīzi.
Šī lāsts attiecas uz faktu, ka prognozēšanas modelēšanas darbībām tiek pievienots vairāk ievades, kas padara modelēšanu vēl grūtāku. To parasti izmanto datu vizualizācijai.
#7. Pastiprināšanas mašīnmācība
Tas ir līdzīgs modelis uzraudzītai mašīnmācībai. To sauc par uzvedības mašīnmācīšanās modeli. Vienīgā atšķirība no uzraudzītās mācīšanās ir tā, ka algoritms netiek apmācīts, izmantojot izlases datus.
Pastiprināšanas mācību modelis mācās, virzoties uz priekšu ar izmēģinājumu un kļūdu metodi. Veiksmīgo rezultātu secība piespieda modeli izstrādāt labāko ieteikumu konkrētai problēmai. To bieži izmanto spēlēs, navigācijā, robotikā un citur.
Mašīnmācīšanās algoritmu veidi
#1. Lineārā regresija
Šeit ideja ir atrast līniju, kas vislabāk atbilst nepieciešamajiem datiem. Lineārās regresijas modelī ir paplašinājumi, kas ietver vairākkārtēju lineāro regresiju un polinoma regresiju. Tas nozīmē, ka jāatrod attiecīgi vislabākā plakne, kas atbilst datiem, un vislabākā līkne, kas atbilst datiem.
#2. Loģistiskā regresija
Loģistiskā regresija ir ļoti līdzīga lineārās regresijas algoritmam, taču to pamatā izmanto, lai iegūtu ierobežotu rezultātu skaitu, teiksim, divus. Loģistisko regresiju izmanto, salīdzinot ar lineāro regresiju, modelējot rezultātu iespējamību.
Šeit loģistikas vienādojums ir izveidots izcilā veidā, lai izvades mainīgais būtu no 0 līdz 1.
#3. Lēmumu koks
Lēmumu koka modelis tiek plaši izmantots stratēģiskajā plānošanā, mašīnmācībā un operāciju izpētē. Tas sastāv no mezgliem. Ja jums ir vairāk mezglu, jūs iegūsit precīzākus rezultātus. Lēmumu koka pēdējais mezgls sastāv no datiem, kas palīdz ātrāk pieņemt lēmumus.
Tādējādi pēdējos mezglus sauc arī par koku lapām. Lēmumu kokus ir viegli un intuitīvi veidot, taču to precizitāte ir mazāka.
#4. Izlases mežs
Tā ir ansambļa mācīšanās tehnika. Vienkārši izsakoties, tas ir veidots no lēmumu kokiem. Nejaušais mežu modelis ietver vairākus lēmumu kokus, izmantojot patieso datu sāknēšanas datu kopas. Tas nejauši atlasa mainīgo apakškopu katrā koka solī.
Nejaušais meža modelis izvēlas katra lēmumu koka prognozēšanas veidu. Tādējādi, paļaujoties uz modeli “uzvar vairākums”, tiek samazināts kļūdu risks.
Piemēram, ja izveidojat individuālu lēmumu koku un modelis beigās paredz 0, jums nekas nebūs. Bet, ja vienlaikus izveidojat 4 lēmumu kokus, jūs varētu iegūt vērtību 1. Tāda ir nejaušā meža mācīšanās modeļa jauda.
#5. Atbalstiet vektoru mašīnu
Atbalsta vektora mašīna (SVM) ir uzraudzīts mašīnmācīšanās algoritms, kas ir sarežģīts, bet intuitīvs, ja mēs runājam par vissvarīgāko līmeni.
Piemēram, ja ir divu veidu dati vai klases, SVM algoritms atradīs robežu vai hiperplakni starp šīm datu klasēm un palielina starpību starp šīm datu klasēm. Ir daudz plakņu vai robežu, kas atdala divas klases, taču viena plakne var maksimāli palielināt attālumu vai starpību starp klasēm.
#6. Galvenās sastāvdaļas analīze (PCA)
Galvenās sastāvdaļas analīze nozīmē augstākas dimensijas informācijas, piemēram, 3 dimensiju, projicēšanu mazākā telpā, piemēram, 2 dimensijās. Tā rezultātā tiek iegūta minimāla datu dimensija. Tādā veidā jūs varat saglabāt sākotnējās vērtības modelī, netraucējot pozīciju, bet nesamazinot izmērus.
Vienkāršiem vārdiem sakot, tas ir dimensiju samazināšanas modelis, ko īpaši izmanto, lai vairākus datu kopā esošos mainīgos samazinātu līdz mazākajiem mainīgajiem. To var izdarīt, saliekot kopā tos mainīgos, kuru mērījumu skala ir tāda pati un kuriem ir augstākas korelācijas nekā citiem.
Šī algoritma galvenais mērķis ir parādīt jums jaunās mainīgo grupas un nodrošināt pietiekamu piekļuvi, lai paveiktu savu darbu.
Piemēram, PCA palīdz interpretēt aptaujas, kas ietver daudzus jautājumus vai mainīgos lielumus, piemēram, aptaujas par labklājību, studiju kultūru vai uzvedību. Izmantojot PCA modeli, jūs varat redzēt minimālus mainīgos lielumus.
#7. Naivai Beiji
Naive Bayes algoritms tiek izmantots datu zinātnē un ir populārs modelis, ko izmanto daudzās nozarēs. Ideja ir ņemta no Beijes teorēmas, kas izskaidro varbūtības vienādojumu, piemēram, “kāda ir Q (izejas mainīgā) varbūtība, ņemot vērā P.
Tas ir matemātisks skaidrojums, kas tiek izmantots mūsdienu tehnoloģiju laikmetā.
Papildus tiem daži regresijas daļā minētie modeļi, tostarp lēmumu koks, neironu tīkls un nejaušs mežs, ietilpst arī klasifikācijas modelī. Vienīgā atšķirība starp terminiem ir tāda, ka izvade ir diskrēta, nevis nepārtraukta.
#8. Neironu tīkls
Neironu tīkls atkal ir visvairāk izmantotais modelis nozarēs. Tas būtībā ir dažādu matemātisko vienādojumu tīkls. Pirmkārt, tas izmanto vienu vai vairākus mainīgos kā ievadi un iet cauri vienādojumu tīklam. Galu galā tas sniedz rezultātus vienā vai vairākos izvades mainīgajos.
Citiem vārdiem sakot, neironu tīkls ņem ieejas vektoru un atgriež izejas vektoru. Tas ir līdzīgs matricām matemātikā. Tam ir slēpti slāņi ievades un izvades slāņu vidū, kas pārstāv gan lineārās, gan aktivizācijas funkcijas.
#9. K Tuvāko kaimiņu (KNN) algoritms
KNN algoritms tiek izmantots gan klasifikācijas, gan regresijas problēmām. To plaši izmanto datu zinātnes nozarē, lai atrisinātu klasifikācijas problēmas. Turklāt tas saglabā visus pieejamos gadījumus un klasificē nākamos gadījumus, izmantojot k kaimiņu balsis.
Attāluma funkcija veic mērījumu. Piemēram, ja vēlaties datus par personu, jums ir jārunā ar šai personai tuvākajiem cilvēkiem, piemēram, draugiem, kolēģiem utt. Līdzīgi darbojas KNN algoritms.
Pirms KNN algoritma izvēles jums jāņem vērā trīs lietas.
- Dati ir iepriekš jāapstrādā.
- Mainīgie ir jānormalizē, pretējā gadījumā augstāki mainīgie var novirzīt modeli.
- KNN ir skaitļošanas ziņā dārgs.
#10. K-Means klasterizācija
Tam tiek izmantots nepārraudzīts mašīnmācīšanās modelis, kas atrisina klasterizācijas uzdevumus. Šeit datu kopas tiek klasificētas un iedalītas vairākos klasteros (teiksim K), lai visi klastera punkti būtu neviendabīgi un homogēni no datiem.
K-Means veido šādas kopas:
- K-Means katram klasterim izvēlas K datu punktu skaitu, ko sauc par centroīdiem.
- Katrs datu punkts veido kopu ar tuvāko klasteru (centroīdiem), ti, K klasteriem.
- Tas rada jaunus centroīdus.
- Pēc tam tiek noteikts tuvākais attālums katram punktam. Šis process atkārtojas, līdz centroīdi nemainās.
Secinājums
Mašīnmācīšanās modeļi un algoritmi ir ļoti izšķirīgi kritiskiem procesiem. Šie algoritmi padara mūsu ikdienu vieglu un vienkāršu. Tādā veidā ir vieglāk izcelt milzīgākos procesus dažu sekunžu laikā.
Tādējādi ML ir spēcīgs instruments, ko mūsdienās izmanto daudzas nozares, un pieprasījums pēc tā nepārtraukti pieaug. Un nav tālu tā diena, kad varam saņemt vēl precīzākas atbildes uz savām sarežģītajām problēmām.