Ansambļa mācības, kas izskaidrotas ar vienkāršākajiem iespējamajiem terminiem

Ansambļa mācīšanās var palīdzēt pieņemt labākus lēmumus un atrisināt daudzas reālās dzīves problēmas, apvienojot lēmumus no vairākiem modeļiem.

Mašīnmācība (ML) turpina paplašināt savus spārnus vairākās nozarēs un nozarēs neatkarīgi no tā, vai tās ir finanses, medicīna, lietotņu izstrāde vai drošība.

Pareiza ML modeļu apmācība palīdzēs sasniegt lielākus panākumus jūsu biznesā vai amatā, un ir dažādas metodes, kā to sasniegt.

Šajā rakstā es apspriedīšu ansambļa mācīšanos, tās nozīmi, lietošanas gadījumus un metodes.

Sekojiet līdzi!

Kas ir ansambļa mācīšanās?

Mašīnmācībā un statistikā “ansamblis” attiecas uz metodēm, kas ģenerē dažādas hipotēzes, vienlaikus izmantojot kopēju pamata apmācāmo.

Un ansambļa mācīšanās ir mašīnmācīšanās pieeja, kurā tiek stratēģiski izveidoti un apvienoti vairāki modeļi (piemēram, eksperti vai klasifikatori), lai atrisinātu skaitļošanas problēmu vai veiktu labākas prognozes.

Šīs pieejas mērķis ir uzlabot noteiktā modeļa prognozēšanu, funkciju tuvināšanu, klasifikāciju utt. To izmanto arī, lai izslēgtu iespēju no daudziem izvēlēties sliktu vai mazāk vērtīgu modeli. Lai sasniegtu uzlabotu prognozēšanas veiktspēju, tiek izmantoti vairāki mācīšanās algoritmi.

Ansambļa apmācības nozīme ML

Mašīnmācīšanās modeļos ir daži avoti, piemēram, novirze, dispersija un troksnis, kas var izraisīt kļūdas. Ansambļa mācīšanās var palīdzēt samazināt šos kļūdas izraisošos avotus un nodrošināt jūsu ML algoritmu stabilitāti un precizitāti.

Lūk, kāpēc ansambļa mācības tiek izmantotas dažādos scenārijos:

Pareizā klasifikatora izvēle

Ansambļa mācīšanās palīdz izvēlēties labāku modeli vai klasifikatoru, vienlaikus samazinot risku, kas var rasties sliktas modeļa izvēles dēļ.

Dažādām problēmām tiek izmantoti dažādi klasifikatoru veidi, piemēram, atbalsta vektora mašīnas (SVM), daudzslāņu perceptrons (MLP), naivi Bayes klasifikatori, lēmumu koki utt. Turklāt ir dažādas klasifikācijas algoritmu realizācijas, kas jums jāizvēlas. . Arī dažādu treniņu datu veiktspēja var būt atšķirīga.

Bet tā vietā, lai izvēlētos tikai vienu modeli, ja izmantojat visu šo modeļu kopumu un apvienojat to individuālos rezultātus, varat izvairīties no sliktāku modeļu izvēles.

Datu apjoms

Daudzu ML metožu un modeļu rezultāti nav tik efektīvi, ja ievadāt tiem neatbilstošus datus vai lielu datu apjomu.

No otras puses, ansambļa mācīšanās var darboties abos scenārijos, pat ja datu apjoms ir pārāk mazs vai pārāk liels.

  • Ja ir nepietiekami dati, varat izmantot bootstrapping, lai apmācītu dažādus klasifikatorus ar dažādu sāknēšanas datu paraugu palīdzību.
  • Ja ir liels datu apjoms, kas var apgrūtināt viena klasifikatora apmācību, tad datus var stratēģiski sadalīt mazākās apakškopās.

Sarežģītība

Viens klasifikators var nespēt atrisināt dažas ļoti sarežģītas problēmas. Viņu lēmumu robežas, kas atdala dažādu klašu datus, var būt ļoti sarežģītas. Tātad, ja lietojat lineāro klasifikatoru nelineārai, sarežģītai robežai, tas nevarēs to iemācīties.

Tomēr, pareizi apvienojot piemērotu lineāro klasifikatoru kopu, varat likt tam apgūt doto nelineāro robežu. Klasifikators sadalīs datus daudzos viegli apgūstamos un mazākos nodalījumos, un katrs klasifikators apgūs tikai vienu vienkāršāku nodalījumu. Pēc tam tiks apvienoti dažādi klasifikatori, lai iegūtu apm. lēmuma robeža.

  13 lietotnes/rīki, lai palielinātu Shopify veikala pārdošanu

Pārliecības novērtējums

Ansambļa mācībās uzticības balsojums tiek piešķirts lēmumam, ko pieņēmusi sistēma. Pieņemsim, ka jums ir dažādu klasifikatoru ansamblis, kas apmācīts konkrētai problēmai. Ja lielākā daļa klasifikatoru piekrīt pieņemtajam lēmumam, tā iznākumu var uzskatīt par kopumu ar augstu ticamības lēmumu.

No otras puses, ja puse no klasifikatoriem nepiekrīt pieņemtajam lēmumam, tiek teikts, ka tas ir ansamblis ar zemu pārliecību.

Tomēr zema vai augsta pārliecība ne vienmēr ir pareizais lēmums. Bet pastāv liela iespēja, ka lēmums ar augstu pārliecību būs pareizs, ja ansamblis ir pareizi apmācīts.

Precizitāte ar Data Fusion

Dati, kas savākti no vairākiem avotiem, ja tie tiek stratēģiski apvienoti, var uzlabot klasifikācijas lēmumu precizitāti. Šī precizitāte ir augstāka par precizitāti, kas iegūta ar viena datu avota palīdzību.

Kā darbojas ansambļa apmācība?

Ansambļa mācīšanās izmanto vairākas kartēšanas funkcijas, kuras ir apguvuši dažādi klasifikatori, un pēc tam tās apvieno, lai izveidotu vienu kartēšanas funkciju.

Šeit ir piemērs tam, kā notiek ansambļa mācīšanās.

Piemērs: jūs veidojat uz pārtiku balstītu lietojumprogrammu galalietotājiem. Lai piedāvātu augstas kvalitātes lietotāja pieredzi, vēlaties apkopot viņu atsauksmes par problēmām, ar kurām viņi saskaras, ievērojamām nepilnībām, kļūdām, kļūdām utt.

Lai to izdarītu, varat jautāt savas ģimenes, draugu, kolēģu un citu cilvēku, ar kuriem bieži sazināties, viedokli par viņu ēdienu izvēli un pieredzi, pasūtot pārtiku tiešsaistē. Varat arī izlaist savu lietojumprogrammu beta versijā, lai apkopotu reāllaika atsauksmes bez novirzēm vai trokšņiem.

Tātad, tas, ko jūs šeit darāt, ir dažādu cilvēku ideju un viedokļu izskatīšana, lai palīdzētu uzlabot lietotāju pieredzi.

Ansambļa mācības un tās modeļi darbojas līdzīgi. Tas izmanto modeļu kopu un apvieno tos, lai iegūtu galīgo rezultātu, lai uzlabotu prognozēšanas precizitāti un veiktspēju.

Ansambļa apmācības pamatmetodes

#1. Režīms

“Mode” ir vērtība, kas parādās datu kopā. Ansambļa mācībās ML speciālisti izmanto vairākus modeļus, lai izveidotu prognozes par katru datu punktu. Šīs prognozes tiek uzskatītas par individuālām balsīm, un lielākās daļas modeļu prognoze tiek uzskatīta par galīgo prognozi. To galvenokārt izmanto klasifikācijas problēmās.

Piemērs: četri cilvēki novērtēja jūsu pieteikumu ar 4, bet viens no viņiem to novērtēja ar 3, tad režīms būtu 4, jo vairākums nobalsoja ar 4.

#2. Vidējais/vidējais

Izmantojot šo paņēmienu, profesionāļi ņem vērā visas modeļa prognozes un aprēķina to vidējo rādītāju, lai iegūtu galīgo prognozi. To galvenokārt izmanto, lai prognozētu regresijas problēmas, aprēķinātu klasifikācijas problēmu varbūtības un daudz ko citu.

Piemērs. Iepriekš minētajā piemērā, kur četri cilvēki jūsu lietotni novērtēja ar 4, bet viena persona to novērtēja ar 3, vidējais rādītājs būtu (4+4+4+4+3)/5=3,8.

#3. Vidējais svērtais

Šajā ansambļa mācīšanās metodē profesionāļi prognozēšanas veikšanai dažādiem modeļiem piešķir atšķirīgu svaru. Šeit piešķirtais svars raksturo katra modeļa atbilstību.

Piemērs. Pieņemsim, ka 5 personas ir sniegušas atsauksmes par jūsu pieteikumu. No tiem 3 ir lietojumprogrammu izstrādātāji, savukārt 2 viņiem nav pieredzes lietotņu izstrādē. Tātad šo 3 cilvēku atsauksmēm tiks piešķirta lielāka nozīme nekā pārējo 2 cilvēku atsauksmēm.

Uzlabotas ansambļu apmācības metodes

#1. Iepakošana maisos

Maisošana (Bootstrap AGGregatING) ir ļoti intuitīva un vienkārša ansambļa mācīšanās tehnika ar labu sniegumu. Kā norāda nosaukums, tas ir izveidots, apvienojot divus terminus “Bootstrap” un “agregation”.

  PlayStation 5 pret Xbox Series X: kuru jums vajadzētu iegādāties?

Bootstrapping ir vēl viena izlases metode, kurā jums būs jāizveido vairāku novērojumu apakškopas, kas ņemtas no sākotnējās datu kopas ar aizstāšanu. Šeit apakškopas lielums būs tāds pats kā sākotnējās datu kopas lielums.

Avots: Buggy programmētājs

Tātad, iepakojot maisos, tiek izmantotas apakškopas vai maisi, lai izprastu komplekta sadalījumu. Tomēr apakškopas varētu būt mazākas nekā sākotnējā datu kopa iepakošanas maisos. Šī metode ietver vienu ML algoritmu. Dažādu modeļu rezultātu apvienošanas mērķis ir iegūt vispārinātu rezultātu.

Lūk, kā darbojas iepakošana maisā:

  • No sākotnējās kopas tiek ģenerētas vairākas apakškopas, un novērojumi tiek atlasīti ar aizstāšanu. Apakškopas tiek izmantotas modeļu vai lēmumu koku apmācībā.
  • Katrai apakškopai tiek izveidots vājš vai bāzes modelis. Modeļi būs neatkarīgi viens no otra un darbosies paralēli.
  • Galīgā prognoze tiks veikta, apvienojot katru prognozi no katra modeļa, izmantojot statistiku, piemēram, vidējo aprēķinu, balsošanu utt.

Populāri šajā ansambļa tehnikā izmantotie algoritmi ir:

  • Nejaušs mežs
  • Iesaiņoti lēmumu koki

Šīs metodes priekšrocība ir tā, ka tā palīdz samazināt dispersijas kļūdas lēmumu kokos.

#2. Sakraušana

Attēla avots: OpenGenus IQ

Krāvumos vai stacked vispārināšanā dažādu modeļu prognozes, piemēram, lēmumu koku, tiek izmantotas, lai izveidotu jaunu modeli, lai prognozētu šo testu kopu.

Kraušana ietver sāknēšanas datu apakškopu izveidi apmācības modeļiem, līdzīgi kā maisos. Bet šeit modeļu izvade tiek ņemta par ievadi, kas tiek ievadīta citam klasifikatoram, kas pazīstams kā metaklasifikators paraugu galīgajai prognozēšanai.

Iemesls, kāpēc tiek izmantoti divi klasifikatora slāņi, ir noteikt, vai apmācības datu kopas ir pareizi apgūtas. Lai gan divslāņu pieeja ir izplatīta, var izmantot arī vairāk slāņu.

Piemēram, varat izmantot 3–5 modeļus pirmajā vai 1. līmenī un vienu modeli 2. vai 2. līmenī. Pēdējais apvienos 1. līmenī iegūtās prognozes, lai veiktu galīgo prognozi.

Turklāt prognožu apkopošanai varat izmantot jebkuru ML mācīšanās modeli; Lineārais modelis, piemēram, lineārā regresija, loģistiskā regresija utt., ir izplatīts.

Populāri ML algoritmi, ko izmanto sakraušanā, ir:

  • Sajaukšana
  • Super ansamblis
  • Sakrauti modeļi

Piezīme. Sajaukšanā prognožu veikšanai tiek izmantota apstiprināšanas vai aizturēšanas kopa no apmācības datu kopas. Atšķirībā no sakraušanas, sajaukšana ietver prognozes, kas jāveic tikai no turēšanas.

#3. Paaugstināšana

Pastiprināšana ir iteratīva ansambļa mācīšanās metode, kas pielāgo konkrēta novērojuma svaru atkarībā no tā pēdējās vai iepriekšējās klasifikācijas. Tas nozīmē, ka katra nākamā modeļa mērķis ir labot iepriekšējā modelī konstatētās kļūdas.

Ja novērojums nav pareizi klasificēts, pastiprināšana palielina novērojuma nozīmi.

Veicinot uzlabošanu, profesionāļi apmāca pirmo algoritmu pilnas datu kopas uzlabošanai. Pēc tam viņi izveido nākamos ML algoritmus, izmantojot atlikumus, kas iegūti no iepriekšējā pastiprināšanas algoritma. Tādējādi lielāka nozīme tiek piešķirta nepareizajiem novērojumiem, ko prognozēja iepriekšējais modelis.

Lūk, kā tas darbojas pakāpeniski:

  • No sākotnējās datu kopas tiks ģenerēta apakškopa. Katram datu punktam sākotnēji būs vienāds svars.
  • Bāzes modeļa izveide notiek apakškopā.
  • Prognoze tiks veikta attiecībā uz visu datu kopu.
  • Izmantojot faktiskās un prognozētās vērtības, tiks aprēķinātas kļūdas.
  • Nepareizi prognozētajiem novērojumiem tiks piešķirts lielāks svars
  • Par šo datu kopu tiks izveidots jauns modelis un tiks veikta galīgā prognoze, kamēr modelis mēģina labot iepriekš pieļautās kļūdas. Vairāki modeļi tiks izveidoti līdzīgā veidā, katrs izlabojot iepriekšējās kļūdas
  • Galīgā prognoze tiks veikta no galīgā modeļa, kas ir visu modeļu vidējais svērtais lielums.
  Kas tas ir un kāpēc tas ir nepieciešams jūsu uzņēmumam

Populāri pastiprināšanas algoritmi ir:

  • CatBoost
  • Viegls GBM
  • AdaBoost

Pastiprināšanas priekšrocība ir tāda, ka tā ģenerē izcilas prognozes un samazina novirzes dēļ kļūdas.

Citas ansambļa tehnikas

Ekspertu sajaukums: to izmanto, lai apmācītu vairākus klasifikatorus, un to izvadi ir apvienoti ar vispārīgu lineāru noteikumu. Šeit kombinācijām dotos svarus nosaka trenējams modelis.

Vairākuma balsošana: tā ietver nepāra klasifikatora izvēli, un prognozes tiek aprēķinātas katram paraugam. Klase, kas saņems maksimālo klasi no klasifikatora kopas, būs prognozētā ansambļa klase. To izmanto tādu problēmu risināšanai kā binārā klasifikācija.

Maksimālais noteikums: tas izmanto katra klasifikatora varbūtības sadalījumu un izmanto pārliecību, veidojot prognozes. To izmanto vairāku klašu klasifikācijas problēmām.

Ansambļa apmācības reāli lietošanas gadījumi

#1. Sejas un emociju noteikšana

Ansambļa mācīšanās izmanto tādas metodes kā neatkarīga komponentu analīze (ICA), lai veiktu sejas noteikšanu.

Turklāt ansambļa mācīšanās tiek izmantota, lai noteiktu personas emocijas, izmantojot runas noteikšanu. Turklāt tā iespējas palīdz lietotājiem veikt sejas emociju noteikšanu.

#2. Drošība

Krāpšanas atklāšana: ansambļa mācīšanās palīdz uzlabot normālas uzvedības modelēšanas jaudu. Tāpēc tas tiek uzskatīts par efektīvu krāpniecisku darbību atklāšanā, piemēram, kredītkaršu un banku sistēmās, telekomunikāciju krāpšanu, naudas atmazgāšanu utt.

DDoS: Izkliedētais pakalpojuma atteikums (DDoS) ir nāvējošs uzbrukums interneta pakalpojumu sniedzējam. Ansambļu klasifikatori var samazināt kļūdu noteikšanu un arī atšķirt uzbrukumus no patiesas trafika.

Ielaušanās noteikšana: ansambļa apmācību var izmantot uzraudzības sistēmās, piemēram, ielaušanās noteikšanas rīkos, lai atklātu ielaušanās kodus, uzraugot tīklus vai sistēmas, atrodot anomālijas utt.

Ļaunprātīgas programmatūras noteikšana: ansambļa mācīšanās ir diezgan efektīva, lai atklātu un klasificētu ļaunprātīgas programmatūras kodu, piemēram, datorvīrusus un tārpus, izspiedējvīrusus, Trojas zirgus, spiegprogrammatūru utt., izmantojot mašīnmācīšanās metodes.

#3. Inkrementālā mācīšanās

Inkrementālajā apmācībā ML algoritms mācās no jaunas datu kopas, saglabājot iepriekšējos datus, bet nepiekļūstot iepriekšējiem datiem, ko tas ir redzējis. Ansambļu sistēmas tiek izmantotas pakāpeniskā apmācībā, liekot tām apgūt pievienoto klasifikatoru katrā datu kopā, tiklīdz tā kļūst pieejama.

#4. Medicīna

Ansambļu klasifikatori ir noderīgi medicīniskās diagnostikas jomā, piemēram, neirokognitīvo traucējumu (piemēram, Alcheimera slimības) noteikšanā. Tas veic noteikšanu, izmantojot MRI datu kopas kā ievadi un klasificējot dzemdes kakla citoloģiju. Bez tam to izmanto proteomikā (olbaltumvielu pētījumos), neirozinātnēs un citās jomās.

#5. Tālvadība

Izmaiņu noteikšana: ansambļa klasifikatori tiek izmantoti, lai veiktu izmaiņu noteikšanu, izmantojot tādas metodes kā Bajesa vidējā un vairākuma balsošana.

Zemes seguma kartēšana. Lai efektīvi noteiktu un kartētu zemes segumu, tiek izmantotas ansambļa mācīšanās metodes, piemēram, paaugstināšana, lēmumu koki, kodola galveno komponentu analīze (KPCA) utt.

#6. Finanses

Precizitāte ir būtisks finanšu aspekts neatkarīgi no tā, vai tas ir aprēķins vai prognozēšana. Tas ļoti ietekmē jūsu pieņemto lēmumu rezultātus. Tie var arī analizēt izmaiņas akciju tirgus datos, atklāt manipulācijas ar akciju cenām un daudz ko citu.

Papildu mācību resursi

#1. Ansambļa metodes mašīnmācībai

Šī grāmata palīdzēs apgūt un ieviest svarīgas ansambļa mācīšanās metodes no nulles.

#2. Ansambļa metodes: pamati un algoritmi

Šajā grāmatā ir ansambļa mācīšanās pamati un tās algoritmi. Tajā ir arī izklāstīts, kā tas tiek izmantots reālajā pasaulē.

#3. Ansambļa mācības

Tas piedāvā ievadu vienotā ansambļa metodē, izaicinājumiem, pielietojumiem utt.

#4. Ansambļa mašīnmācīšanās: metodes un pielietojumi:

Tas nodrošina plašu progresīvu ansambļa mācību metožu pārklājumu.

Secinājums

Es ceru, ka tagad jums ir kāds priekšstats par ansambļa mācīšanos, tās metodēm, lietošanas gadījumiem un to, kāpēc tā izmantošana var būt noderīga jūsu lietošanas gadījumā. Tas var atrisināt daudzas reālās dzīves problēmas, sākot no drošības un lietotņu izstrādes līdz finansēm, medicīnai un citiem. Tā izmantošanas iespējas paplašinās, tāpēc, visticamāk, tuvākajā nākotnē šī koncepcija tiks uzlabota.

Varat arī izpētīt dažus sintētisko datu ģenerēšanas rīkus, lai apmācītu mašīnmācīšanās modeļus