Võrdluskaart
Võrdluse alus | Klassifikatsioon | Regressioon |
---|---|---|
Põhiline | Mudeli või funktsioonide avastamine, kus objektide kaardistamine toimub eelnevalt määratletud klassidesse. | Välja töötatud mudel, kus objektide kaardistamine toimub väärtustena. |
See hõlmab ennustamist | Diskreetsed väärtused | Pidevad väärtused |
Algoritmid | Otsustuspuu, logistiline regressioon jne | Regressioonipuu (juhuslik mets), lineaarne regressioon jne. |
Prognoositavate andmete laad | Järjestamata | Tellitud |
Arvutusmeetod | Täpsuse mõõtmine | Keskmine ruutvea mõõtmine |
Klassifikatsiooni määratlus
Klassifikatsioon on mudeli (funktsiooni) leidmise või avastamise protsess, mis aitab andmeid eraldada erinevatesse kategooriatesse. Klassifitseerimisel tuvastatakse probleemi grupi liikmelisus, mis tähendab, et andmed liigitatakse erinevate etikettide kaupa vastavalt mõningatele parameetritele ja seejärel märgistatakse andmed etikettide jaoks.
Saadud mudeleid saab näidata “IF-THEN” reeglite, otsustuspuude või närvivõrkude kujul jne. Otsustuspuu on põhimõtteliselt vooskeem, mis sarnaneb puustruktuurile, kus iga sisemine sõlm kujutab atribuudi testi, ja selle harud näitavad testi tulemusi. Klassifitseerimisprotsess tegeleb probleemidega, kus andmeid saab jagada kaheks või enamaks diskreetseks märgistuseks, teisisõnu kaheks või enamaks lahutatud komplektiks.
Võtame näiteks, oletame, et tahame mõningates piirkondades mõningate parameetrite alusel vihma võimalust ennustada. Siis oleks kaks märgist vihma ja vihma puudumise all, mille alusel saab eri piirkondi klassifitseerida.
Regressiooni mõiste
Regressioon on protsess, mille käigus leitakse mudel või funktsioon andmete eristamiseks pidevateks reaalseteks väärtusteks klasside kasutamise asemel. Matemaatiliselt püütakse regressiooniprobleemiga leida funktsiooni ühtlustamise minimaalse veahälbega. Regressioonis ennustatakse andmete numbrilist sõltuvust.
Regressioonanalüüs on statistiline mudel, mida kasutatakse numbriliste andmete ennustamiseks siltide asemel. Samuti võib see tuvastada jaotusliikumise sõltuvalt olemasolevatest andmetest või ajaloolistest andmetest.
Võtame samasuguse näite ka regressioonis, kus leiame mõningate konkreetsete piirkondade juures vihmavõimaluse mõne parameetri abil. Sel juhul on vihma puhul tõenäosus. Siin me ei klassifitseeri piirkondi vihma ja vihmamärgiste vahel, vaid klassifitseerime neid nendega seotud tõenäosusega.
Peamised erinevused klassifikatsiooni ja regressiooni vahel
- Klassifitseerimisprotsess modelleerib funktsiooni, mille kaudu ennustatakse andmeid diskreetsete klassi siltidega. Teisest küljest on regressioon protsess, mis loob pideva koguse prognoosiva mudeli.
- Klassifitseerimisalgoritmid hõlmavad otsustuspuud, logistilist regressiooni jne. Regressioonipuu (nt Random mets) ja lineaarne regressioon on regressioonialgoritmide näited.
- Klassifikatsioon ennustab järjestamata andmeid, samas kui regressioon ennustab tellitud andmeid.
- Regressiooni saab hinnata, kasutades ruutkeskviga. Vastupidi, klassifitseerimist hinnatakse täpsuse mõõtmise teel.
Järeldus
Klassifitseerimise meetod annab ennustava mudeli või funktsiooni, mis ennustab uusi andmeid diskreetsetes kategooriates või etikettides ajalooliste andmete abil. Seevastu regressioonimeetodil on pideva väärtusega funktsioonid, mis tähendab, et see ennustab andmeid pidevates numbriandmetes.