Klassifikatsiooni ja regressiooni erinevus

2019

Klassifikatsioon ja regressioon on kaks peamist prognoosimisprobleemi, mida tavaliselt käsitletakse andmekaevanduses. Ennustav modelleerimine on mudeli või funktsiooni väljatöötamise tehnika, kasutades uusi andmeid ennustavate ajalooliste andmete abil. Oluline erinevus klassifikatsiooni ja regressiooni vahel on see, et liigitamine kaardistab sisendandmete objekti mõne diskreetse sildiga. Teisest küljest kaardistab regressioon sisendandmete objekti pidevatele reaalsetele väärtustele.

Võrdluskaart

Võrdluse alus	Klassifikatsioon	Regressioon
Põhiline	Mudeli või funktsioonide avastamine, kus objektide kaardistamine toimub eelnevalt määratletud klassidesse.	Välja töötatud mudel, kus objektide kaardistamine toimub väärtustena.
See hõlmab ennustamist	Diskreetsed väärtused	Pidevad väärtused
Algoritmid	Otsustuspuu, logistiline regressioon jne	Regressioonipuu (juhuslik mets), lineaarne regressioon jne.
Prognoositavate andmete laad	Järjestamata	Tellitud
Arvutusmeetod	Täpsuse mõõtmine	Keskmine ruutvea mõõtmine

Klassifikatsiooni määratlus

Klassifikatsioon on mudeli (funktsiooni) leidmise või avastamise protsess, mis aitab andmeid eraldada erinevatesse kategooriatesse. Klassifitseerimisel tuvastatakse probleemi grupi liikmelisus, mis tähendab, et andmed liigitatakse erinevate etikettide kaupa vastavalt mõningatele parameetritele ja seejärel märgistatakse andmed etikettide jaoks.

Saadud mudeleid saab näidata “IF-THEN” reeglite, otsustuspuude või närvivõrkude kujul jne. Otsustuspuu on põhimõtteliselt vooskeem, mis sarnaneb puustruktuurile, kus iga sisemine sõlm kujutab atribuudi testi, ja selle harud näitavad testi tulemusi. Klassifitseerimisprotsess tegeleb probleemidega, kus andmeid saab jagada kaheks või enamaks diskreetseks märgistuseks, teisisõnu kaheks või enamaks lahutatud komplektiks.

Võtame näiteks, oletame, et tahame mõningates piirkondades mõningate parameetrite alusel vihma võimalust ennustada. Siis oleks kaks märgist vihma ja vihma puudumise all, mille alusel saab eri piirkondi klassifitseerida.

Regressiooni mõiste

Regressioon on protsess, mille käigus leitakse mudel või funktsioon andmete eristamiseks pidevateks reaalseteks väärtusteks klasside kasutamise asemel. Matemaatiliselt püütakse regressiooniprobleemiga leida funktsiooni ühtlustamise minimaalse veahälbega. Regressioonis ennustatakse andmete numbrilist sõltuvust.

Regressioonanalüüs on statistiline mudel, mida kasutatakse numbriliste andmete ennustamiseks siltide asemel. Samuti võib see tuvastada jaotusliikumise sõltuvalt olemasolevatest andmetest või ajaloolistest andmetest.

Võtame samasuguse näite ka regressioonis, kus leiame mõningate konkreetsete piirkondade juures vihmavõimaluse mõne parameetri abil. Sel juhul on vihma puhul tõenäosus. Siin me ei klassifitseeri piirkondi vihma ja vihmamärgiste vahel, vaid klassifitseerime neid nendega seotud tõenäosusega.

Peamised erinevused klassifikatsiooni ja regressiooni vahel

Klassifitseerimisprotsess modelleerib funktsiooni, mille kaudu ennustatakse andmeid diskreetsete klassi siltidega. Teisest küljest on regressioon protsess, mis loob pideva koguse prognoosiva mudeli.
Klassifitseerimisalgoritmid hõlmavad otsustuspuud, logistilist regressiooni jne. Regressioonipuu (nt Random mets) ja lineaarne regressioon on regressioonialgoritmide näited.
Klassifikatsioon ennustab järjestamata andmeid, samas kui regressioon ennustab tellitud andmeid.
Regressiooni saab hinnata, kasutades ruutkeskviga. Vastupidi, klassifitseerimist hinnatakse täpsuse mõõtmise teel.

Järeldus

Klassifitseerimise meetod annab ennustava mudeli või funktsiooni, mis ennustab uusi andmeid diskreetsetes kategooriates või etikettides ajalooliste andmete abil. Seevastu regressioonimeetodil on pideva väärtusega funktsioonid, mis tähendab, et see ennustab andmeid pidevates numbriandmetes.