Kildeinputdata (SID) er de data, du vil bruge som input til din model. Dette kan være enhver form for data, herunder:
* strukturerede data: Denne type data gemmes i et struktureret format, såsom et regneark eller database.
* Ustrukturerede data: Denne type data gemmes ikke i et struktureret format, såsom tekst eller billeder.
SID kan komme fra forskellige kilder, herunder:
* Interne data: Disse data genereres i din organisation og gemmes typisk i en database eller enterprise ressourceplanlægning (ERP) -system.
* Eksterne data: Disse data genereres uden for din organisation og kan findes på nettet, på sociale medier eller i regeringsdatabaser.
Kvaliteten af din SID er kritisk for succesen med din model. Dårlige data vil føre til dårlige resultater. Derfor er det vigtigt at tage sig tid til at rengøre og forberede din SID, før du bruger den til modellering.
Her er nogle tip til at forberede din SID:
* Rengør dine data: Dette involverer at fjerne eventuelle duplikat- eller fejlagtige data.
* standardiser dine data: Dette involverer konvertering af alle dine data til et konsistent format.
* Beriger dine data: Dette involverer tilføjelse af yderligere data til dit SID, såsom demografiske oplysninger eller vejrdata.
Når du har forberedt dit SID, kan du begynde at bruge det til at bygge din model.