Cuprins:
- Cum se utilizează îmbinarea pentru a găsi intersecția datelor
- Înțelegerea diferitelor tipuri de îmbinare
- Cum să găsim uniunea (întregul exterior exterior)
Video: Revealing the True Donald Trump: A Devastating Indictment of His Business & Life (2016) 2025
În R utilizați funcția merge () pentru a combina cadrele de date. Această funcție puternică încearcă să identifice coloanele sau rândurile care sunt comune între cele două cadre diferite de date.
Cum se utilizează îmbinarea pentru a găsi intersecția datelor
Cea mai simplă formă de îmbinare () găsește intersecția dintre două seturi diferite de date. Cu alte cuvinte, pentru a crea un cadru de date care constă din acele stări atât de reci, cât și de mari, utilizați versiunea implicită a îmbinării ():
îmbinare (state rece, state mari) Nume Frost Area 1 Alaska 152 566432 2 Colorado 166 103766 3 Montana 155 145587 4 Nevada 188 109889
Dacă sunteți familiarizat cu o bază de date limbaj, cum ar fi SQL, este posibil să fi ghicit că fuzionarea () este foarte asemănătoare cu cea a unei baze de date. Acesta este, într-adevăr, cazul și diferitele argumente pentru a fuziona () vă permit să realizați legături naturale, precum și legături stânga, drepte și complete.
Funcția merge () are un număr destul de mare de argumente. Aceste argumente pot părea destul de intimidante până când îți dai seama că formează un număr mai mic de argumente conexe:
-
x : Un cadru de date.
-
y : Un cadru de date.
-
de , de către. x , de către. y : Numele coloanelor care sunt comune atât pentru x cât și pentru y. Implicit este utilizarea coloanelor cu nume comune între cele două cadre de date.
-
toate, toate. x, toate. y : Valorile logice care specifică tipul de îmbinare. Valoarea implicită este all = FALSE (ceea ce înseamnă că numai rândurile de potrivire sunt returnate).
Ultimul grup de argumente - toate, toate. x și toate. y - merită o explicație. Aceste argumente determină tipul de îmbinare care se va întâmpla.
Înțelegerea diferitelor tipuri de îmbinare
Funcția de îmbinare () permite patru moduri de combinare a datelor:
-
Intrare naturală: Pentru a păstra numai rânduri care se potrivesc din cadrele de date, specificați argumentul = FALSE.
-
Intrarea totală exterioară: Pentru a păstra toate rândurile din ambele cadre de date, specificați toate = TRUE.
-
Alăturarea exterioară stângă: Pentru a include toate rândurile cadrului de date x și numai cele de la y care se potrivesc, specificați toate. x = TRUE.
-
Alăturarea exterioară dreaptă: Pentru a include toate rândurile cadrului de date y și numai cele de la x care se potrivesc, specificați toate. y = TRUE.
Cum să găsim uniunea (întregul exterior exterior)
Revenind la exemplele statelor americane, pentru a efectua o îmbinare completă a stărilor la rece și mari, folosiți îmbinarea și specificați toate = TRUE: >> merge stările mari, toate = TRUE) Nume Frost Area 1 Alaska 152 566432 2 Arizona NA 113417 3 California NA 156361 … 13 Texas NA 262134 14 Vermont 168 NA 15 Wyoming 173 NA
Ambele cadre de date au un nume variabil, deci R corespunde cazurilor bazate pe numele statelor.Variabila Frost provine din cadrul de date rece. state, iar zona variabilă vine din cadrul de date mare. state.
Rețineți că aceasta efectuează îmbinarea completă și umple coloanele cu valori NA unde nu există date potrivite.