Pandas łączą się w wielu kolumnach

Pandas łączą się w wielu kolumnach
Pandy to zasadniczo pakiet Python, który jest często używany do pracy z kolekcjami danych. Jest to open source, które można wykorzystać w dokładnych zadaniach uczenia maszynowego. Dodatkowo obsługiwane są wielowymiarowe tablice. Głównymi cechami pandy są wyrównanie danych i przekształcanie zestawu danych. Można go skonstruować na szczycie języka programowania Pythona używanego z open source.

Scal w metodzie kolumny Multiple ()

Istnieją różne techniki obsługi zestawów danych. Metoda scalania jest jednym z nich. Wiele kolumn z dwóch lub więcej dwóch ram danych można połączyć, aby utrzymać dane w dobry sposób. Ilekroć musimy scalić dwie pandasframe w wielu kolumnach, używamy „pandy.Metoda scal () ”. Jest to skuteczny sposób dla naukowca danych, ponieważ może to zaoszczędzić czas na utrzymanie bazy danych. Aby poprawić wierność kodu, musimy połączyć nasze struki danych w pandy, ponieważ dwie obramy danych mogą mieć różne rodzaje informacji o tym samym elemencie i mogą mieć poważne równe segmenty.

W naszym artykule przyjrzymy się, w jaki sposób możemy scalić wiele kolumnów danych danych za pomocą „Pandy.Metoda scal () ”. Jeśli chcemy połączyć zestawy danych danych bez żadnej kolumny klucza, łączy wszystkie wspólne kolumny w ramce danych. Ale zastępuje każdą wspólną kolumnę pojedynczą kolumną z obu zestawów danych.

Składnia:

Przykład 1: Wyświetlanie metody scal () na wielu kolumnach z podobną kolumną w pandach dwóch ramek danych

Tutaj patrzymy na połączenie wielu kolumn w ramach danych. Rzadko używamy techniki „scalania” do połączenia dwóch ram danych. Teraz tworzymy nasze dwie kompozycje danych. Najpierw importujemy pandy typu open source jako „KD”. Następnie tworzymy naszą pierwszą ramkę danych przy użyciu „KD.DataFrame ”i nazwał go„ CD1 ”, który deklaruje trzy zmienne, które są„ M ”,„ K ”i„ A ”.

Zasadniczo „M”, „K” i „A” to trzy kolumny „CD1” DataFrame. Wartości przypisane do zmiennej kolumny „M” to „10”, „10”, „20”, „20” i „30”. Wartości przypisane do „K” to „10”, „10”, „20”, „20” i „20”. Wartości przypisane do zmiennej „A” to „130”, „90”, „120”, „50” i „50”. Tutaj tworzono naszą pierwszą „CD1” „CD1”. Teraz przejdź do drugiej ramki danych, która nazywa się „CD2”, która ma trzy kolumny, deklarując trzy zmienne „M”, „K” i „N”. Wartości przypisane do „M” to „10”, „20”, „20”, „20” i „30”. Wartości przypisane do zmiennej „K” to „10”, „10”, „10” „20” i „20”. A przypisane wartości „N” to „150”, „160”, „170”, „180” i „130”. Tutaj tworzono naszą „CD2”.

Teraz dochodzimy do naszej głównej funkcji „KD.merge () ”, które zastosowaliśmy do scalania wielu kolumn naszej strumienia danych. Tutaj stosujemy parametr „lewy” do naszych kolumn „M” i „K”, ponieważ są one podobne w obu ramach danych. Następnie po prostu stosujemy naszą funkcję „print ()”, aby wyświetlić „scalanie” dwóch kolumn. W tym przykładzie omawiamy „scalanie” dwóch kolumn w „CD1” i „CD2” z podobnymi kolumnami, które są „M” i „K”. Po prostu łączy obie podobne kolumny różnych ramek danych.

Teraz omawiamy dane wyjściowe naszego kodu. Pierwsza kolumna, która zaczyna się od „0” do „4” to liczby indeksu. Ponieważ kolumna „M” jest podobna w obu ramach danych, jest scalona i wyświetlana raz z wartościami „10”, „10”, „20”, „20” i „30”. Następnie następna wyświetlona kolumna to „K”, która jest również podobną kolumną. Jest również scalany i pokazany tylko raz wraz z danymi „10”, „10”, „20”, „20” i „20”. Różne kolumny obu ramek danych to „A” i „N”, które są wyświetlane wzdłuż nich. Wartości tej podobnej kolumny „A” to „130”, „90”, „120”, „50” i „50”. Ostatnia kolumna wyświetlana na wyjściu to „N” wraz z danymi, które to „150”, „150”, 180 ”,„ 180 ”i„ 130 ”.

Podobne kolumny są scalone po lewej stronie z powodu zastosowania metody „lewej”. Reszta kolumn nie-common jest domyślnie wyświetlana po prawej stronie. Ponieważ kolumny „M” i „K” były podobne w obu ramach danych, można je wyświetlić raz na wyjściu po wdrożeniu „Pandy.Metoda merge () ”wraz z pozostałymi kolumnami„ A ”i„ N ”.

Przykład 2: Wyświetlanie merge () na wielu kolumnach o różnych nazwach w dwóch ramach danych

Teraz omawiamy scalanie wielu kolumn o różnych nazwach kolumn w tym przykładzie. W takim przypadku importujemy bibliotekę pandy jako „FB”. Przede wszystkim tworzymy nasze ramki danych jako „PK1” i „PK2”. „PK1” deklaruje trzy nazwy zmiennych, które są „podmiotami”, „ładunkami” i „time_period”, które działają jako kolumny. Wartości przechowywane w „tematach” to „Web”, „Gramatyka”, „Social”, „Electronic” i „ICT”. Wartości danych przechowywane w kolumnie „ładunki” to „10000”, „20000”, „30000”, „40000” i „50000”. Ostatnia kolumna „PK1” jest „Time_period”, która przechowuje wartości „4HRS”, „5HRS”, „6HRS”, „5.5hrs ”i„ 5 godzin ”.

Druga ramka danych o nazwie „PK2” ma trzy kolumny, które są „podmiotami”, „ładunkami” i „percentyl”. Wartość, którą przypisujemy „podmiotom” to „ICT”, „Gramatyka”, „Social”, „Electronic” i „Baza danych”. W drugiej kolumnie „ładunki” DataFrame przypisujemy wartości „10000”, „20000”, „30000”, „40000” i „50000”. Ostatnia kolumna „percentyl” przechowuje wartości, które wynoszą „5%”, „10%”, „20%”, „10%” i ​​„5%”. Po utworzeniu ramek danych po prostu wyświetlamy je za pomocą funkcji „print ()”.

Po utworzeniu naszych danych danych stosujemy implementację „Pandy.funkcja scal () ”. Scalamy pierwszą ramkę danych „PK1” wraz z drugą strumieniem danych „PK2”. Tutaj chcemy połączyć różne kolumnyFrame DataFrame, więc używamy parametrów „left_on” i „prawy_on”. Używamy tych parametrów w kolumnie „podmiotów” obu ramek danych. Następnie obiefamy danych są scalone, a po prostu wyświetlamy go według funkcji „print ()”.

Teraz spójrz na nasze wyjście odpowiedniego kodu. Jak widać na naszym wyświetlaczu wyjściowym od pierwszego indeksu „0” do „4”, wyświetla naszą pierwszą ramkę danych „PK1” pierwszych kolumn „Tematy” zawierające „Web”, „Grammar”, „Social”, „Social”, „Social” , „Elektroniczny” i „ICT”. Druga kolumna „ładunki” zawiera wartości liczbowe „10000”, „20000”, „30000”, „40000” i „50000. Trzecia kolumna „TIME_PERIOD” zawiera wartości „4Hrs”, „5hrs”, „6hrs”, „5.5hrs ”i„ 5 godzin ”.

Następnie wyświetla dane „PK2”, która zawiera również trzy kolumny: „podmioty”, „ładunki” i „percentyl”. Kolumna „podmiot” wyświetla „ICT”, „Grammer”, „Social”, „Electronic” i „Baza danych”. Kolumna „ładunków” wyświetla swoje wartości „10000”, „20000”, „30000”, „40000” i „50000”. Trzecia kolumna „percentyl” wyświetla dane „5%”, „10%”, „20%”, „10%” i ​​„5%”.

W końcu, po zastosowaniu „Pandy.funkcja merge () ”, łączy dane obu ramek. Domyślnie łączy kolumnę „podmiot” obu ramek danych o podobnych wartościach i wyświetla je wraz z wieloma różnymi kolumnami obu ramek danych. Po scalaniu obu ram danych wyświetlamy pięć różnych kolumn scalonych, które są „podmiotami”, „Charges_X”, „Time_period”, „Charges_Y” i „Percentyl” wraz ze wszystkimi przypisanymi danymi, które przypisujemy dane, które przypisujemy.

Wniosek

Opisaliśmy, jak połączyć wiele kolumn w tym artykule. Omówiliśmy to przy użyciu przykładów scalania dwóch ram danych zawierających zarówno podobne, jak i różne kolumny. Aby połączyć podobne kolumny, używamy po prostu prostego „KD.funkcja merge () ”i domyślnie łączy podobną kolumnę. Aby połączyć różne kolumny, używamy „FB.Merge () ”wraz z parametrami„ Left_on ”i„ Right_on ”.