Pandas łączą dwie kompozycje danych

Makary Stasiak

Informacje, których potrzebujemy często pojawiają się w wielu źródłach w rzeczywistych scenariuszach. Aby ocenić statystyki, często wymagamy integracji wielu plików w jednym jednolitym ramie danych. Za pomocą pandy można szybko połączyć serię, a także ramkę danych z różnymi typami predefiniowanej logiki dla indeksów plus relacyjne możliwości algebry dla funkcji łączenia i scalania. Ponadto pandy mają narzędzia, które pozwalają porównać dwie serie lub struki danych i wymienić wszelkie wariancje. Możesz wymagać połączenia danych za pomocą różnych podejść. Na przykład możesz połączyć zestawy danych, aby je scolić. Połączenie zestawów danych można wykonać w różnych metodach.

Działania związane z osi są obsługiwane metodą Concat () i wykonywana jest również dodatkowa logika ustawienia dla wskaźników na sąsiednich płaszczyznach. Musimy rozważyć pewne wybory podczas połączenia lub dołączania ram danych. Takie wybory mogą obejmować takie rzeczy, jeśli chcemy zachować oryginalne wskaźniki, dodać bardziej korzystne klucze i więcej.

Wykorzystanie metody konatenatu pandy wymaga następującej składni:

Mamy do dyspozycji obciążenie licznych ustawień z tą metodą w celu dalszego dostosowania połączenia danych. Niekoniecznie będziesz musiał całkowicie zrozumieć każdy z nich, aby poruszać się. Niemniej jednak ważne jest, aby być świadomym ich istnienia, a także tego, co działają.

PRZYKŁAD 1: Konatenatowanie podobnych kolumn dwóch ram danych przy użyciu funkcji konatenatu pandy

Najprostszym i najłatwiejszym przykładem na początek jest połączenie tych samych kolumn dwóch różnych ramek danych.

Jak wiemy, praca z modułem Pythona Pandas wymaga importu biblioteki pandas. Tak więc rozpoczynamy praktyczną implementację przykładowych kodów, importując bibliotekę pandy w Python jako PD.

Po zakończeniu jesteśmy teraz gotowi do rozpoczęcia pracy nad naszym głównym scenariuszem, ponieważ funkcje panda są obecnie dla nas dostępne.

Następnie tworzymy nasze podstawowe ramy danych. Potrzebujemy tutaj dwóch ramek danych, ponieważ musimy wykonać połączenie.

Zmienne „D1” i „D2” zostały wygenerowane i pokazano w podanym przykładzie. Wykorzystaliśmy funkcję Pandas DataFrame do konstruowania ramek danych. PD.Metoda dataFrame () jest wywoływana. Wewnątrz jego aparatów ortodontycznych daliśmy 2 wartości - id i nazwę. Przypisane są wartości dla obu kolumn z ramek danych. Zastosowaliśmy metodę do wyświetlania zarówno DataFrame D1, jak i D2.

Poniższy obraz wyjściowy pokazuje 2Frame DataFrame z tymi samymi kolumnami:

Z powodzeniem stworzyliśmy nasze ramki danych. Następnym krokiem jest ich połączenie. W tym celu stosujemy metodę konatenate pandy - PD.Połączenie (). Ta metoda łączy dane tych samych kolumn zarówno z ramek danych D1, jak i D2.

Skonstruowaliśmy zmienną „con_output”, która przechowuje wynik wywoływania PD.funkcja conat (). Musisz tylko dostarczyć PD.concat () funkcja z obiektami, które chcesz połączyć, aby lista zmiennych można po prostu przekazać. Biorąc to pod uwagę, możemy wejść do [D1, D2]. Upewnij się, że jeśli bezpośrednio umieszczasz listę w PD.funkcja CONKate (), musisz użyć nawiasów „[]”. W przeciwnym razie podaje błąd. Wzywamy metodę print () i pomijamy ją zmienną „con_output”, aby wyświetlać wszystko, co w niej zapisaliśmy.

Połączone ramki danych zawierające podobne kolumny są uzyskiwane przez uruchamianie wyżej wspomnianego programu.

Ramy danych są scalone tak, jak były, ponieważ nie włożyliśmy żadnych parametrów. Z powodu tych czynników uwzględniono ustawienia wskaźników rzeczywistych. Indeks może czasami wymagać korekty. Do tego można wykorzystać parametr Ignorore = PARATE.

W wyniku, indeksy są zmieniane, zaczynając od 0, idąc aż do punktu końcowego rozmiaru. Zmodyfikowane wartości indeksu pokazano w poniższej migawce:

PRZYKŁAD 2: Konatenatuj różne kolumny dwóch ramek danych przy użyciu funkcji połączonej pand z parametrem połączenia

Dołączamy sobie nawzajem, pionowo, aby je połączyć. Wykorzystanie kolumn z każdego zestawu danych, które mają podobne wartości, takie jak udostępniony unikalny identyfikator, jest kolejną metodą łączenia ramek danych. „Łączenie” to proces scalania ram danych poprzez wykorzystanie wspólnego pola. „Kluczowe klucze” odnosi się do kolumn zawierających udostępnione dane. Ta metoda łączenia ram danych jest często korzystna, w której komputer danych służy jako „tabela wyszukiwania” dla dodatkowej treści, którą zamierzamy zintegrować w drugiej tabeli. Identyczne jak podłączamy tabele w relacyjnej bazie danych, ta metoda łączy wiele zestawów danych.

Posiadasz elastyczność w sposób traktowania dodatkowych osi, ilekroć łączymy wiele ram danych, z wyłączeniem tego, który się łączy.

Istnieją dwa podejścia do osiągnięcia tego. Pierwszym podejściem jest wejście do łączenia = „zewnętrznego” w celu uzyskania kombinacji wszystkich tych wszystkich. Wspomniane ustawienie jest ustawieniem domyślnym, ponieważ żadne dane są zagrożone. Drugą strategią jest uwzględnienie przejścia z łącznikiem = „wewnętrzny”.

Rozważmy następującą ilustrację:

Tutaj utworzyliśmy dwie struki danych z różnymi kolumnami. Pierwsza „D1” „D1” składa się z 2 kolumn - id i nazwy. Podczas gdy druga „D3” ma 2 kolumny - miasto i wiek. Stworzyliśmy zmienną „wynik” do przechowywania wyjścia wywołania PD.funkcja conat ().

Pomiędzy nawiasami funkcji konatenatu pandy, określiliśmy nazwę ram danych jako D1 i D3. Ostateczny wiersz skryptu wywołuje metodę print ().

To daje nam następujące dane wyjściowe:

Dwie ramki danych w wspomnianej wcześniej instancji są scalone. Niemniej jednak, ponieważ niektóre kolumny były nieobecne w obu ramach danych, zostały dostarczone przy użyciu pustych wpisów. Wpisy te są wstawiane, ponieważ domyślna wartość argumentu „dołącz =” jest „zewnętrzna”, co wyjaśnia ich włączenie. W rezultacie wszystkie dane wśród podmiotów są zachowywane.

„Wewnętrzne” to inny realny argument za metodą.

W tym przypadku wykorzystaliśmy argumenty „dołącz” i „osi”. W przypadku argumentu „dołącz” umieszczamy wartość „wewnętrzną”, podczas gdy dla argumentu „Oś” jest ustawiony na „1”. „Oś” to oś, którą łączymy nasze ramki danych. Domyślnie jest ustawiony na 0. Dodatkowe kolumny są wprowadzane, jeśli istnieje wymóg zwiększenia liczby obiektów na osi = 1. PD.concat () domyślnie wykonuje zewnętrzne połączenie na rzędach. Teraz zmieniliśmy wartości domyślne, aby wykonał kolumnowe wskaźniki wewnętrzne w ramach danych do konkatenacji.

Wyjście, które otrzymujemy z wcześniej wykonanego kodu, pokazano następująco:

Wniosek

Ta dyskusja koncentrowała się na funkcji konatenatu pandy. Podaliśmy szczegółowe wprowadzenie do funkcji konatenatu panda i potrzeba zastosowania tej metody. Składnia do stosowania tej techniki jest podawana na początku, a wszystkie parametry, których można użyć w tej funkcji, są zidentyfikowane. Opracowaliśmy połączenie dwóch ram danych z praktyczną demonstracją przykładowych kodów. Łączenie tych samych kolumn różnych ramek danych, a także łączenie ramki danych z różnymi kolumnami, wyjaśniono w tym piśmie. Nauka pracy z panami.Funkcja conat () uwzględnia Cię w obsłudze i analizie danych.

Pyton

Python OS Mkdir

„OS.Mkdir () ”Metoda modułu„ OS ”służy do utworzenia pojedynczego katalogu, wielu katalogów i zagnie...

Larysa Witczak

Pyton

Pandas read_csv multiprocessing

W celu poprawy prędkości ładowania danych, w tym ich korzyści i ograniczeń „PD.Funkcja read_csv () ”...

Oliwia Makowski

Doker

Jaki jest cel kompozycji dokera.plik YML w Docker?

Główny cel „kompozycji dokera.plik YML ”ma uprościć proces wdrażania i zarządzania aplikacjami Docke...

Bertram Jóźwiak