본문 바로가기
카테고리 없음

"파이썬 Pandas 데이터프레임: 효율적인 데이터 조작 및 분석을 위한 핵심 기능"

by 뷰티풀스택 2023. 7. 9.
반응형

Pandas DataFrame은 Python 언어에서 가장 인기 있는 데이터 분석 도구 중 하나입니다. DataFrame은 행과 열이 있는 테이블 형식의 데이터 구조로, 표 형태의 데이터를 다루는 데 사용됩니다. 이 데이터 구조는 주로 데이터 정렬, 데이터 필터링, 컬럼 생성, 결측값 처리 등 다양한 데이터 작업에 사용됩니다.

 

먼저, Pandas 라이브러리를 설치하고 임포트해야 합니다. 다음은 Pandas를 사용하여 DataFrame을 생성하는 기본 예제 코드입니다:

 

```python

import pandas as pd

 

# Dictionary를 사용하여 DataFrame 생성

data = {'Name': ['John', 'Emma', 'Peter', 'Olivia'],

        'Age': [28, 24, 33, 29],

        'City': ['Seoul', 'New York', 'London', 'Paris']}

df = pd.DataFrame(data)

 

print(df)

```

 

위 코드에서는 사전(Dictionary) 형태의 데이터를 사용하여 DataFrame을 생성합니다. 해당 데이터는 'Name', 'Age', 'City' 컬럼을 가진 4개의 행으로 구성됩니다. `pd.DataFrame(data)`를 호출하여 데이터를 DataFrame으로 변환하고, `print(df)`를 사용하여 DataFrame을 출력합니다.

 

DataFrame은 다양한 기능을 제공합니다. 예를 들어, 데이터 정렬은 `sort_values()` 메서드를 사용하여 열 기준으로 정렬할 수 있습니다:

 

```python

df_sorted = df.sort_values('Age', ascending=False)

print(df_sorted)

```

 

위 코드에서는 'Age' 컬럼을 기준으로 내림차순으로 DataFrame을 정렬합니다. 이러한 작업을 통해 가장 나이가 많은 사람부터 가장 어린 사람까지 정렬된 결과를 얻을 수 있습니다.

 

또한, DataFrame은 데이터 필터링에도 유용합니다. 예를 들어, 특정 조건을 만족하는 행만 필터링하려면 `loc()` 메서드를 사용할 수 있습니다:

 

```python

df_filtered = df.loc[df['City'] == 'Seoul']

print(df_filtered)

```

 

위 코드에서는 'City' 컬럼이 'Seoul'인 행만 필터링하여 출력합니다. 이를 통해 데이터에서 특정 조건을 충족하는 특정 행을 선택할 수 있습니다.

 

이 외에도 DataFrame은 컬럼 생성, 결측값 처리, 데이터 그룹화 및 집계 등의 다양한 기능을 제공합니다. Pandas 문서에서 더 많은 내용과 예제를 확인할 수 있습니다.

 

Pandas 문서 링크: https://pandas.pydata.org/docs/

반응형

댓글