2023년 첫 글은 PandasAI 패키지 소개와 간단한 사용 방법에 대한 글로 시작해보려 한다.
PandasAI는 2023년 5월부터 개발되고 있는 생성형 AI(OpenAI API) 기반 파이썬 오픈소스 라이브러리이고, 텍스트로 파이썬으로 작업할 업무를 입력하면 작업결과를 텍스트나 차트 이미지 형태로 나타낸다.
그럼 git 페이지에 가서 사용방법에 대해 알아보고 어떤 결과까지 나타내는지 알아보자.
-pandas-ai 패키지 git 주소
페이지 링크
- pandasAI github에 있는 판다🐼 그림, 이미지 생성 AI로 생성한 것 같다.
이제 readme에 있는 예시를 그대로 사용해보자.
- Python 환경에 PandasAI 패키지를 설치해준다.
예시 코드와 국가별 GDP 데이터를 동일하게 사용해보자
-예시코드 실행
- df 데이터 프레임 내 국가 중 행복지수가 높은 상위 5개 나라를 알아보려한다.
실행해보면 오류가 나오는게 당연하다. API 키를 입력해줘야 작동이 되기 때문이다.
OpenAI API 키 발급을 받으러가보자. (pandasAI는 OpenAI 모델을 기반으로 작동하므로)
-OpenAI API 페이지
페이지 링크
회원가입 후 우상단의 View API keys 페이지로 이동하면,
API 키를 발급받을 수 있다.
- API 발급 후 주의해야할 점은 보안상 API 생성 후 API 키는 다시 조회할 수 없다는 점이다.
-API 비용
pandasAI가 사용하는 gpt-3.5-turbo 모델은 1000개 토큰당 $0.002를 받는다. 영어로 4000자, 한글로 약 333자 요청에 0.002달러가 되는 셈인데 개인용도라면 충분하다.
-API 비용 제한
Billing탭의 Usage limits에서 한달에 사용할 달러를 Hard limit 설정하고 제한할 수도 있다. (Soft limit까지 설정하면 Hard limit 내에서 설정한 달러값이 넘어가면 이메일 발송도 가능)
-예시코드 재실행
-예시코드 결과
- 데이터프레임에 넣고 print 한 결과 행복지수 상위 5개가 출력되었다.
- ‘이게 된다고?’ 싶지만 요즘 생성형 AI 발전속도를 보면 더 잘 써먹어야 한다.
-한글 질의 + 막대그래프 차트 + 가장 높은 값에 강조처리
결과가 아주 놀랍다. 간단한 차트와 통계는 한글 질의로 간단히 해결할 수 있을 것으로 보인다.
-현재 한계점
어디까지나 테스트 목적이며 실무 데이터 적용을 권하지 않는다. (OpenAI API 자체의 이슈)
다만, 기술 발전속도를 볼 때 정보보호, 보안에 대한 대안이 충분히 논의되었을 때 실무에도 사용하는 날이 머지않아 올 것으로 예상한다.
현재는 간단한 차트 형태는 구현되어있으나 분석까지는 어려운 상태다. 패키지 사용으로 얻는 효용이 크려면 상세 기능 개발이 필요하다.
즉, 앞으로의 개발과정이 기대되는 라이브러리이다. 추가 개발이 이뤄지면 다시 다뤄볼 예정이다.