해결하고자 하는 문제
안녕하세요! 현재 프로젝트 하나를 맡아서 진행하고 있는데, 아무래도 AI 쪽은 처음이다보니 여러 가지 막히는 부분들이 있습니다.
대부분 책이나 강의에서는 알고리즘과 데이터 전처리하는 모듈 함수, 통계적인 부분만 다루다보니 실제로 "빅데이터"를 어떻게 다룰지에 대한 내용은 찾기가 쉽지 않았습니다.
다루는 데이터의 일부가 txt파일로 25기가. 더 자세히 살펴보면 9500만행 x 30열 로 이루어진 데이터 입니다.
pandas를 이용해 데이터 전처리를 하려고 했으나, 해당 데이터의 특정 행(ex> 10번째 열의 값이 "c"인 행)을 찾으려
했으나 3일동안 컴퓨터를 켜놓아도 처리를 못하는 문제가 발생했습니다.
파이썬의 병렬프로세싱이나 GPU 등을 사용해야할 것 같아서 찾아봐도 명확한 답이 잘 안나와서요... 구글에 검색해봐도 Windows10 환경의 주피터노트북이라 그런지 오류만 발생하네요...
현업에서는 어떤 방식을 사용하는지 궁금합니다.
코드 혹은 오류
from numba import jit, cuda
@jit(target ="cuda")
# 특정 행 찾는 코드
환경
Windows10, python3.7.4, 아나콘다 주피터노트북6.0.1
해결하고자 하는 문제
안녕하세요! 현재 프로젝트 하나를 맡아서 진행하고 있는데, 아무래도 AI 쪽은 처음이다보니 여러 가지 막히는 부분들이 있습니다.
대부분 책이나 강의에서는 알고리즘과 데이터 전처리하는 모듈 함수, 통계적인 부분만 다루다보니 실제로 "빅데이터"를 어떻게 다룰지에 대한 내용은 찾기가 쉽지 않았습니다.
다루는 데이터의 일부가 txt파일로 25기가. 더 자세히 살펴보면 9500만행 x 30열 로 이루어진 데이터 입니다.
pandas를 이용해 데이터 전처리를 하려고 했으나, 해당 데이터의 특정 행(ex> 10번째 열의 값이 "c"인 행)을 찾으려
했으나 3일동안 컴퓨터를 켜놓아도 처리를 못하는 문제가 발생했습니다.
파이썬의 병렬프로세싱이나 GPU 등을 사용해야할 것 같아서 찾아봐도 명확한 답이 잘 안나와서요... 구글에 검색해봐도 Windows10 환경의 주피터노트북이라 그런지 오류만 발생하네요...
현업에서는 어떤 방식을 사용하는지 궁금합니다.
코드 혹은 오류
환경
Windows10, python3.7.4, 아나콘다 주피터노트북6.0.1