HUE는 타임존이 UTC 로 하드코드 돼 있어서 설정을 통해 기본 타임존을 바꿔줄 수는 없다고 한다. impala 3.1 버전 부터는 TIMEZONE 설정이 생겼다고는 하는데 최신 HUE 에서도 설정이 가능할 지는 모르겠다. 테스트 환경인 v2.10.0-cdh5.13.0 버전에서는 impala 자체적으로도 타임존을 변경할 수 없다. 어쨋든 from_utc_timestamp 함수를 이용해 쿼리 레벨에서 타임존 처리가 가능한데, 타임존 코드를 'KST'로 잘못 넣어서 오랫동안 […]
[Impala] ALL_TAB_COLUMNS for Impala (Hive)
현재 업무에서는 임팔라를 주력 데이터베이스로 활용하고 있다. 오라클 엑사 DW에서 하둡으로 ETL 한 뒤, 운영 DW에는 하기 부담스러운 헤비한 쿼리를 하는데에 사용한다. 원천이 오라클 데이터베이스인 탓에 소스 데이터베이스인 오라클과 주기적으로 스키마를 맞춰주어야 하는데, 오라클에는 ALL_TABLES, ALL_TAB_COLUMNS 와 같은 시스템 카탈로그가 있어, 테이블 스키마 관련 필요 정보를 쿼리해보기 좋았는데 임팔라에는 이런 시스템 카탈로그가 기본 제공되고 있지 […]
[Impala] Error parsing row 현상
impala 에서 parquet 테이블을 보정할 일이 있어서, CTAS로 일부분만 백업해두고 혹시 문제가 있는지 쿼리를 해봤는데 다음과 같은 에러가 발생했다. Error converting column: 126 to DOUBLE Error parsing row: file: hdfs://cluster01/user/hive/warehouse/imp.db/tab_dpcn_info_l/a7422143a7852306-8b0cbcb600000005-1957752130_data.0, before offset: 629145600 에러 메시지 자체는 126번 컬럼을 DOUBLE 로 형변환 하는데 실패했고 해당 문제가 발생한 데이터가 위 hdfs://.. 경로에, offset 번째 줄에 있다는 내용인데, […]
[impala] rpad와 아스키 코드를 이용한 인덱스 컬럼 범위 검색
rpad 문법은 rpad(A,N,B) 와 같이 썼을 때, 전체 문자열 길이가 N 만큼 되도록 B 문자열을 붙여준다. 때문에 fixed-width 컬럼의 값이나 검색 조건을 만들어내는 데에 사용할 수 있다. 우리 시스템에서는 특정 이벤트를 식별하기 위해서 맨 앞 열 여섯 자리는 해당 이벤트 발생 시간이면서 33 자리인 id를 키로 사용하고 있는데 이 때에 rpad 를 활용하면 유용하다. 특정 […]
[Impala] PARQUET_FALLBACK_SCHEMA_RESOLUTION 설정과 Parquet 테이블의 Schema Evolution
하나의 Impala 테이블은 여러개의 Parquet 파일로 구성될 수 있는데, 이때 각 파케이 파일들의 컬럼 순서가 다를 수가 있다. 임팔라만을 이용해서 파케이 파일을 생성했다 하더라도 기존에 없던 컬럼이 이후에 rename 되는 경우 또는 다른 방식으로 생성된 파케이 파일을 impala 에서 추가로 로드하는 경우에 이런 상황이 발생할 수 있을 것 같다. 어쨋든 다음과 같은 에러가 발생하는 경우 […]
[Impala] Data Types
[Impala] Data Types 정수 자료형 Impala에서는 다음과 같이 네 종류의 정수 자료형을 제공하며 각각 차지하는 공간과 범위가 다르다. 오라클의 TO_CHAR(), TO_NUMBER() 와 같이 숫자와 문자열을 바꿀수 없고 CAST(SOME_COLUMN_NAME as datatype_to_cast) 함수를 이용해 변형하고자 하는 타입을 지정해주어야하는데 테이블을 설계할 때 잘못하면 지원 범위를 넘어서는 숫자가 생겨 문제가 될 수 있으므로 주의를 해야할 것 같다. 번거롭긴 하지만 […]