글
[복습,실습] データの加工と分析 (데이터의 가공과 분석)
* データの加工と分析 (데이터의 가공과 분석)
* 데이터베이스의 데이터 가공
- 사용되는 프로그램 : 엑셀(너무 큰 대량의 데이터는 사용불가), 데이터베이스
* 엑셀을 사용할 경우, 대량의 데이터 분석 해결법
- 엑셀 2013에서 지원하는 어드인을 사용하던가, 일부 데이터를 복사하여 조금씩 분석하는 방법이 있다
* 데이터베이스를 사용할 경우
오라클, IBM DB2, SQL 서버(대규모)
엑세스, My SQL, PostgreSQL
*데이터 베이스의 정의
- 여러가지 정보검색에 고도의 대응이 가능하도록 대량의 데이터를 한꺼번에 관리하는 파일,
또는 그 파일을 관리하는 시스템
* 데이터 베이스를 사용하는 메리트
- 직접 형태에 적용시킬 수 있기때문에, 데이터에 오류가 생기지 않는다.
- 한행에 하나의 데이터가 적용되기때문에 데이터의 중복이 생기지 않는다.
- 데이터를 공유해서 활용할 수 있다.
- 데이터량에 관계된 데이터의 관리를 할 수 있다.
* 데이터 베이스를 이용한 데이터 가공실습
1. 데이터 베이스 파일로 작성
2. 데이터를 데이터베이스에 임포트
3. SQL을 사용해서 필요한 데이터를 산출
- 여러가지 데이터베이스가 존재한다.
- 여러가지 조작언어가 있으면 불편
- ISO에 의한 국제표준이 규격화 (어떤 데이터베이스를 사용해도 SQL을 사용할수 있음)
4. 데이터베이스로부터 피요한 데이터를 익스포트
- 익스포트한 데이터를 각 어플리케이션으로 사용.
* 데이터베이스 파일을 작성한다 (데이터 베이스 프로그램으로는 엑세스를 사용)
1. 새 데스크톱 데이터베이스를 클릭 (일본판에서는 空のデータベース)
2. 데이터베이스를 임포트 (외부데이터 -> 텍스트파일, 한국어에서는 가져오기 일본어에서는 インポート란에 있음)
3. 단락 기호 추가를 선택하고, 다음으로를 클릭 (일본판에서는 区切り記号付き)
4. 기호는 콤마, 머리행을 필드명으로 사용을 체크 (일본판에서는 カンマ、先頭行をフィールド名として使う)
5. 설정 버튼을 눌러 필드를 정보를 편집한다
- 필드명은 알기 쉬운 이름으로 (중복은 안됨)
- 인덱스는 최초에는 모두 아니오로 OK
6. 실습에 사용된 데이터 수정
- YYYY,MM,DD는 년,월,일로 수정할 것.
- hh,mm,ss는 시,분,초로 수정할 것.
- ~코드, 플래그는 모두 텍스트형으로 수정
- 인덱스도 전부 아니오로 수정
- 모두 설정되었다면 다음으로.
7. 주키를 자동적으로 설정한다를 설정 후, 다음으로.
8. 완료.
* 실제기업으로부터 학교측에서 구매한 수익 데이터를 사용하므로, 정보유출방지를 위해 모자이크 처리
* 테이블의 추가
- 요일 : 1.월,~ 7.일
- 성별 : 1. 남성, 2.여성
- 연령 : 1.어린이 2. 청년 3.어른 4.중고령층 (実年)
1. 만들기 탭 -> 테이블 디자인을 선택 (일본어 판에서는 作成、テーブルデザイン)
2. 테이블 탭을 오른쪽 클릭후, 데이터시트 보기(データシートビュー)을 선택한뒤 주키를 설정하지말고 테이블의
보존 후, 데이터를 입력한다 (필드명에는 요일플래그와 요일을 적고 텍스트형으로 설정)
3, 이후, 월화수목금과 숫자를 입력하면 끝. 나머지도 마찬가지 형식으로 작업한다