Index 인덱스

인덱스는 데이터를 빠르게 찾을 수 있는 하나의 장치이다. 예를 들어 책의 마지막 장에 있는 찾아보기를 생각하면 된다. 

책의 본문이 있고 그 본문 안에 내가 찾고자 하는 '항목'을 찾아보기를 통해 빠르게 찾을 수 있다. 이와 마찬가지로 인덱스를 설정하면 테이블 안에 내가 찾고자 하는 데이터를 빠르게 찾을 수 있다. 

 

B-트리

인덱스는 보통 B-트리 자료 구조로 이루어져 있다. 이는 루트 노트, 리프 노트, 그리고 루프 노드와 리프 노드 사이에 있는 브랜치 노드로 나뉜다. 

 

| 출처 | 

면접을 위한 CS 전공지식 노트


인덱스와 Like 조건

Like절에서 %위치에 따른 인덱스 활용 여부

%가 문자열의 앞, 중간, 뒤에 올 때 인덱스를 활용할 수 있는지 여부가 달라진다.

 

CREATE INDEX idx_name ON users(name); // 인덱스 생성 예시

위와 같이 users 테이블의 name 컬럼에 대해 인덱스를 생성한다고 전제한다. 이 인덱스는 name 컬럼의 처음부터 끝까지 값을 기준으로 탐색할 수 있게 해준다. 

 

1. %가 뒤에 있을 때 (LIKE 'test%')

인덱스 활용 가능 하다.

 

2. %가 앞에 있을 때 (LIKE '%test') 또는 %가 중간에 있을 때 (LIKE '%test%')

인덱스 사용 할 수 없다. 

인덱스는 문자열의 처음부터 탐색하기 때문에  LIKE '%test'  처럼 끝나는 문자열을 찾는 조건 ( 또는 LIKE '%test%' 처럼 중간에 %가 있는 경우) 에서는 테이블을 전체적으로 스캔한다.

 

결론

인덱스가 문자열의 처음부터 끝까지 순차적으로 탐색하는 방식이기 때문에, %가 앞이나 중간에 있을 경우 인덱스는 활용되지 않는다. 

 

참고 

https://gyoogle.dev/blog/computer-science/data-base/Index-.html 

https://rachel0115.tistory.com/entry/MySQL-%EC%9D%B8%EB%8D%B1%EC%8A%A4-INDEX-%EC%A0%95%EB%A6%AC-%EB%8F%99%EC%9E%91-%EB%B0%A9%EC%8B%9D-%EC%83%9D%EC%84%B1-%EC%82%AD%EC%A0%9C-%EC%84%A4%EA%B3%84 

https://www.youtube.com/watch?v=iNvYsGKelYs 

ChatGPT


트랜잭션

데이터베이스에서 하나의 논리적 기능을 수행하기 위한 작업의 단위를 말하며 데이터베이스의 접근하는 방법은 쿼리이므로, 즉 여러 개의 쿼리들을 하나로 묶는 단위를 말한다. 이에 대한 특징은 원자성, 일관성, 독립성, 지속성이 있으며 이를 한꺼번에 ACID 특징 이라고 한다. 

 

원자성 atomicity 

"all or nothing" 

트랜잭션과 관련된 일이 모두 수행되었거나 되지 않았거나를 보장하는 특징이다. 예를 들어 트랜잭션을 커밋했는데, 문제가 발생하여 롤백하는 경우 그 이후에 모두 수행되지 않음을 보장하는 것을 말한다.

- 커밋과 롤백

 

일관성 Consistency 

'허용된 방식' 으로만 데이터를 변경해야 하는 것을 의미한다. 데이터베이스에 기록된 모든 데이터는 여러 가지 조건, 규칙에 따라 유효함을 가져야 한다. 예를 들어 홍철이는 1000만원이 있고 범석이는 0원이 있다고 친다. 범석이가 나한테 500만원을 입금 할 수 있느냐? 블가능 하다. 0원으로부터 500만원이 나오는 것은 불가능 하니까. (마이너스 통장 제외)

 

격리성 isolation 

트랜잭션 수행 시 서로 끼어들지 못하는 것을 말한다. 복수의 병렬 트랜잭션은 서로 격리되어 마치 순차적으로 실행되는 것처럼 작동되어야 하고, 데이터베이스는 여러 사용자가 같은 데이터에 접근할 수 있어야 한다. 그냥 수너차적으로 하면 쉽게 되겠지만, 그러면 성능은 나쁘겠지? 격리성은 여러 개의 격리 수준으로 나위어 격리성을 보장한다.. 이하 생략

 

지속성 durability 

성공적으로 수행된 트랜잭션은 영원히 반영되어야 하는 것을 의미한다. 이는 데이터베이스에 시스템 장애가 발생해도 원래 상태로 복구하는 회복 기능이 있어야 함을 뜻하며, 데이터베이스는 이를 위헤 체크섬, 저널링, 롤백 등의 기능을 제공한다. 

 

그리고 '무결성'

무결성이란 데이터의 정확성, 일관성, 유효성을 유지하는 것을 말하며, 무결성이 유지되어야 데이터베이스에 저장된 데이터 값과 그 값에 해당하는 현실 세계의 실제 값이 일치하는지에 대한 신뢰가 생긴다. 무결성의 종류는 다음과 가탇. 

- 개체 무결성, 참조 무결성, 고유 무결성, NULL 무결성 .. 이하 생략 

 

 

| 출처 | 

면접을 위한 CS 전공지식 노트

 

참고 

https://gyoogle.dev/blog/computer-science/data-base/Transaction.html 

 

DB 트랜잭션(Transaction) | 👨🏻‍💻 Tech Interview

DB 트랜잭션(Transaction) 트렌잭션이란? 데이터베이스의 상태를 변화시키기 위해 수행하는 작업 단위 상태를 변화시킨다는 것 → SQL 질의어를 통해 DB에 접근하는 것 작업 단위 → 많은 SQL 명령문들

gyoogle.dev


트랜잭션 동기/비동기 처리

(! 여기서의 트랜잭션은 위의 DB에서 수행되는 일련의 작업 단위의 트랜잭션을 의미하는게 아니라, 하나의 논리적 작업 단위를 말한다. 글을 나누기 애매해서 일단 요기 포스팅함ㅋ)

동기 트랜잭션 처리 Synchronous Transaction

요청을 보낸 후 응답을 받을 때까지 대기하는 방식이다. 즉, 요청을 처리하는 동안 클라이언트나 서버는 결과를 기다린다.

요청에 대해 응답을 받을 때까지 기다려야 하므로 시스템의 응답 시간이 길어질 수 있다. 

 

비동기 트랜잭션 처리 ASynchronous Transaction

요청을 보내고 결과를 기다리지 않고 다른 작업을 진행하는 방식이다. 즉, 요청을 보내고 나서 결과를 기다리지 않고 다음 작업으로 넘어갈 수 있다.

결과를 기다리지 않으므로 빠른 응답을 제공할 수 있다. 요청과 응답 사이에 지연을 최소화할 수 있다.

 

예시 답변:
"트랜잭션 처리에서 동기와 비동기 방식은 요청과 응답의 처리 방식에서 큰 차이를 보입니다. 동기 방식은 요청을 보내고 그 결과가 돌아올 때까지 기다린 후에 그 다음 작업을 진행하는 방식입니다. 이 방식은 결과의 일관성을 보장할 수 있지만, 응답 시간이 길어질 수 있어 성능이 떨어질 수 있습니다. 예를 들어, 결제 처리 시스템에서는 사용자가 결제를 완료하기 전까지 결과를 알 수 없으므로 동기 방식이 적합합니다.

반면에 비동기 방식은 요청을 보낸 후 그 결과를 기다리지 않고, 다른 작업을 처리할 수 있게 해줍니다. 비동기 방식은 응답 시간을 단축시키고, 시스템 자원을 효율적으로 사용할 수 있어 대규모 시스템에 유리합니다. 예를 들어, 이메일 전송 시스템에서 이메일을 전송한 후 바로 다른 작업을 진행하는 방식은 비동기 방식이 적합합니다."

 

참고 https://f-lab.kr/insight/understanding-async-sync-transactions-20240915 

ChatGPT

'CS' 카테고리의 다른 글

관계형 데이터베이스(RDBMS)와 NoSQL(Not Only SQL) / 레디스 Redis  (0) 2024.12.04
varchar와 nvarchar의 차이  (0) 2024.12.04
조인(Join)의 종류  (0) 2024.12.03

출처 : 면접을 위한 CS 전공지식 노트 

 

관계형 데이터베이스(RDBMS)

행과 열을 가지는 표 형식 데이터를 저장하는 형태의 데이터베이스를 가리키며 SQL이라는 언어를 써서 조작한다. 

MySQL. PostgreSQL, 오라클, SQL Server, MSSQL 등이 있다. 참고로, 관계형 데이터베이스의 경우 표준 SQL은 지키기는 하지만, 각각의 제품에 특화시킨 SQL을 사용한다. 예를 들어 오라클의 경우 PL/SQL이라고 하며 SQL Server는 T-SQL, MySQL은 SQL을 쓴다.

 

MySQL 

대부분의 운영체제와 호환되며 현재 가장 많이 사용되는 데이터베이스

 

PostgreSQL

MySQL 다음으로 개발자들이 선호하는 데이터베이스 기술로 널리 인정 받고 있다. 

디스크 조각이 차지하는 영역을 회수할 수 있는 장치인 VACUUM이 특징이다. 최대 테이블의 크기는 32TB이며 SQL뿐만 아니라 JSON을 이용하여 데이터에 접근할 수 있다.

 

NoSQL(Not Only SQL)

SQL을 사용하지 않는 데이터베이스를 말하며, 대표적으로 MongoDB와 Redis 등이 있다. 

 

MongoDB

JSON을 통해 데이터에 접근할 수 있고, Binary JSON 형태 (BSON)로 데이터가 저장되며 .. 

 

Redis 

인메모리 데이터베이스 이자 키-값 데이터 모델 기반의 데이터베이스

기본적으로 데이터 타입은 문자열(string)이며, 최대 512MB까지 저장할 수 있다. 이 외에도 셋(set), 해시(hash) 등일 지원한다. pub/sub 기능을 통해 채팅 시스템, 다른 데이터베이스 앞다나에 두어 사용하는 캐싱 계층, 단순한 키-값이 필요한 세션 정보 관리, 정렬된 셋(sorted set) 자료 구조를 이용한 실시간 순위표 서비스에 사용한다. 

 


RDB(SQL) 와 NoSQL의 차이

SQL(관계형 DB)

- 정해진 데이터 스키마에 따라 테이블에 저장된다. 

- 관계를 통해 여러 테이블에 분산된다. 

스키마를 준수하지 않은 레코드는 테이블에 추가할 수 없다. 즉, 스키마를 수정하지 않는 이상 정해진 구조에 맞는 레코드만 추가가 가능한 것이 RDB의 특징 중 하나이다. 

또한, 데이터 중복을 피하기 위해 '관계'를 이용한다. 

하나의 테이블에서 중복 없이 하나의 데이터만을 관리하기 때문에 다른 테이블에서 부정확한 데이터를 다룰 위험이 없어지는 장점이 있다. 

 

NoSQL(비관계형 DB)

- 스키마도 없고 관계도 없다 ! 

SQL은 정해진 스키마를 따르지 않으면 데이터 추가가 불가능 했지만, NoSQL에서는 다른 구조의 데이터를 같은 컬렉션에 추가가 가능하다. 

 

SQL 장점

- 명확하게 정의된 스키마, 데이터 무결성 보장

- 관계는 각 데이터를 중복없이 한번만 저장

 

SQL 단점

- 덜 유연함, 데이터 스키마를 사전에 계획하고 알려야함. (나중에 수정하기 힘듦)

- 관계를 맺고 있어 조인문이 많은 복잡한 쿼리가 만들어질 수 있음

- 대체로 수직적 확장만 가능함

 

NoSQL 장점

- 스키마가 없어서 유연함. 언제든지 저장된 데이터를 조정하고 새로운 필드 추가 가능

- 데이터는 애플리케이션이 필요로 하는 형식으로 저장됨. 데이터 읽어오는 속도 빨라짐

- 수직 및 수평 확장이 ㅓ가능해서 애플리케이션이 발생시키는 모든 릭기/쓰기 요청 처리 가능

 

NoSQL 단점

- 유연성으로 인해 데이터 구조 결정을 미루게 될 수 있음

- 데이터 중복을 계속 업데이트 해야 함

- 데이터가 여러 컬렉션에 주복되어 있기 때문에 수정 시 모든 컬렉션에서 수행해야 함 (SQL에서는 중복 데이터가 없으므로 한버너만 수행이 가능) 

 

SQL 데이터베이스 사용이 더 좋을 때

- 관계를 맺고 있는 데이터가 자주 변경되는 애플리케이션의 경우 (NoSQL에서는 여러 컬렉션을 모두 수정해야 하기 때문에 비효율적) 

- 변경될 여지가 없고, 명확한 스키마가 사용자와 데이터에세 중요한 경우

 

NoSQL 데이터베이스 사용이 더 좋을 때

 

- 정확한 데이터 구조를 알 수 없거나 변경/확장이 될 수도 있는 경우

- 읽기를 자주 하지만, 데이터 변경은 자주 없는 경우 

- 데이터베이스를 수평으로 확장해야 하는 경우 (막대한 양의 데이터를 다뤄야 하는 경우)

 

SQL을 선택해서 복잡한 JOIN문을 만들지 않도록 설계하여 단점을 없앨 수도 있고 

NoSQL을 선택해서 중복 데이터를 줄이는 ㅓ방법으로 설계해서 단점을 없앨 수도 있다. 

 

참고  https://gyoogle.dev/blog/computer-science/data-base/SQL%20&%20NOSQL.html  


Redis ; Remote Dictionary Server

오픈 소스 기반의 인 메모리(In-memory) 데이터 저장소 이다. 데이터베이스, 캐시, 메시지 브로커 등 다양한 용도로 사용되며, 키-값(Key-Value) 구조를 기반으로 데이터를 처리한다. 일반적으로 관계형 데이터베이스와는 달리, 디스크가 아닌 메모리에서 데이터를 처리하기 때문에 매우 빠른 데이터 액세스 속도를 제공한다. 

 

Redis의 인메모리 처리 방식

데이터를 디스크가 아닌 메모리에 저장하고 처리하여 뛰어난 속도를 자랑한다. 메모리에서 데이터를 직접 읽고 쓰기 때문에 디스크 기반 데이터베이스와 비교해 지연 시간이 현저히 짧아, 실시간 처리가 중요한 시스템에서 Redis는 최적의 솔루션으로 자리 잡고 있다. 

또한, Redis는 메모리에서 처리된 데이터를 주기적으로 디스크에 동기화해 데이터 유실을 방지한다. 이를 통해 메모리 기반 처리의 고속성을 유지하면서도 데이터의 안정성을 확보할 수 있다. 

이러한 인 메모리 처리 방식은 실시간 응답성과 높은 처리량이 요구되는 애플리케이션에서 탁월한 성능을 발휘한다. 

 

Redis의 Pub/Sub 시스템

publish/suvscribe(Pub/Sub) 기능을 통해 메시지 브로커 역할을 수행하며, 실시간 소통을 지원한다. 이 시스템은 특정 채널에 메시지를 발생하면 이를 구독한 모든 클라이언트가 해당 메시지를 실시간으로 수신하는 구조로 작동한다. 

이 기능은 라이브 스트리밍 플랫폼과 같은 실시간 상호작용이 필요한 환경에서 특히 유용하다. 예를 들어 방송 시작 알림이나 실시간 채팅 메시지를 빠르게 전달하고, 대용량 시청자가 동시에 참여하는 상황에서도 효율적이고 안정적으로 작동한다. 메시지 발생과 수진이 비동기적으로 이루어지기 때문에 대용량 트래픽 상황에서도 높은 성능을 유지할 수 있다. 

이러한 구조 덕분에 실시간 알림 시스템, 채팅 애플리케이션, 스트리밍 서비스 등에서 빠르고 신뢰성 있는 소통을 가능하게 하는 핵심 기술로 자리 잡고 있다. 

 

캐싱 시스템

자주 조회되는 데이터를 메모리에 캐싱하여 데이터베이스의 뷰하를 줄이고 빠른 응답 속도를 제공한다. 

- 읽기 부하 분산 : 제품 정보, 페이지 콘텐츠 같은 고빈도 읽기 요청을 Redis에 캐싱 해 데이터베이스의 읽기 부하를 감소 시킨다. 

- 복잡한 연산 속도 향상 : 상품 추천이나 검색 결과처럼 계산이 많은 데이터를 Redis에 저장해 클라이언트 요청 시 빠르게 반환할 수 있다.

- 만료 정책 지원: 캐싱 데이터에 TTL을 설정해 오래도니 데이터를 자동으로 제거, 최신 상태를 유지할 수 있다. 

 

메시지 큐

Pub/Sub 기능은 실시간 메시지 전송과 수신을 간단하고 효율적으로 처리한다. 

 

참고 https://www.elancer.co.kr/blog/detail/768 

'CS' 카테고리의 다른 글

Index 인덱스 / Transaction 트랜잭션  (1) 2024.12.04
varchar와 nvarchar의 차이  (0) 2024.12.04
조인(Join)의 종류  (0) 2024.12.03

출처 : chatGPT

 

1. 문자 인코딩 차이 

- VARCHAR: ANSI 또는 UTF-8을 사용해 문자 데이터를 저장합니다.
영문자, 숫자, 일부 특수 문자를 저장할 때 주로 사용됩니다.
한글, 중국어, 일본어 같은 다국어 문자를 저장할 수 있지만, UTF-8을 사용해야 정상적으로 저장됩니다.

 

- NVARCHAR: **Unicode (UTF-16)**을 사용해 문자 데이터를 저장합니다.
다국어 문자 지원이 기본적으로 내장되어 있어 모든 언어의 문자를 손실 없이 저장할 수 있습니다.
N은 National을 의미하며, 문자셋에 관계없이 다양한 언어를 처리하는 데 최적화되어 있습니다.

 

2. 저장 공간

- VARCHAR(n):
문자 1개당 1~3바이트가 필요합니다(UTF-8 기준).
n은 문자 개수를 의미합니다.
예: VARCHAR(10)은 최대 10자를 저장하며, 최대 30바이트를 사용할 수 있습니다.


- NVARCHAR(n):
문자 1개당 2~4바이트가 필요합니다(UTF-16 기준).
n은 문자 개수를 의미합니다.
예: NVARCHAR(10)은 최대 10자를 저장하며, 최대 20~40바이트를 사용할 수 있습니다.

 

3. 사용 시 고려사항 

 

4. MySQL 에서의 사용 

- VARCHAR는 UTF-8이 기본 설정이라면, 대부분의 문자를 저장할 수 있다.

- NVARCHAR는 MySQL 8.0 부터 UTF-8과 동일하게 동작한다. 따라서 최근에는 VARCHAR를 주로 사용하는 추세.

 

5. MSSQL 에서의 사용 

- VARCHAR는 한글, 중국어, 일본어 처럼 비 ASCII 문자를 처리할때 데이터  손실이 발생 할 수 있다. 

- NVARCHAR는 Unicode 지원이 내장되어 있어 다국어 데이터 저장 시 권장된다. 

 

언제 사용해야 할까? 

1. 다국어(한글, 일본어, 중국어, 이모지 등)을 저장할 필요가 있다면 ? NVARCHAR 를 사용

2, 영어와 숫자만 저장한다면 ? VARCHAR가 더 효율적 이다. 

 

사용 예시

1. VARCHAR 사용 예시 (MySQL) 

CREATE TABLE users (
    username VARCHAR(50),
    email VARCHAR(100)
);

 

2. N VARCHAR 사용 예시(MSSQL) 

CREATE TABLE users (
    username NVARCHAR(50),
    email NVARCHAR(100)
);

 

 

정리

다국어 지원이 필요하다면 NVARCHAR , 영문이나 숫자만 사용할 경우 VARCHAR가 더 효율적

단, MySQL의 경우 VARCHAR를 사용해도 한글을 저장할 수 있으나, MSSQL은 반드시 NVARCHAR를 사용하는 것이 안전하다. 

출처 : 면접을 위한 CS 전공지식 노트

 

- SQL 조인 시각화 사이트 

https://sql-joins.leopard.in.ua/ 

 

SQL Joins Visualizer

Please select how do you want to do SQL JOIN between two table Copy SQL

sql-joins.leopard.in.ua

 

 

조인(join)이란 하나의 테이블이 아닌 두 개 이상의 테이블을 묶어서 하나의 결과물을 만드는 것을 말한다.

 

조인의 종류

1. 내부 조인(inner join) : 두 테이블 간의 교집합을 나타냄

select * from TableA  A 

inner join tableB B ON A.key = b.key

select * from TableA  A 
inner join tableB B ON A.key = b.key

 

2. 왼쪽 조인 (left outer join) : 테이블 B의 일치하는 부분의 레코드와 함께 테이블 A를 기준으로 완전한 레코드 집합을 생성한다. 만약 테이블 B에 일치하는 항목이 없으면 해당 값은 null 값이 된다. 

select * from TableA  A
left join TableB B ON A.key = b.key

 

3. 오른쪽 조인 (right outer join) : 테이블 A에서 일치하는 부분의 레코드와 함께 테이블 B를 기준으로 완전한 레코드 집합을 생성한다. 만약 테이블 A에 일치하는 항목이 없으면 해당 값은 null 값이 된다. 

select * from TableA  A
right join TableB B ON A.key = b.key

 

4. 합집합 조인 (full outer join) = 완전 외부 조인 : 양쪽 테이블에서 일치하는 레코드와  함께 테이블 A와 테이블 B의 모든 레코드 집합을 생성한다. 이때 일치하는 항목이 없으면 누락된 쪽에 null값이 포함되어 출력된다. 

select * from TableA  A
full join TableB B ON A.key = b.key

 

 

 

 

- left join = left outer join 과 같다.

- full outer join 에서 중복될 경우 중복 데이터 모두 출력한다. (중복 데이터 하나만 출력 하는 것 아님)

- full outer join 과 union all 과 다른 점은 ?

full outer join 합집합을 출력하며, 공통 데이터는 하나의 행으로 결합한다. union all은 조인이 아닌 단순 테이블 결과를 합치는 것 이다. 

 

추가 참고 자료

https://gyoogle.dev/blog/computer-science/data-base/Join.html

 

Join | 👨🏻‍💻 Tech Interview

Join 조인이란? 두 개 이상의 테이블이나 데이터베이스를 연결하여 데이터를 검색하는 방법 테이블을 연결하려면, 적어도 하나의 칼럼을 서로 공유하고 있어야 하므로 이를 이용하여 데이터 검

gyoogle.dev

 

 

+ Recent posts