Summary

[데이터베이스 개론] 10장. 트랜잭션

프로그래민 2022. 2. 7. 00:08
반응형

트랜잭션

트랜잭션의 개념

데이터베이스 관리 시스템은 데이터베이스가 항상 정확하고 일관된 상태를 유지할 수 있도록 트랜잭션이란 기능을 제공한다. 트랜잭션을 관리함으로써 데이터베이스의 회복과 병행 제어가 가능해져, 결과적으로 데이터베이스가 일관된 상태를 유지할 수 있게 된다. 즉, 트랜잭션(transcation)은 하나의 작업을 수행하는 데 필요한 데이터베이스의 연산들을 모아놓은 것으로, 데이터베이스에서 논리적인 작업의 단위가 된다. 또한 데이터베이스가 장애가 발생했을 때 데이터를 복구하는 단위도 된다. 일반적으로 SQL문들의 모임으로 이루어져있다. 트랜잭션의 모든 명령문이 완벽하게 처리되거나 하나도 처리되지 않아야 데이터베이스가 모순이 없는 일관된 상태를 유지할 수 있다. 즉, 데이터베이스의 무결성일관성을 트랜잭션을 이용하여 보자알 수 있다.

 

트랜잭션의 특성

트랜잭션의 특성과 DBMS의 기능

트랜잭션이 성공적으로 처리되어 데이터베이스의 무결성과 일관성이 보장되려면 ACID라는 네가지 특성이 중요하다. 또한 이러한 네가지 특성을 보장하기 위해 DBMS는 위와 같은 기능들을 제공한다.

원자성(Atomicity)

트랜잭션의 원자성은 트랜잭션을 구성하는 연산들이 모두 정상적으로 실행되거나 하나도 실행되지 않아야 한다는 all-or-nothing 방식을 의미한다. 즉 트랜잭션이 원자성을 보장하면 트랜잭션을 구성하는 연산 중 일부만 처리가 되는 일이 발생하지 않아야 하고, 원래의 데이터베이스의 상태로 복구하는 기능을 수행하게 된다.

일관성(Consistency)

트랜잭션의 일관성트랜잭션이 성공적으로 수행된 후에도 데이터베이스가 일관된 상태를 유지해야 함을 의미한다. 즉, 트랜잭션이 수행되기 전에 데이터베이스가 일관된 상태였다면 트랜잭션의 수행이 완료된 후 결과를 반영한 데이터베이스도 또 다른 일관된 상태가 되어야 한다는 의미이다. 

격리성(Isolation)

트랜잭션의 격리성고립성이라고도 하는데, 현재 수행 중인 트랜잭션이 완료될 때까지 트랜잭션이 생성한 중간 연산 결과에 다른 트랜잭션들이 접근할 수 없음을 의미한다. 일반적으로 데이터베이스 시스템에서는 여러 트랜잭션이 동시에 수행되지만 각 트랜잭션이 독립적으로 수행될 수 있도록 다른 트랜잭션의 중간 연산 결과에 서로 접근하지 못하게 하며 트랜잭션의 격리성을 보장한다. 

지속성(Durability)

트랜잭션의 지속성영속성이라고도 하는데 트랜잭션이 성공적으로 완료된 후 데이터베이스에 반영한 수행 결과는 어떠한 경우에도 손실되지 않고 영구적이어야 함을 의미한다.즉 시스템에 장애가 발생하더라도 트랜잭션 작업 결과는 없어지지 않고 데이터베이스에 그대로 남아 있어야 하며, 나아가 복구하는 회복 기능까지 데이터베이스가 제공한다. 

 

트랜잭션의 연산

트랜잭션의 수행과 관련하여 주로 사용되는 연산에는 트랜잭션이 성공적으로 수행되었음을 선언(작업 완료)해주는 commit 연산트랜잭션을 수행하는데 실패했음을 선언(작업 취소)해주는 rollback 연산이 있다.

commit 연산이 실행된 후에야 트랜잭션의 수행 결과가 데이터베이스에 반영되어 데이터베이스가 일관된 상태를 지속적으로 유지하게 된다. 즉, commit 연산을 통해 트랜잭션의 수행이 성공적으로 완료되었음을 선언하고 트랜잭션이 수행한 최종결과를 데이터 베이스에 반영한다.

rollback 연산이 실행되면 트랜잭션이 지금까지 실행한 연산의 결과가 취소되고 트랜잭션이 수행되기 전의 상태로 돌아간다. 즉, rollback 연산을 통해 트랜잭션의 수행이 실패했음을 선언하고 데이터베이스를 트랜잭션 수행 전의 일관돈 싱태로 되돌려 모순이 발생하지 않게 한다.

 

트랜잭션의 상태

트랜잭션의 다섯 가지 상태

트랜잭션은 다섯 가지 상태 중 하나에 속하게 된다. 트랜잭션이 수행되기 시작하면 활동 상태가 되고, 활동 상태의 트랜잭션이 마지막 연산을 처리하고 나면 부분 완료 상태가 되며, 부분 완료 상태의 트랜잭션이 commit 연산을 실행하면 완료상태가 된다. 활동 상태나 부분 완료 상태에서 여러 원인으로 인해 더는 정상적인 수행이 불가능하게 되면 트랜잭션은 실패 상태가 된다. 실패 상태의 트랜잭션은 rollback 연산의 실행으로 철회 상태가 된다. 트랜잭션이 완료 상태이거나 철회 상태가 되면 트랜잭션이 종료된 것으로 판단한다.

활동 상태

트랜잭션이 수행되기 시작하여 수행중인 상태를 활동상태라고 한다. 활동 상태인 트랜잭션은 상황에 따라 부분 완료 상태 또는 실패 상태가 된다. 

부분 완료 상태

트랜잭션의 마지막 연산이 실행된 직후의 상태를 부분 완료 상태라 하며 트랜잭션의 모든 연산을 처리한 상태다. 모든 연산을 수행하였지만 데이터베이스에 반영되지 않은 상태로써, 상황에 따라 완료 상태나 실패 상태가 될 수 있다.

완료 상태

트랜잭션이 성공적으로 완료되어 commit 연산을 실행한 상태를 완료 상태라고 한다. 트랜잭션이 수행한 결과를 데이터베이스에 반영한 상태이다.

실패 상태

하드웨어나 소프트웨어의 문제, 트랜잭션 내부의 오류 등 여러 이유로 인해 장애가 발생하여 트랜잭션의 수행이 중단된 상태를 실패상태라고 한다.

철회 상태

트랜잭션을 수행하는데 실패하여 rollback 연산을 실행한 상태를 철회 상태라고 한다. 트랜잭션이 철회 상태가 되면 지금까지 실행한 트랜잭션의 연산을 모두 취소하고 트랜잭션이 수행되기 전의 데이터베이스 상태로 되돌리면서 트랜잭션이 종료된다.

 

장애와 회복

트랜잭션의 특성을 보장하고, 데이터베이스를 모순이 없는 일관된 상태로 유지하기 위해 데이터베이스 관리 시스템은 회복 기능을 제공한다. 회복은 장애가 발생했을 때 데이터베이스를 장애가 발생하기 전의 일관된 상태로 복구시키는 것이다.

장애의 유형

장애의 유형

시스템이 제대로 동작하지 않는 상태를 장애라고 한다. 장애가 발생하는 유형에 따라 위와 같이 3가지로 나눌 수 있다.

 

데이터베이스의 저장 연산

저장 장치의 종류

데이터베이스는 기본적으로 저장 장치에 저장된다. 그리고 저장 장치는 장애가 발생했을 때 대응하는 방법에 따라 위와 같이 3종류로 나눌 수 있다. 

응용 프로그램이 실행한 트랜잭션의 수행을 위해 필요한 데이터 이동 연산

일반적으로 데이터베이스는 비휘발성 저장 장치인 디스크에 상주한다. 하지만 트랜잭션이 데이터베이스의 데이터를 처리하려면 디스크에서 메인 메모리로 가져와 이를 응용 프로그램의 요구에 맞게 처리한 후 그 결과를 디스크로 다시 보내는 작업을 한다. 디스크와 메인 메모리 간의 데이터 이동은 블록 단위로 수해된다. 디스케이 있는 블록을 디스크 볼록이라 하고 메인 메모리에 있는 블록은 버퍼 블록이라 한다. 그리고 input, output 연산을 통해 데이터를 주고 받는다. 그리고 응용 프로그램의 명령을 read, write 연산을 통해 수행하며 메인 메모리의 버퍼 블록과 데이터를 주고 받는다. 

 

회복 기법

회복은 데이터베이스에 장애가 발생했을 때 장애가 발생하기 전의 모순이 없고 일관된 상태로 복구시키는 것으로, 데이터베이스 관리 시스템에 있는 회복 관리자가 담당한다. 회복 관리자는 장애 발생을 탐지하고, 장애가 탐지되면 데이터베이스 복구 기능을 제공한다.

회복을 위한 연산

데이터베이스 회복의 핵심 원리는 데이터 중복이다. 데이터를 별도의 장소에 미리 복사해두고, 장애로 문제가 발생했을 때 복사본을 이용해 원래의 상태로 복원하는 것이다. 데이터베이스 전체를 다른 저장 장치에 주기적으로 복사하는 방법인 덤프나 데이터베이스에서 변경 연산이 실행될 때마다 데이터를 변경하기 이전 값과 변경한 이후의 값을 별도의 파일에 기록하는 방법인 로그를 이용하여 데이터를 복사했다가 회복한다.

덤프나 로그로 저장한 중복 데이터를 이용하여 장애상황시 복구를 할 때 redo나 undo 연산을 실행한다. redo 연산은 로그에 기록된 변경 연산 후의 값을 이용하여 변경 연산을 재실행하는 방법으로 데이터베이스를 복구한다. undo 연산은 로그에 기록된 변경 연산 이전의 값을 이용하여 변경 연산을 취소하는 방법으로 데이터베이스를 복구한다.

데이터베이스 회복 기법의 분류

장애가 발생하는 시점과 유형이 다양하고, 데이터베이스를 빠른 시간 내에 복구해야 하므로 실제로 데이터베이스 관리 시스템은 위와 같이 좀 더 복잡하고 효율적인 회복 기법들을 사용한다.

로그 회복 기법

로그를 이용한 회복 기법은 데이터를 변경한 연산 결과를 데이터베이스에 반영하시는 시점에 따라 즉시 갱신 회복 기법과 지연 갱신 회복 기법을 나눈다.

즉시 갱신 회복 기법은 트랜잭션 수행 중에 데이터를 변경한 연산의 결과를 데이터베이스에 즉시 반영한다. 그리고 장애 발생에 대비하기 위해 데이터 변경에 대한 내용을 로그 파일에 기록한다. 즉시 갱신 회복 기법은 장애가 발생하면 로그 파일에 기록된 내용을 참조하여, 장애 발생 시점에 따라 redo나 undo 연산을 실행하여 데이터베이스를 복구한다.

지연 갱신 회복 기법은 트랜잭션이 수행되는 동안에는 데이터 변경 연산의 결과를 데이터베이스에 즉시 반영하지 않고 로그 파일에만 기록해두었다가, 트랜잭션이 부분 완료된 후에 로그에 기록된 내용을 이용해 데이터베이스에 한 번에 반영한다. 트랜잭션이 수행되는 동안 장애가 발생할 경우 로그에 기록된 내용을 버리기만 하면 데이터베이스가 원래 상태를 그대로 유지하게 된다. 따라서 지연 갱신 회복 기법에는 undo 연산은 따로 없고 redo 연산만 필요하다.

검사 시점 회복 기법

검사 시점 회복 기법은 로그 회복 기법과 같은 방법으로 로그 기록을 이용하되, 일정 시간 간격으로 검사 시점을 만들어둔다. 그리고 장애가 발생하면 가장 최근 검사 시점 이전의 트랜잭션에는 회복 작업을 수행하지 않고, 이후의 트랜잭션에만 회복 작업을 수행한다. 검사 시점 회복 기법을 이용하면 회복 작업의 범위가 검사 시점으로 정해지므로 불필요한 회복작업을 수행하지 않아 데이터베이스 회복 시간이 단축된다는 장점이 있다.

미디어 회복 기법

디스크에 발생할 수 있는 장애에 대비한 회복 기법은 미디어 회복기법이다. 미디어 회복 기법은 전체 데이터베이스의 내용을 일정 주기마다 다른 안전한 저장 장치에 복사해두는 덤프를 이용한다. 디스크 장애가 발생하면 가장 최근에 복사해둔 덤프를 이용해 장애 발생 이전의 일관된 데이터 베이스 상태로 복구한다.

 

병행 제어

병행 수행과 병행 제어

데이터베이스 관리 시스템은 여러 사용자가 데이터베이스를 동시에 공유할 수 있도록 여러 개의 트랜잭션이 동시에 수행되는 병행 수행을 지원한다. 병행 수행은 여러 트랜잭션이 차례로 번갈아 수행되는 인터리빙 방식으로 진행된다. 또한, 여러 개의 트랜잭션이 병행 수행되면서 같은 데이터에 접근하여 연산을 실행하더라도, 문제가 발생하지 않고 정확한 수행 결과를 얻을 수 있도록 트랜잭션의 수행을 제어하는 병행 제어, 동시성 제어를 제공한다. 

 

병행 수행의 문제

병행 수행을 특별한 제어 없이 진행하면 여러 문제가 발생할 수 있고, 대표적으로 갱신 분실, 모순성, 연쇄 복귀가 있다.

갱신 분실

갱신 분실은 하나의 트랜잭션이 수행한 데이터 변경 연산의 결과를 다른 트랜잭션이 덮어써 변경 연산이 무효화되는 것이다. 즉, 하나의 데이터에 대한 두개 이상의 트랜잭션 연산이 순차적으로 안 이루어지는 상황이다. 따라서 순차적으로 수행한 것과 같은 결과값을 얻어야 정확한 병행 수행이라고 할 수 있다.

모순성

모순성은 하나의 트랜잭션이 여러 개의 데이터 변경 연산을 실행할 때 일관 없는 상태의 데이터베이스에서 데이터를 가져와 연산을 실행함으로써 모순된 결과가 발생하는 것이다. 예를 들면 어떤 연산은 현재의 트랜잭션이 실행되기 전 상태의 데이터베이스에서 데이터를 가져와 실행하고, 또 다른 연산은 다른 트랜잭션이 변경한 데이터베이스에서 데이터를 가져와 실해하면 모순성은 문제가 발생한다.

연쇄 복귀

연쇄 복귀는 트랜잭션이 완료되기 전에 장애가 발생하여 rollback 연산을 수행하면, 이 트랜잭션이 장애 발생 전에 변경한 데이터를 가져가 변경 연산을 실행한 또 다른 트랜잭션에도 rollback 연산을 연쇄적으로 실행해야 한다는 것이다. 그런데 장애가 발생한 장애가 발생한 트랜잭션이 rollback 연산을 실행하기 전에 변경한 데이터를 가져가 사용한 다른 트랜잭션이 수행을 완료해버리면 rollback 연산을 실행할 수 없어 문제가 된다. 

 

트랜잭션 스케줄

병행 수행에서는 트랜잭션들이 차례로 번갈아 가면서 수행되는 인터리빙 방식으로 진행이 된다. 다만 트랜잭션에 있는 연산을 실행하는 순서에 따라 트랜잭션들의 수행 결과가 달라지기도 하고, 병행 수행에 따른 문제가 발생하기도 한다. 그러므로 여러 트랜잭션을 병행 수행할 때는 트랜잭션들의 연산을 실행하는 순서인 트랜잭션 스케쥴이 중요하다. 크게 3가지 유형의 트랜잭션 스케줄이 있다.

직렬 스케줄

직렬 스케줄인터리빙 방식을 이용하지 않고 각 트랜잭션별로 연산들을 순차적으로 실행시키는 것이다. 트랜잭션이 직렬 스케줄에 따라 수행되면, 모든 트랜잭션이 완료될때까지 다른 트랜잭션의 방해를 받지 않고 독립적으로 수행된다. 그래서 직렬 스케줄은 항상 정확한 결과를 얻는다. 다만 인터리빙 방식을  사용하지 않고 각 트랜잭션을 독립적으로 수행하기 때문에 트랜잭션들이 동시에 수행되는 병행 수행이라고 할 수 없다. 

비직렬 스케줄

비직렬 스케줄인터리빙 방식을 이용하여 트랜잭션을 병행해서 수행시키는 것이다. 비직렬 스케줄은 트랜잭션이 돌아가면서 연산들을 실행하기 때문에 하나의 트랜잭션이 완료되기 전에 다른 트랜잭션의 연산이 실행될 수 있다. 따라서 여러 튼랜잭션을 병행 수행하면 갱신 분실, 모순성, 연쇄 복귀 등의 문제가 발생할 수 있어 최종 수행 결과의 정확성을 보장할 수 없다.

직렬 가능 스케줄

직렬 가능 스케줄은 직렬 스케줄을 따라 수행한 것과 같이 정확한 결과를 생성하는 비직렬 스케줄이다. 모든 비직렬 스케줄이 직렬 가능한 것은 아니다. 직렬 가능 스케줄은 인터리빙 방식을 이용하여 여러 트랜잭션을 병행 수행하면서도 정확한 결과를 얻을 수 있다. 다만 직렬 가능 스케줄인지 여부를 판단 하는 일은 쉽지 않기에 대부분의 데이터 관리 시스템에서는 직렬 가능 스케줄인지를 검사하기 보다는 직렬 가능성을 보장하는 병행 제어 기법을 사용한다.

 

병행 제어 기법

병행 제어 기법은 여러 트랜잭션을 병행 수행하면서도 정확한 결과를 얻을 수 있는 직렬 가능성을 보장받기 위해 사용한다. 병행 제어 기법의 기본 원리는 직렬 가능성이 보장되는 나름의 규약을 정의하고, 모든 트랜잭션들이 이 규약을 따르도록 하는 것이다. 따라서 트랜잭션 스케줄이 직렬 가능 스케줄인지를 미리 검사할 필요가 없다. 가장 많이 사용되는 병행 제어 기법으로는 로킹 기법이 있다.

로킹 기법의 개념

로킹 기법은 병행 수행되는 트랜잭션들이 동일한 데이터에 동시에 접근하지 못하도록 lock과 unlock이라는 2개의 연산을 이용해 제어한다. 로킹 기법의 기본 원리는 한 트랜잭션이 먼저 접근한 데이터에 대한 연산을 모두 마칠 때 까지, 해당 데이터에 다른 트랜잭션이 접근하지 못하도록 상호 배제하여 직렬 가능성을 보장하는 것이다. 로킹 기법에서 lock 연산은 트랜잭션이 사용할 데이터에 대한 독점권을 가지기 위해 사용하고, unlock 연산은 트랜잭션이 데이터에 대한 독점권을 반납하기 위해 사용한다. 

기본 로킹 규약에서는 트랜잭션이 데이터베이스에 있는 데이터에 접근하는 연산을 실행하려면 먼저 해당 데이터에 lock 연산을 실행하여 독점권을 획득한다. 이때, 다른 트랜잭션이 이미 lock 연산을 실행한 데이터에는 다시 lock 연산이 실행될 수 없다. 트랜잭션이 lock 연산을 통해 독점권을 획득한 데이터에 대한 모든 연산을 수행하고 나면 unlock 연산을 실행할 수 있다.

lock 연산을 실행하는 대상 데이터의 크기인 로킹 단위는 크게는 데이터베이스부터 작게는 데이터베이스를 구성하는 속성에 이르기까지 다양한 크기의 데이터를 대상으로 실행할 수 있다. 다만 로킹단위가 커질수록 병행성은 낮아지지만 제어가 쉽고, 로킹 단위가 작아질수록 제어가 어렵지만 병행성은 높아진다.

lock 연산

또한 위와 같이 write 연산과 다르게 read 연산에 대해서는 트랜잭션들이 하나의 데이터에 read 연산을 동시에 실행할 수 있도록 해서 처리 필요성을 높일 필요가 있다. 다만 일관성 없는 데이터에 대한 접근을 할 수 있기에 기본 로킹만으로는 완벽한 트랜잭션 스케줄의 직렬 가능성을 보장할 수가 없다. 따라서 lock과 unlock 연산을 실행하는 시점에 대한 새로운 규약이 추가된 2단계 로킹 규약이 필요하다.

2단계 로킹 규약

기본 로킹 규약의 문제를 해결하고 트랜잭션의 직렬 가능성을 보장하기 위해 lock과 unlock 연산의 수행 시점에 대한 새로운 규약을 추가하여 직렬 가능성을 보장시킨 것이 2단계 로킹 규약이다. 2단계 로킹 규약에서는 모든 트랜잭션이 lock과 unlock 연산을 확장 단계, 축소 단계를 포함한 2단계로 나누어 실행한다. 확장 단계는 트랜잭션이 lock 연산만 실행할 수 있고, unlock 연산은 실행할 수 없는 단계이고, 축소 단계는 트랜잭션이 unlock 연산만 실행할 수 있고, lock 연산은 실행할 수 없는 단계이다. 

트랜잭션이 처음에 수행되면 확장 단계로 들어가 lock 연산만 실행할 수 있다. 그러다가 unlock 연산을 실행하면 축소 단계로 들어가 그때부터는 unlock  연산만 실행할 수 있게 된다. 2단계 로킹 규약을 준수하는 트랜잭션은 첫 번째 unlock 연산을 실행하기 전에 필요한 모든 lock 연산을 실행해야 한다. 다만 트랜잭션들이 상대가 독점하고 있는 데이터에 unlock 연산이 실행되기를 서로 기다리면서 수행을 중단하고 있는 교착 상태가 발생할 수 있기에 조치가 필요할 수 도 있다.

 

 

출처
데이터베이스 개론 2판 - 한빛아카데미 출판, 김연희 저
 

데이터베이스 개론 - 교보문고

[요약]①데이터베이스 기초 이론 : 1장에서 데이터베이스를, 2장에서 DBMS를 소개합니다. 3장에서는 이들을 조합한 데이터베이스 시스템을 소개합니다.②데이터 모델과 연산 : 4장에서 데이터 모

www.kyobobook.co.kr

반응형