1540 words
8 minutes
[Concept]미분류 개념들
2026-01-21
2026-02-27

Overview#

  • 아직 분류하지 않은 Concept를 모아두기 위한 문서
  • 요즘 llm덕분에 input이 너무 많아져서 이런 식으로 버퍼를 걸어서 정리해야한다.

Concept#


Concept

  • Spring AOP Proxy : 런타임에 원래 객체의 기능을 감싸서 대신 호출함(Proxy), 메소드 호출 전후에 공통적으로 로직(Advice)을 삽입함. python decorator와 유사
  • CGLib(Code Generator Library): 클래스의 byte code를 조작해 Proxy 객체를 생성해 주는 라이브러리
  • JDK Dynamic Proxy : JDK Dynamic Proxy는 자바의 리플렉션(Reflection) API를 사용하여 런타임에 인터페이스 기반으로 프록시 객체를 동적으로 생성하는 기술

python#


Concept

  • @property : python에서 class attribute 처럼 접근하면서 내부적으로는 계산 로직을 수행하고 읽기 전용으로 쓰는 등 동작을 추가할 때 사용. 기본적으로 외형과 내부 동작이 다를 때 유용

airflow#


Concept

  • Airflow DagBag : dags_folder를 순회하며 파이썬 파일들을 모듈로 임포트(Import)하고, 그 결과 생성된 DAG 객체들을 수집하여 관리하는 메모리 상의 컨테이너. python file을 객체로 변환시키는 일종의 변환기 역할
  • Dag Serialization : dagbag의 파이썬 객체를 json으로 직렬화해서 db에 저장하는거

git#


Concept

  • git rebase : 현재 브랜치 커밋들을 새 base 위에 다시 생성(rewrite)하여 재배치하는 것. 기본적으로 커밋을 복사해서 재생성. history 직선화.
  • git merge —ff feature : 새 커밋 없이 브랜치 포인터만 앞으로 이동시켜 포함시키는 것. 브랜치를 합치는게 아님
  • git merge —squash feature : 여러 커밋의 변경을 하나의 커밋으로 압축해 합치는 것. 기존 커밋이 사라짐.
  • git rebase -i main : 커밋을 편집,재정렬,병합,삭제하며 재작성하는 히스토리 편집 모드

spark#


Concept

  • Spark Driver : Spark 어플리케이션의 main() 을 실행하고 DAG를 계획하는 일종의 작업계획자.
  • SparkContext(sc) : Spark 기능의 주요 진입점. 클러스터 연결을 관리합니다.
  • DAG(spark) : 방향성 비순환 그래프. spark Driver가 만드는 작업의 흐름도.
  • Client Mode : Driver가 제출한 클라이언트(내 컴퓨터)에서 실행됨. 상호작용에 유리.
  • Cluster Mode : Driver가 클러스터 내부의 노드에서 실행됨. 운영 안정성에 유리.

spark cluster#


Concept

  • Cluster Manager : 클러스터 전체의 자원을 관리하고 조율하는 서비스. Spark는 특정 매니저에 종속되지 않음.
  • Spark Master : Driver가 클러스터 내부의 노드에서 실행됨. 운영 안정성에 유리.
  • Yarn : yet another resource manager. 외부 자원관리 시스템

Database#

isolation level#


Concept

  • isolation level : 기본적으로 동시에 실행되는 트랜잭션들을 얼마나 격리할 것인가의 문제. 격리수준이 낮을 경우 성능과 동시성은 늘지만 anomaly또한 늘어남 격리수준이 높을 경우 안정성은 높지만 성능을 희생함
  • READ UNCOMMITED : commit되지 않은 데이터도 읽음. dirty read, none-repeatable read, Phantom Read 모두 가능
  • READ COMMITTED : commit된 데이터만 읽음. 일반적인 기본값
  • REPEATABLE READ : transaction 전체를 순차 실행처럼 보장
  • SERIALIZABLE : 기본적으로 concurrent한 action을 serial execution처럼 보이게 하는 것. 논리적 충돌 감지해서 rollback발생시킴. 정합성을 보장하지만 deadlock/rollback 많음.

Anomaly#


Concept

  • Dirty Read : 이상현산의 일종. 커밋안된 값 읽음. 정확히는 어떤 트랜잭션에서 처리한 작업이 커밋되지 않았는데도 다른 트랜잭션에서 보이는 거
  • None repeatable Read : 이상현상의 일종. 같은 row를 두 번 읽었는데 값이 바뀜. row snaphot이 유지되지 않아서 발생. MVCC나 row snapshot으로 해결
  • Phantom Read : 이상현상의 일종. 같은 조건으로 조회했는데 row 개수 자체가 달라짐. 다른 transaction의 insert, delete의 영향

Data Engineering#


Concept

  • OLTP : Online Transaction Processing. 실시간 비즈니스 트랜잭션을 처리하는 시스템. 짧은 응답시간과 높은 동시성이 핵심->인덱스 관리가 핵심
  • OLAP : 대량 데이터를 분석하여 인사이트를 도출하는 시스템. 처리량과 복잡한 집계 연산이 핵심.파티셔닝과 정렬키가 핵심
  • Latency : 요청을 보내고 응답을 받기까지 걸리는 시간. OLTP에서 중요한 지표
  • Throughput : 단위 시간당 처리할 수 있는 데이터/작업의 양. OLAP에서 가장 중요한 지표
  • TPS : Transactions Per Second. 초당 처리 가능한 트랜잭션 수. OLTP 시스템의 용량을 나타내는 핵심 지표
  • SIMD : Single Instruction Multiple Data. 하나의 cpu intruction으로 여러 데이터를 동시에 처리하는 기술
  • Dictionary Encoding : 반복되는 값을 사전으로 만들어 참조하는 압축기법. 컬럼형 저장에서 높은 압축률 달성.
  • MVCC : 기본적으로는 데이터의 여러 버전을 유지하여 락 free하게 동시성을 확보하는 것

Kafka#


Concept

  • Delivery Guarantee : 분산 시스템에서 메시지가 몇 번 전달될지를 정의하는 계약. At Most Once, At Least Once, Exactly Once 세 가지 수준이 있음
  • acks (Acknowledgment) : Producer가 메시지 전송 성공으로 간주하기 위해 필요한 Broker 확인 수준. 0, 1, all 값을 가짐
  • Offset Commit : Consumer가 어디까지 메시지를 처리했는지 Kafka에 기록하는 것. commit 시점이 Delivery Guarantee를 결정
  • Idempotent Producer : 같은 메시지를 여러 번 보내도 Broker에 한 번만 저장되도록 보장하는 Producer 설정
  • min.insync.replicas : acks=all일 때 최소 몇 개의 replica가 동기화되어야 쓰기 성공으로 볼지에 대한 정의. Broker 설정
  • Replication Factor : 각 파티션의 데이터를 몇 개의 Broker에 복제할지에 대한 정의. 데이터 내구성과 가용성에 영향

[Concept]미분류 개념들
https://yjinheon.netlify.app/posts/60unsorted/unsorted-concepts/
Author
Datamind
Published at
2026-01-21
License
CC BY-NC-SA 4.0