딥러닝 9

RAG 프로세스 이해하기

RAG (Retrieval Augmented Generation)질문이나 요청을 처리할 때, 기존의 LLM 결과에 추가적으로 검색한 문서 정보인 context를 결합해 보다 정확하고 구체적인 답변을 생성하는 기법최신 정보를 효과적으로 활용하기 위해 정보를 참조하는 방식으로, 단순히 기존 모델의 사전 학습된 데이터에 의존하지 않고 정보를 실시간으로 적용RAG는 외부 DB에서 최신 자료를 검색해 도메인별 최신 문서 및 연구 자료 등을 답변 근거로 삼음으로써, 대규모 언어 모델이 사전 학습 지식에만 의존할 때 발생할 수 있는 할루시네이션 문제를 효과적으로 줄여줌  1. Pre-processing 단계전처리 과정은 원본 문서를 LLM이 활용할 수 있도록 형태를 가공하는 작업입니다.Document Load: Wo..

[Chapter 8] 왜 RNN보다 트랜스포머가 더 좋다는 걸까?

1. 연속적인 데이터와 토크나이징 (Tokenizing)연속적인 데이터는 우리 일상 속에서 흔히 볼 수 있으며 이러한 데이터를 처리하는 예시는 다음과 같음검색창의 자동 완성 기능: 사용자가 `엔비디아`라고 입력할 경우 자동 완성 AI는 이 연속된 글자 입력을 바탕으로 `엔비디아 주식`, `엔비디아 그래픽 카드` 등과 같이 가능한 검색어의 뒷부분을 예측주가 예측: 과거부터 현재까지의 주가, 거래량, 경제 지표 등의 연속적인 데이터를 분석하여 미래의 주가 움직임을 예측동영상에서의 동작 인식: 체조 선수의 연기를 다음 동영상에서 연속된 프레임을 분석하여 선수의 동작을 인식하고, 해당 난이도와 완성도를 바탕으로 점수 예측 이러한 연속적인 데이터를 효과적으로 처리하기 위해 개발된 것이 바로 RNN (Recurre..

[Chapter 7] 왜 CNN이 이미지 데이터에 많이 쓰일까?

1. CNN은 어떻게 인간의 사고방식을 흉내 냈을까?CNN (Convolutional Neural Network)은 인간의 시각 처리 방식에서 영감을 받은 딥러닝 모델이며 핵심은 컨볼루션 (Convolution) 연산에 있음기존의 Fully-Connected 레이어는 모든 입력 노드를 모든 출력 노드에 연결하는 반면 CNN의 컨볼루션 레이어는 입력의 일부분만을 보는 `국소적 연결`을 사용이는 마치 신경 다발을 잘 끊어놓은 것과 같음컨볼루션 레이어도 FC 레이어와 마찬가지로 weight를 곱하고 bias를 더한 후 activation을 통과하는 기본 과정은 동일하지만 전체가 아닌 일부분만을 연결한다는 점이 가장 큰 차이점이러한 국소적 연결 구조가 CNN의 독특한 특성을 만들어냄 아래 연구 결과들은 시각 정..

[Chapter 6] 깊은 인공 신경망의 고질적 문제와 해결 방안

1. 기울기 소실 (Vanishing Gradient)과 과소적합 (Underfitting)기울기 소실: 그래디언트가 사라지는 현상네트워크의 깊이가 깊어질수록 Backpropagation 과정에서 기울기가 점차 작아져, 입력층에 가까운 레이어들의 파라미터 업데이트가 거의 이루어지지 않는 현상입력층에 가까운 레이어일수록 파라미터들에 대한 편미분이 0에 가까워져, 학습에 심각한 불균형 발생기울기 소실 문제가 발생하면 단순히 그래디언트의 크기가 0에 수렴한다는 것이 아니라 문제의 본질은 출력층은 어느 정도 학습이 되더라도, 입력층에 가까운 층들이 제대로 학습되지 않아 입력 데이터를 망쳐놓기 때문에 뒤쪽 층에서 아무리 노력해도 좋은 결과를 낼 수 없게 된다는 점 1.1 기울기 소실이 발생하는 이유 Backpro..

[Chapter 5] 인공 신경망, 그 한계는 어디까지인가?

1. Universal Approximation Theorem복습하자면 딥러닝이란 입력과 출력 간의 관계, 즉 함수를 알아내는 것이때 함수로는 인공 신경망, 특히 Fully Connected Layer로 이루어진 MLP를 주로 사용MLP (Multi Layer Perceptron)는 `weight 행렬 곱하고 bias 벡터와 함께 더하고 activation`을 여러 번 반복하는 함수 입력과 출력을 연결하는 함수를 찾는 것이 목표인데, 왜 다항함수나 삼각함수 등 다른 함수는 고려하지 않고 인공신경망을 사용할까? 수많은 함수 중에서 MLP를 선택한 특별한 이유가 있을까?MLP는 Hidden Layer가 단 한 층만 있어도 제한된 범위 안의 어떤 연속 함수든 나타낼 수 있기 때문에 MLP를 선택쉽게 말해, f..

[Chapter 4] 이진 분류와 다중 분류

1. Unit Step Function을 이용한 이진 분류키와 몸무게를 입력을 받아 체중 감량이 필요한지 (레이블 1) 또는 체중 증가가 필요한지 (레이블 0) 판단하는 이진 분류 문제로 예를 들어 설명하겠습니다. Step 1. 데이터 수집지도 학습을 위해 다양한 사람들의 키, 몸무게, 그리고 해당하는 레이블을 수집일반적으로 보다 많은 데이터를 사용할수록 모델의 분류 성능이 향상됨체중 감량과 증가의 경계에 있는 사람들의 데이터가 더 많이 추가될 경우 모델은 이 미묘한 차이를 더 잘 학습하여 보다 정확한 분류 경계선을 그릴 수 있음 Step 2. 모델 설계Unit Step Function을 활성화 함수로 사용하는 단층 신경망 모델 사용히든 레이어 없이 Unit Step Function을 활성화 함수로 사용..

[Chapter 3] 딥러닝, 그것이 알고 싶다

1. MLP, 행렬과 벡터로 표현하기MLP의 동작 방식은 `웨이트 곱하고 바이어스와 함께 더하고 액티베이션`의 연속개념적으로는 단순하지만 수식으로 표현할 경우 노드의 수와 층의 수에 따라 길고 복잡해질 수 있음하지만, 행렬과 벡터를 이용할 경우 간단하게 표현할 수 있음  주어진 신경망은 다음과 같은 구조를 가집니다:입력층: 2개 노드 (x₁, x₂)은닉층: 2개 노드 (h₁, h₂)출력층: 1개 노드 (y)가중치: w₁~w₆바이어스: b₁, b₂, b₃활성화 함수: a(·)손실 함수: E = ½(t - a(y))²  부연 설명수식의 경우 Hidden Layer가 늘어날수록 웨이트를 곱하고 바이어스를 더하고 액티베이션까지 표현하는 양이 많아지므로 매우 복잡한 것을 호가인할 수 있음반면, 행렬과 벡터를 이용..

[Chapter 2] 인공 신경망과 선형 회귀, 그리고 최적화 기법들

1. 인공 신경망 (Artificial Neural Network)인간 뇌의 신경망 구조에서 영감을 받아 만들어졌으며인공적으로 만든 신경들이 서로 연결되어 망을 이룬 형태 1.1 생물학적 신경 구조와 인공 신경의 유사성생물학적 신경 구조는 다음과 같이 크게 세 가지 부분으로 나눌 수 있습니다.수상돌기: 전기 신호를 받는 부분세포체: 받은 신호를 처리하는 부분축삭: 처리된 신호를 다음 신경으로 전달하는 부분 위와 같은 구조로 자극을 수용하고 해당 자극이 특정 임계값을 넘으면 다음 신경으로 신호를 전달하는 방식으로 작동합니다.  인공 신경은 위와 같은 생물학적 신경의 작동 원리를 모방합니다.인공 신경의 작동 과정을 간단히 설명하면 다음과 같습니다.여러 입력 노드로부터 자극을 받고받은 자극들의 총합을 계산계산..

[Chapter 1] 개념 정리

1. AI vs ML vs DL  1.1 AI (Artificial Intelligence)인간의 지능을 인공적으로 구현한 기술 전체를 아우르는 광범위한 개념머신러닝과 딥러닝은 AI의 세부 분야로, AI를 실현하는 구체적인 방법론에 해당ex) Rule-Based Algorithm 1.2 ML (Machine Learning)머신러닝의 핵심은 데이터 기반으로 학습한다는 점데이터 기반 방식은 규칙을 하나하나 만들 필요 없이, 수많은 데이터를 제공하여 AI가 스스로 규칙을 찾도록 유도복잡한 규칙을 일일이 정의할 필요 없이, 대량의 데이터를 통해 AI가 스스로 패턴을 학습하고 분류 능력을 기를 수 있음반면, 규칙 기반 알고리즘은 직접 규칙을 정의해야 함 데이터로 학습하는 과정이 머신러닝의 `훈련 과정`이며, 이..