본문 바로가기
반응형

Python15

Crawl4AI 사용법 완벽 가이드 — LLM·RAG용 오픈소스 웹 크롤러 (2026) RAG 인덱스를 만들다 보면 막히는 지점은 모델이 아니라 데이터다. 깨끗한 마크다운으로 본문을 뽑아야 청크·임베딩이 제대로 먹는데, 일반 크롤러는 JS 렌더링이 안 되거나 광고·푸터를 그대로 긁어온다. Crawl4AI는 이 문제를 LLM-친화 출력에 특화해서 푼다.GitHub Python 트렌딩·Trendshift 1위, Apache 2.0 라이선스라 상업 RAG에 그대로 넣을 수 있다. 이 글은 설치, 비동기 멀티 URL, RAG 연결, 한국 사이트 주의점, Firecrawl·ScrapingBee 비교를 한 번에 정리한다.📌 핵심 3줄 요약Crawl4AI는 Playwright 기반 비동기 크롤러로, JS 렌더링 페이지를 LLM-친화 마크다운으로 자동 추출한다.설치는 pip install crawl4a.. 2026. 5. 30.
pydantic-ai 완벽 가이드: 타입 안전 Python AI 에이전트 (2026) LangChain으로 에이전트를 짜다 보면 출력이 매번 다른 형태로 튀어나와 try/except를 도배하게 된다. CrewAI는 멀티 에이전트 오케스트레이션은 강력하지만, 단일 함수 한 개에 LLM을 끼우려는 상황에선 과한 추상화가 걸린다. Pydantic 팀이 만든 pydantic-ai는 이 사이의 빈자리를 정확히 노린다."LangChain 말고 더 가벼운 게 없을까?"라는 질문에서 시작한 30분짜리 핸즈온이다. 설치부터 첫 Agent, Tool 호출, TestModel 단위 테스트, 프로덕션 체크리스트까지 한 바퀴를 돈다.📌 핵심 3줄 요약pydantic-ai는 Pydantic 모델로 출력 스키마를 강제하는 단일 에이전트 프레임워크다.LangChain·CrewAI와 달리 그래프·체인 추상화 없이 함.. 2026. 5. 24.
CLI-Anything 입문: GUI 앱을 에이전트 CLI로 자동 래핑 (2026) "GIMP를 Claude Code가 직접 조작하게 하고 싶은데, 그놈은 GUI밖에 없네." 이런 막막함을 한 번이라도 느껴봤다면 이 글이 정확히 그 답을 준다.홍콩과기대 HKUDS 랩이 공개한 CLI-Anything은 "모든 소프트웨어를 에이전트가 다룰 수 있는 CLI로 자동 래핑한다"는 도발적인 프레임워크다. GIMP·Blender·LibreOffice·Inkscape·OBS·n8n 등 40여 종 데스크톱·SaaS 앱에 대해 에이전트 호출 가능한 CLI 하네스(harness)를 자동 생성한다. 이 글은 설치부터 첫 하네스 생성, Claude Code 연결까지 따라할 수 있는 입문 가이드다.📌 핵심 3줄 요약CLI-Anything은 HKUDS 랩의 오픈소스(Apache 2.0)로, GUI/SDK만 있는.. 2026. 5. 23.
MarkItDown 사용법: PDF·DOCX를 LLM용 마크다운으로 변환하는 실전 가이드 (2026) 사내 PDF 200건을 ChatGPT API에 그대로 던졌다가 토큰만 잔뜩 쓰고 답변 품질은 망가진 경험이 있다. 표는 줄이 어긋나고, 머리글·바닥글은 본문에 섞이고, 이미지 캡션은 통째로 사라졌다. 그날 이후 RAG 파이프라인의 첫 단계는 "PDF를 사람이 읽기 좋은 마크다운으로 먼저 깎기"가 됐다.마이크로소프트가 공개한 MarkItDown은 그 깎는 작업을 한 줄로 끝낸다. PDF·DOCX·PPTX·XLSX·HTML·이미지·오디오까지 9종 이상의 포맷을 단일 API로 받아 LLM이 좋아하는 마크다운으로 토해낸다. 이번 글은 설치부터 OCR·LLM 캡션, LangChain/LlamaIndex 통합, 그리고 Unstructured·pdfplumber·pandoc 같은 경쟁 도구와의 실제 차이까지 한 번에.. 2026. 5. 22.
Google ADK Samples 시작하기: 30분 안에 첫 AI 에이전트 띄우는 법 (2026) LangChain 코드가 3,000줄을 넘어가는 순간 멈춰서 다른 길을 찾고 싶어진다. 같은 고민이라면 Google이 공개한 Agent Development Kit, 줄여서 ADK 그리고 그 공식 샘플 모음인 adk-samples 레포가 가장 빠른 출구다. 추상화는 가볍고 패턴은 공식이고 Gemini와 Vertex AI까지 자연스럽게 이어진다.이 글은 ADK 자체를 광고하려는 글이 아니다. github.com/google/adk-samples 레포를 클론해서 가장 단순한 샘플 하나를 띄우고 그걸 내 도메인에 맞게 개조하는 가장 짧은 길을 보여준다.📌 핵심 3줄 요약ADK는 Google이 2025년에 공개한 Apache 2.0 라이선스의 Python 중심 에이전트 프레임워크다.adk-samples 레포의.. 2026. 5. 22.
파이썬 3.15 숨겨진 변경점 7가지 한눈에 한국어로 "Python 3.15"를 검색하면 What's New 문서를 통째로 번역한 글이 대부분이다. 정작 실무 코드가 어떻게 바뀌는지, 운영 중인 서비스에서 어떤 부분부터 손봐야 하는지는 잘 다루지 않는다. 이 글은 PEP 진행 상황과 alpha 릴리스 노트를 기준으로, Python 3.15에서 새로 도입되었거나 개선이 예고된 변경점 7가지를 짧은 before/after 코드와 함께 정리한다.참고로 일부 항목은 출시 시점에 PEP draft 또는 accepted 상태로 최종 문법이 다듬어질 수 있다. 이 글은 2026년 5월 alpha 시점 기준이다.핵심 3줄 요약타입 어노테이션 지연 평가가 기본이 되어 from __future__ import annotations를 빼도 된다.free-threade.. 2026. 5. 21.
반응형