1

Gemini 2.5 Flash 업데이트: 숙제부터 이미지 분석까지 더 똑똑해졌다

구글이 Gemini 2.5 Flash의 주요 업데이트를 발표했습니다. 이번 업데이트는 특히 교육과 학습 분야에 초점을 맞춰, 사용자들의 학습 경험을 한층 개선하는 세 가지 핵심 기능을 선보입니다.

먼저 복잡한 숙제 문제에 대한 단계별 설명 기능이 크게 향상되었습니다. Gemini의 추론 능력이 강화되어, 어려운 주제도 명확하고 체계적인 가이드를 통해 쉽게 이해할 수 있도록 도와줍니다. 또한 응답 형식이 개선되어 헤더, 목록, 표 등을 활용한 더욱 체계적이고 읽기 쉬운 출력을 제공합니다.

특히 주목할 만한 것은 이미지 인식 기능의 대폭적인 개선입니다. 이제 복잡한 이미지나 다이어그램을 촬영하면 Gemini가 상세한 분석을 제공하며, 손으로 작성한 노트를 업로드하면 자동으로 정리, 요약하거나 플래시카드로 변환해주는 기능까지 지원합니다. 이러한 업데이트를 통해 Gemini 2.5 Flash는 단순한 AI 어시스턴트를 넘어 개인 맞춤형 학습 파트너로 진화하고 있습니다.

2

Cursor Learn 한국어 페이지 오픈

커서 러닝을 소개합니다!

첫 번째 강좌는 AI 기초를 다루는 6부작 동영상 시리즈입니다. 토큰, 컨텍스트, 에이전트 같은 개념을 초보자도 쉽게 배울 수 있도록 구성했습니다.

읽는 걸 선호하신다면 퀴즈와 직접 시도해 볼 수 있는 AI 모델도 준비되어 있습니다.

약 1시간 만에 시청 가능하며, 100% 무료입니다!

3

단 두 장의 이미지로 완성하는 3D 모델링: HYPER3d Rodin2

HYPER3d가 새롭게 선보인 Rodin2는 단 두 장의 2D 이미지만으로 정교한 3D 모델을 생성하는 획기적인 서비스입니다. 정면과 후면 이미지만 있으면 완성도 높은 3D 모델을 만들어내는 이 기술은, 특히 생성된 모델을 파트별로 분리할 수 있다는 점에서 기존 서비스들과 차별화됩니다.

가장 인상적인 발전은 텍스처의 정밀도 향상입니다. 세부적인 질감 표현이 크게 개선되어 실제 제품 디자인이나 게임 개발 등 실무에서 바로 활용 가능한 수준에 도달했습니다. Rodin2는 각 파트에 대한 높은 이해도를 바탕으로 복잡한 객체도 정확하게 재구성하며, 이는 3D 모델링의 진입 장벽을 크게 낮추는 계기가 될 것으로 보입니다.

직접 해 보니 1장으로도 만들어주긴 하네요. 정면과 후면 이미지를 넣어주면 더 정교하게 만들어줍니다.

4

OpenAI가 모든 직군을 위한 프롬프트 팩을 출시

OpenAI가 모든 직군을 위한 프롬프트 팩을 출시했습니다.

300개 이상의 즉시 사용 가능한 프롬프트:

→ IT

→ 영업

→ 제품

→ 관리자

→ 엔지니어

→ 마케팅

→ 경영진

→ 고객 성공

5

음성이 영상을 만든다: Wan 2.5의 네이티브 오디오-비디오 생성 기술 출시

Wan이 2.5 프리뷰 버전에서 획기적인 신기능을 공개했습니다. 바로 네이티브 오디오 기반 비디오 생성(Native Audio-Driven Video Generation) 기능입니다. 이제 사용자는 오디오 입력만으로도 텍스트-투-비디오(text-to-video)와 이미지-투-비디오(image-to-video) 생성이 가능해졌습니다.

이번 업데이트의 핵심은 오디오를 텍스트 프롬프트나 참조 이미지와 결합하여 더욱 풍부한 비디오 내러티브를 구성할 수 있다는 점입니다. 최대 10초 길이의 비디오 생성을 지원하며, 영상 품질 또한 대폭 향상되었습니다.

이러한 혁신은 콘텐츠 크리에이터들에게 새로운 가능성을 열어줍니다. 음성 나레이션, 배경음악, 환경음 등 다양한 오디오 요소가 비디오 생성의 직접적인 입력값이 되어, 더욱 몰입감 있고 생동감 넘치는 시각적 스토리텔링이 가능해진 것입니다.

6

AI가 데스크톱 환경을 직접 구현한다? Anthropic의 야심찬 도전

Anthropic이 Claude 내에서 실시간 UI 생성이 가능한 'Imagine' 기능을 테스트하고 있습니다. 이 기능은 단순한 챗봇을 넘어, AI가 직접 데스크톱 환경과 유사한 인터페이스를 생성하고 관리하는 혁신적인 접근 방식을 보여줍니다. 사용자가 프롬프트를 입력하면 AI가 필요한 앱과 도구들을 실시간으로 생성하여 제공하는 방식입니다.

내부 코드명 'Heli'로 알려진 이 에이전트 시스템은 DOM을 직접 조작하여 동적 인터페이스를 구현합니다. 기존의 정적인 웹사이트나 미리 디자인된 앱에 의존하는 대신, AI가 작업에 필요한 인터페이스를 즉석에서 조립하고 다른 에이전트들과 협업하여 실제 기능을 제공한다는 점이 주목할 만합니다.

현재 이 기능은 제한된 데모 버전으로만 제공될 예정이며, 초기에는 Max 플랜 사용자에게만 공개될 가능성이 있습니다. Anthropic은 이를 통해 소프트웨어가 고정된 애플리케이션이 아닌, AI가 생성하는 임시적이고 동적인 워크스페이스로 진화하는 미래를 제시하고 있습니다.

오늘의 AI 뉴스는 여기까지입니다.

오늘 하루도 즐거운 하루 보내세요~!

AI 겸임교수 이종범 유튜브를 아직 구독하지 않으셨다면

https://www.youtube.com/@aiadjunct

Keep Reading

No posts found