코멘토 로고

AI 브리핑

매일 AI 업계의 핵심만 골라 전해드려요

6월 29일 (월)

요약

  • ·AI 에이전트의 장기 작업 능력을 측정하는 새 벤치마크들이 잇따라 공개되며, 평가 기준이 빠르게 진화하고 있어요.
  • ·딥시크의 추론 속도 85% 향상 오픈소스 프레임워크와 MS의 자체 코딩 모델 출시로 개발 생산성 경쟁이 가열되고 있어요.
  • ·중국 AI 기업들이 사이버보안 분야에서 Anthropic 수준에 도달했다는 평가가 나오며 미중 AI 격차가 빠르게 좁혀지고 있어요.
  • ·AI로 인한 미국 해고가 팬데믹 이후 최고 수준에 달하며 AI 자동화의 노동시장 충격이 현실화되고 있어요.
AI 에이전트 벤치마크 경쟁 본격화딥시크·MS, 추론 효율화 기술 공개미중 사이버보안 AI 격차 축소

주요 뉴스13

AI 모델뉴스 · AI타임스 - 전체기사

전문가 1.6시간 분량의 실제 업무를 기준으로 AI 에이전트의 장기 작업 능력을 평가하는 'OS월드 2.0'이 공개됐어요. 클로드 오퍼스 4.8이 최고점을 기록하며 기존 단순 벤치마크를 대체할 새 기준이 등장했어요.

장시간 컴퓨터 사용 능력 벤치마크 'OS월드 2.0' 공개…클로드 오퍼스 4.8 최고점

AI 모델뉴스 · AI타임스 - 전체기사

에포크 AI가 인터넷·원본 코드 없이 처음부터 프로그램을 구현하도록 요구하는 '미러코드' 벤치마크를 공개했어요. 기존 코드 암기 방식으론 통과가 불가능해 AI의 진짜 개발 역량을 검증할 수 있어요.

에포크 AI, '장기 개발 능력' 검증 벤치마크 공개...“코드 암기론 통과 못해”

엔지니어링뉴스 · AI타임스 - 전체기사

딥시크가 추측형 디코딩으로 LLM 추론 속도를 최대 85% 높이는 오픈소스 프레임워크 'D스파크'를 공개했어요. 서비스 비용과 응답 속도 모두 개선할 수 있는 실용적인 도구예요.

딥시크, LLM 추론 속도 최대 85% 높이는 ‘D스파크’ 오픈소스 공개

산업·비즈니스뉴스 · AI타임스 - 전체기사

MS가 자체 개발한 코딩 모델 'MAI-Code-1-Flash'를 깃허브 코파일럿에 출시했어요. 클로드 하이쿠보다 빠르고 저렴하다고 주장하며 대규모 반복 코딩 작업에 최적화됐어요.

MS, 깃허브 코파일럿에 '가성비' 자체 코딩 모델 출시..."하이쿠보다 빠르고 저렴"

AI 모델커뮤니티 · HackerNews

중국 AI 기업들이 사이버보안 분야에서 Anthropic의 Mythos 수준 성능을 달성했다는 분석이 나왔어요. 예상보다 빠른 미중 AI 격차 축소로 글로벌 AI 경쟁 구도가 흔들리고 있어요.

China Has Matched Anthropic in Cybersecurity, Resetting AI Race

AI 모델커뮤니티 · HackerNews

Semgrep의 자체 사이버보안 벤치마크에서 오픈소스 GLM 5.2가 Claude를 능가했어요. 특정 도메인에서는 오픈소스 모델이 상용 최강자를 이미 넘어서고 있다는 걸 보여줘요.

Semgrep: GLM 5.2 beats Claude in our Cyber Benchmarks

산업·비즈니스커뮤니티 · HackerNews

오스트리아가 미국의 접근 제한 이후 Anthropic을 EU에 유치하려 로비 중이에요. AI 기업을 둘러싼 지정학적 유치 경쟁이 본격화되고 있다는 신호예요.

Austria Lobbies EU to Host Anthropic After US Access Curbs

산업·비즈니스커뮤니티 · HackerNews

구글이 메타의 Gemini AI 모델 사용을 제한하기로 결정했어요. 빅테크 간 AI 기술 협력에 균열이 생기고 있음을 보여주는 사례예요.

Google limits Meta's use of its Gemini AI models

연구·논문커뮤니티 · HackerNews

미국 해고가 팬데믹 이후 최고 수준을 기록했고 전체 감축의 40%가 AI 자동화 때문이에요. AI로 인한 노동시장 충격이 수치로 드러나기 시작했어요.

US Layoffs Skyrocket to Highest Level Since Pandemic AI Blamed for 40% of Cuts

엔지니어링뉴스 · MarkTechPost

Liquid AI가 230M 파라미터 경량 모델 LFM2.5-230M을 출시했어요. 갤럭시 S25에서 초당 213 토큰으로 동작하며 에이전트 작업에 특화된 온디바이스 추론이 가능해요.

Liquid AI Ships LFM2.5-230M with llama.cpp, MLX, vLLM, SGLang, and ONNX Support for On-Device Inference

엔지니어링커뮤니티 · HackerNews

미 법무부가 Grok AI 개발을 위해 청정공기법 면제를 요청했어요. AI 인프라 확장이 환경 규제보다 국가 안보 이익으로 우선시되는 흐름이 공식화됐어요.

Grok Is More Important Than Clean Air, DOJ Says

연구·논문뉴스 · 한국경제 | 뉴스 | IT·과학

SK수펙스 유영상 위원장이 소버린 AI 없이는 기술 종속을 피할 수 없다고 경고했어요. 한국 AI 자립 전략의 시급성이 산업계 최고위 레벨에서도 강조되고 있어요.

유영상 SK수펙스 AI위원장 "소버린 AI 못 만들면 종속"

엔지니어링GitHub · ggml-org/llama.cpp

llama.cpp가 MiniCPM5 모델의 도구 호출 파서와 Jinja2 템플릿 개선을 포함한 업데이트를 배포했어요. 로컬 실행 생태계의 도구 사용 지원이 한층 강화됐어요.

[ggml-org/llama.cpp] b9833

6월 29일 AI 브리핑

AI 에이전트의 장기 작업 능력을 측정하는 새 벤치마크들이 잇따라 공개되며, 평가 기준이 빠르게 진화하고 있어요. 딥시크의 추론 속도 85% 향상 오픈소스 프레임워크와 MS의 자체 코딩 모델 출시로 개발 생산성 경쟁이 가열되고 있어요. 중국 AI 기업들이 사이버보안 분야에서 Anthropic 수준에 도달했다는 평가가 나오며 미중 AI 격차가 빠르게 좁혀지고 있어요. AI로 인한 미국 해고가 팬데믹 이후 최고 수준에 달하며 AI 자동화의 노동시장 충격이 현실화되고 있어요.

  • AI 에이전트 벤치마크 경쟁 본격화
  • 딥시크·MS, 추론 효율화 기술 공개
  • 미중 사이버보안 AI 격차 축소
  1. 장시간 컴퓨터 사용 능력 벤치마크 'OS월드 2.0' 공개…클로드 오퍼스 4.8 최고점

    전문가 1.6시간 분량의 실제 업무를 기준으로 AI 에이전트의 장기 작업 능력을 평가하는 'OS월드 2.0'이 공개됐어요. 클로드 오퍼스 4.8이 최고점을 기록하며 기존 단순 벤치마크를 대체할 새 기준이 등장했어요.

  2. 에포크 AI, '장기 개발 능력' 검증 벤치마크 공개...“코드 암기론 통과 못해”

    에포크 AI가 인터넷·원본 코드 없이 처음부터 프로그램을 구현하도록 요구하는 '미러코드' 벤치마크를 공개했어요. 기존 코드 암기 방식으론 통과가 불가능해 AI의 진짜 개발 역량을 검증할 수 있어요.

  3. 딥시크, LLM 추론 속도 최대 85% 높이는 ‘D스파크’ 오픈소스 공개

    딥시크가 추측형 디코딩으로 LLM 추론 속도를 최대 85% 높이는 오픈소스 프레임워크 'D스파크'를 공개했어요. 서비스 비용과 응답 속도 모두 개선할 수 있는 실용적인 도구예요.

  4. MS, 깃허브 코파일럿에 '가성비' 자체 코딩 모델 출시..."하이쿠보다 빠르고 저렴"

    MS가 자체 개발한 코딩 모델 'MAI-Code-1-Flash'를 깃허브 코파일럿에 출시했어요. 클로드 하이쿠보다 빠르고 저렴하다고 주장하며 대규모 반복 코딩 작업에 최적화됐어요.

  5. China Has Matched Anthropic in Cybersecurity, Resetting AI Race

    중국 AI 기업들이 사이버보안 분야에서 Anthropic의 Mythos 수준 성능을 달성했다는 분석이 나왔어요. 예상보다 빠른 미중 AI 격차 축소로 글로벌 AI 경쟁 구도가 흔들리고 있어요.

  6. Semgrep: GLM 5.2 beats Claude in our Cyber Benchmarks

    Semgrep의 자체 사이버보안 벤치마크에서 오픈소스 GLM 5.2가 Claude를 능가했어요. 특정 도메인에서는 오픈소스 모델이 상용 최강자를 이미 넘어서고 있다는 걸 보여줘요.

  7. Austria Lobbies EU to Host Anthropic After US Access Curbs

    오스트리아가 미국의 접근 제한 이후 Anthropic을 EU에 유치하려 로비 중이에요. AI 기업을 둘러싼 지정학적 유치 경쟁이 본격화되고 있다는 신호예요.

  8. Google limits Meta's use of its Gemini AI models

    구글이 메타의 Gemini AI 모델 사용을 제한하기로 결정했어요. 빅테크 간 AI 기술 협력에 균열이 생기고 있음을 보여주는 사례예요.

  9. US Layoffs Skyrocket to Highest Level Since Pandemic AI Blamed for 40% of Cuts

    미국 해고가 팬데믹 이후 최고 수준을 기록했고 전체 감축의 40%가 AI 자동화 때문이에요. AI로 인한 노동시장 충격이 수치로 드러나기 시작했어요.

  10. Liquid AI Ships LFM2.5-230M with llama.cpp, MLX, vLLM, SGLang, and ONNX Support for On-Device Inference

    Liquid AI가 230M 파라미터 경량 모델 LFM2.5-230M을 출시했어요. 갤럭시 S25에서 초당 213 토큰으로 동작하며 에이전트 작업에 특화된 온디바이스 추론이 가능해요.

  11. Grok Is More Important Than Clean Air, DOJ Says

    미 법무부가 Grok AI 개발을 위해 청정공기법 면제를 요청했어요. AI 인프라 확장이 환경 규제보다 국가 안보 이익으로 우선시되는 흐름이 공식화됐어요.

  12. 유영상 SK수펙스 AI위원장 "소버린 AI 못 만들면 종속"

    SK수펙스 유영상 위원장이 소버린 AI 없이는 기술 종속을 피할 수 없다고 경고했어요. 한국 AI 자립 전략의 시급성이 산업계 최고위 레벨에서도 강조되고 있어요.

  13. [ggml-org/llama.cpp] b9833

    llama.cpp가 MiniCPM5 모델의 도구 호출 파서와 Jinja2 템플릿 개선을 포함한 업데이트를 배포했어요. 로컬 실행 생태계의 도구 사용 지원이 한층 강화됐어요.