Llama 3.2 1B бесплатно на Novita AI!

Llama 3.2 1B бесплатно на Novita AI!

Ключевые моменты

Обзор модели: Llama 3.2 1B — это легковесная многоязычная LLM от Meta, предназначенная для эффективного использования на периферийных и мобильных устройствах.

Метод обучения: Использует структурированное сокращение (pruning) и дистилляцию знаний от более крупных моделей.

Требования к оборудованию: Требуется 3,14 ГБ видеопамяти для инференса и 14,11 ГБ для тонкой настройки.

Llama 3.2 1B — это современная многоязычная большая языковая модель, созданная компани Meta, специально разработанная для легковесного развертывания на мобильных и периферийных устройствах. Её архитектура обеспечивает высокую производительность при выполнении различных задач обработки естественного языка, сохраняя при этом эффективное использование ресурсов.

Приглашайте друзей в Novita AI, и вы оба получите по $10 в виде кредитов на LLM API — до $500 суммарного вознаграждения.

Для поддержки сообщества разработчиков Llama 3.2 1B, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B сейчас доступны бесплатно на Novita AI.

qwen 2.5 7b

Что такое Llama 3.2 1B?

Модель Llama 3.2 1B — это легковесная многоязычная большая языковая модель, разработанная Meta, которая эффективно работает на периферийных и мобильных устройствах, обеспечивая при этом высокую производительность для различных задач обработки естественного языка.

llama 3.2 1b

  • Размер модели: 1B

  • Открытый исходный код: Да

  • Архитектура: Плотный трансформер (Dense Transformer)

  • Длина контекста: 128 000 токенов

  • Поддерживаемые многоязычные языки:

    • Официально поддерживаемые: английский, немецкий, французский, итальянский, португальский, хинди, испанский, тайский
    • Более широкий набор: обучен на дополнительных языках, помимо 8 перечисленных.
  • Мультимодальные возможности:

    • Вход: текст
    • Выход: текст и код
  • Метод обучения: Llama 3.2 1B была обучена с использованием структурированного сокращения (pruning) из модели Llama 3.1 8B, при котором систематически удалялись части сети с корректировкой весов для создания более компактной и эффективной модели. Также применялась дистилляция знаний, когда логиты от моделей Llama 3.1 8B и 70B использовались в качестве целевых на уровне токенов во время предобучения. Этот подход позволил Llama 3.2 1B использовать знания от более крупных моделей, повысив её производительность после процесса сокращения.

distill from llama 3.2 3b

Бенчмарки Llama 3.2 1B

llama 3.2 1b benchmark

llama 3.2 1b benchmark 1

llama 3.2 benchmark2

Требования к оборудованию для Llama 3.2 1B

Детали инференса

  • Модель: Llama 3.2 1B

  • Квантование: FP16

  • Требуемая видеопамять (инференс): 3,14 ГБ

  • Совместимые GPU:

    • RTX 3090 (12 ГБ)
    • RTX 4060 (8 ГБ)

Детали тонкой настройки (Fine-Tuning)

  • Модель: Llama 3.2 1B
  • Квантование: FP16
  • Требуемая видеопамять (тонкая настройка): 14,11 ГБ
  • Совместимый GPU: RTX 4090 (24 ГБ)

Meta выпустила квантованные версии моделей Llama 3.2 1B и 3B, что значительно уменьшило их размер и вычислительные требования. Эти квантованные модели обеспечивают сокращение размера модели до 56% и снижение использования памяти до 41% по сравнению с оригинальными версиями. Такие оптимизации делают их подходящими для развертывания на мобильных устройствах, включая смартфоны с процессорами на архитектуре ARM.

Как получить доступ к Llama 3.2 1B?

Шаг 1: Войдите и откройте библиотеку моделей

Войдите в свою учетную запись и нажмите кнопку Model Library (Библиотека моделей).

Log In and Access the Model Library

Шаг 2: Выберите модель

Просмотрите доступные варианты и выберите модель, которая соответствует вашим потребностям.

choose your model

Шаг 3: Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

llama 3.2 1b

Попробовать Llama 3.2 1B сейчас!

Шаг 4: Получите свой API-ключ

Для аутентификации в API мы предоставим вам новый API-ключ. Перейдите на страницу «Settings» (Настройки) и скопируйте API-ключ, как показано на изображении.

get api key

Шаг 5: Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с LLM Novita AI. Ниже приведен пример использования API завершения чата для Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Таким образом, Llama 3.2 1B выделяется способностью обеспечивать мощные возможности обработки языка на устройствах с ограниченными ресурсами. Благодаря открытому исходному коду и оптимизированной архитектуре, она служит ценным инструментом для разработчиков, ищущих эффективные решения в области ИИ.

Часто задаваемые вопросы

Что такое Llama 3.2 1B?

Многоязычная легковесная языковая модель, предназначенная для эффективного развертывания на мобильных устройствах.

Какие требования к оборудованию для Llama 3.2 1B?

Для инференса требуется 3,14 ГБ видеопамяти; для тонкой настройки — 14,11 ГБ видеопамяти.

Модели Llama 3.2 1B бесплатны?

Да! Novita AI предоставляет бесплатный доступ к моделям Llama 3.2 1B с простой интеграцией через API.

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ через простой API, а также предоставляет доступные и надежные GPU для построения и масштабирования.

Рекомендуемое чтение