بدء سريع مع واجهات GLM TTS و GLM ASR واستنساخ الصوت

جدول المحتويات

متى تستخدم هذا الدليل السريع
المتطلبات الأساسية
بدء سريع مع GLM TTS
بدء سريع مع GLM ASR
بدء سريع مع GLM Voice Clone
التسعير وملاحظات الاستخدام
الأسئلة الشائعة
مقالات موصى بها

هذا الدليل ينقلك من مفتاح API إلى صوت عملي باستخدام واجهات GLM الصوتية — GLM TTS لتحويل النص إلى كلام، وGLM ASR للنسخ، وGLM Voice Clone لتركيب صوت مخصص. جميع هذه الواجهات هي نقاط نهاية REST متزامنة دون الحاجة إلى استقصاء أو خطوة Webhook. إذا كنت تبني ميزات صوتية، أو خطوط أنابيب نسخ، أو تطبيقات صوتية صينية، فهذه هي أسرع طريقة لتكامل عملي.

متى تستخدم هذا الدليل السريع

استخدم هذا الدليل إذا كنت بحاجة إلى:

تحويل النص إلى كلام بأصوات محسنة للغة الصينية عبر POST /v3/glm-tts
نسخ ملفات صوتية بتنسيق .wav أو .mp3 عبر POST /v3/glm-asr
استنساخ صوت من عينة صوتية قصيرة وتركيب كلام جديد عبر POST /v3/glm-tts-voice-clone

جميع نقاط النهاية متاحة عبر واجهة Novita AI API على https://api.novita.ai.

المتطلبات الأساسية

حساب في Novita AI. احصل على مفتاح API الخاص بك من لوحة تحكم Novita AI.
curl للأمثلة في شل.
بايثون 3.8+ مع تثبيت requests للأمثلة في بايثون.

عين مفتاحك كمتغير بيئة:

export NOVITA_API_KEY="your_api_key_here"

بدء سريع مع GLM TTS

نقطة النهاية: POST https://api.novita.ai/v3/glm-tts

يحول النص حتى 1024 حرفًا إلى كلام. الاستجابة هي صوت ثنائي — اكتبه مباشرة في ملف.

المعاملات

المعامل	النوع	الافتراضي	ملاحظات
`input`	string	—	مطلوب. حتى 1024 حرفًا.
`voice`	string	`tongtong`	معرف الصوت النظامي أو اسم الصوت المستنسخ.
`speed`	number	1.0	النطاق: 0.5–2.0
`volume`	number	1.0	النطاق: 0–10
`response_format`	string	`pcm`	`wav` أو `pcm`. WAV يحتوي على رأس صوتي قياسي؛ PCM هو بايتات خام بتردد 24000 هرتز.
`watermark_enabled`	boolean	true	عيّنه إلى `false` فقط إذا كان حسابك قد مكّن إزالة العلامة المائية.

الأصوات النظامية

معرف الصوت	اسم العرض
`tongtong`	تونغ تونغ (الافتراضي)
`chuichui`	تشوي تشوي
`xiaochen`	شياو تشن
`jam`	حديقة دونغ دونغ – جام
`kazi`	حديقة دونغ دونغ – كازي
`douji`	حديقة دونغ دونغ – دوجي
`luodo`	حديقة دونغ دونغ – لودو

curl

curl -s -X POST https://api.novita.ai/v3/glm-tts \
  -H "Authorization: Bearer $NOVITA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "input": "你好，欢迎使用 Novita AI 语音合成接口。",
    "voice": "tongtong",
    "speed": 1.0,
    "volume": 5,
    "response_format": "wav"
  }' \
  --output output.wav

بايثون

import requests, os

response = requests.post(
    "https://api.novita.ai/v3/glm-tts",
    headers={
        "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}",
        "Content-Type": "application/json",
    },
    json={
        "input": "你好，欢迎使用 Novita AI 语音合成接口。",
        "voice": "tongtong",
        "speed": 1.0,
        "volume": 5,
        "response_format": "wav",
    },
)
response.raise_for_status()
with open("output.wav", "wb") as f:
    f.write(response.content)

الحدود: 1024 حرفًا لكل طلب. للنصوص الأطول، قسّم عند حدود الجمل وادمج الصوت. معدل العينة الموصى به للتشغيل: 24000 هرتز. أسماء الأصوات حساسة لحالة الأحرف.

بدء سريع مع GLM ASR

نقطة النهاية: POST https://api.novita.ai/v3/glm-asr

ينسخ الصوت بتنسيق .wav أو .mp3 باستخدام نموذج GLM-ASR-2512. يمكن تمرير الصوت كرابط أو سلسلة base64. القيود: ملف ≤ 25 ميجابايت، مدة ≤ 30 ثانية.

المعاملات

المعامل	النوع	ملاحظات
`file`	string	مطلوب. رابط أو صوت مشفر بـ base64. فقط `.wav` أو `.mp3`.
`prompt`	string	اختياري. سياق النص السابق، حتى 8000 حرف. استخدمه لاستمرارية النسخ المجزأ.
`hotwords`	array	اختياري. حتى 100 مصطلح خاص بالمجال لتحسين دقة التعرف.

curl (إدخال رابط)

curl -s -X POST https://api.novita.ai/v3/glm-asr \
  -H "Authorization: Bearer $NOVITA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "file": "https://example.com/sample.wav",
    "hotwords": ["Novita", "GLM"]
  }'

بايثون (إدخال base64)

import requests, base64, os

with open("sample.wav", "rb") as f:
    audio_b64 = base64.b64encode(f.read()).decode()

response = requests.post(
    "https://api.novita.ai/v3/glm-asr",
    headers={
        "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}",
        "Content-Type": "application/json",
    },
    json={"file": audio_b64, "hotwords": ["Novita", "GLM"]},
)
response.raise_for_status()
print(response.json()["text"])

الاستجابة

{ "text": "你好，欢迎使用 Novita AI 语音合成接口。" }

معالجة صوت أطول من 30 ثانية: قسّم إلى أجزاء مدة كل منها ≤30 ثانية وأرسل طلبات متسلسلة باستخدام حقل prompt لحمل سياق النص بين الأجزاء:

payload = {
    "file": next_chunk_b64,
    "prompt": previous_transcript,
}

بدء سريع مع GLM Voice Clone

نقطة النهاية: POST https://api.novita.ai/v3/glm-tts-voice-clone

يأخذ عينة صوتية ويقوم بتركيب كلام جديد بهذا الصوت. عيّن اسمًا للصوت المستنسخ؛ يمكنك إعادة استخدامه كمعامل voice في GLM TTS دون إعادة رفع العينة.

المعاملات

المعامل	النوع	ملاحظات
`audio_url`	string	مطلوب. رابط للعينة الصوتية. ≤ 10 ميجابايت، يوصى بـ 3–30 ثانية.
`input`	string	مطلوب. النص المراد تركيبه بالصوت المستنسخ.
`voice_name`	string	مطلوب. اسم فريد تعيّنه لهذا الصوت.
`text`	string	اختياري. نسخ النص للعينة الصوتية — يحسن جودة الاستنساخ.

curl

curl -s -X POST https://api.novita.ai/v3/glm-tts-voice-clone \
  -H "Authorization: Bearer $NOVITA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "audio_url": "https://example.com/voice-sample.wav",
    "input": "这是用克隆声音合成的语音示例。",
    "voice_name": "my-custom-voice",
    "text": "示例音频的文字内容"
  }'

بايثون

import requests, os

response = requests.post(
    "https://api.novita.ai/v3/glm-tts-voice-clone",
    headers={
        "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}",
        "Content-Type": "application/json",
    },
    json={
        "audio_url": "https://example.com/voice-sample.wav",
        "input": "这是用克隆声音合成的语音示例。",
        "voice_name": "my-custom-voice",
        "text": "示例音频的文字内容",
    },
)
response.raise_for_status()
data = response.json()
print(f"Voice timbre: {data['voice']}")
print(f"Audio URL: {data['audio_url']}")

الاستجابة

{
  "voice": "my-custom-voice-timbre-id",
  "audio_url": "https://..."
}

قيمة voice المُرجعة هنا يمكن تمريرها مباشرة إلى معامل voice في GLM TTS لاستدعاءات التركيب المستقبلية.

نصائح: استخدم عينة نظيفة مدتها 5–15 ثانية دون ضوضاء خلفية. قدم نص text للعينة لتحسين محاذاة الصوتيات.

التسعير وملاحظات الاستخدام

التسعير اعتبارًا من يونيو 2026، من novita.ai/pricing:

واجهة API	السعر
GLM TTS	0.28 دولار / 1 مليون حرف
GLM ASR	0.021 دولار / 1 مليون حرف
GLM Voice Clone	0.83 دولار / 1 مليون حرف

GLM TTS مناسب تمامًا للتركيب الصوتي عالي الحجم باللغة الصينية حيث تكون التكلفة مهمة. إذا كنت بحاجة إلى TTS متعدد اللغات أوسع يغطي أكثر من 30 لغة أو معالجة غير متزامنة للمحتوى الطويل، فإن MiniMax Speech هو البديل الذي يجب تقييمه.

الأسئلة الشائعة

ما اللغات التي تدعمها GLM TTS؟ محسنة للصينية (المندرين). تتعامل مع المدخلات المختلطة بالصينية والإنجليزية. للتغطية متعددة اللغات واسعة النطاق، استخدم MiniMax Speech بدلاً من ذلك.

هل يمكنني إعادة استخدام صوت مستنسخ مع GLM TTS؟ نعم. مرر voice_name الذي عيّنته في استدعاء Voice Clone كمعامل voice في GLM TTS. لا حاجة لإعادة رفع العينة.

لماذا يوجد حد 30 ثانية على GLM ASR؟ النموذج يعالج الصوت بشكل متزامن. قسّم التسجيلات الأطول عند حدود الجمل وأرسل طلبات متسلسلة باستخدام حقل prompt لحمل السياق.

ما الفرق بين مخرج pcm و wav؟ PCM هو بايتات صوت خام بتردد 24000 هرتز بدون رأس. WAV يغلف نفس الصوت في حاوية قياسية يمكن لمعظم المكتبات قراءتها مباشرة. استخدم WAV ما لم يكن خط الأنابيب الخاص بك يتطلب PCM خام.

هل يعمل تعيين watermark_enabled: false دائمًا؟ فقط إذا كنت قد أكملت إزالة العلامة المائية في إعدادات حسابك. وإلا يتم تجاهل العلامة.

بدء سريع مع واجهات GLM TTS و GLM ASR واستنساخ الصوت

متى تستخدم هذا الدليل السريع

المتطلبات الأساسية

بدء سريع مع GLM TTS

المعاملات

الأصوات النظامية

curl

بايثون

بدء سريع مع GLM ASR

المعاملات

curl (إدخال رابط)

بايثون (إدخال base64)

الاستجابة

بدء سريع مع GLM Voice Clone

المعاملات

curl

بايثون

الاستجابة

التسعير وملاحظات الاستخدام

الأسئلة الشائعة

مقالات موصى بها

Product

RESOURCES

Partners

Company

متى تستخدم هذا الدليل السريع

المتطلبات الأساسية

بدء سريع مع GLM TTS

المعاملات

الأصوات النظامية

curl

بايثون

بدء سريع مع GLM ASR

المعاملات

curl (إدخال رابط)

بايثون (إدخال base64)

الاستجابة

بدء سريع مع GLM Voice Clone

المعاملات

curl

بايثون

الاستجابة

التسعير وملاحظات الاستخدام

الأسئلة الشائعة

مقالات موصى بها

مقالات ذات صلة

Product

RESOURCES

Partners

Company