12 月 16 日、カザフスタンは、KazLLM と呼ばれる初の大規模言語モデル (LLM) を発表し、技術的に大きな前進を遂げる予定です。 この打ち上げは、国の独立33周年と同時に行われます。
こちらもお読みください: 生成 AI がビデオゲームの NPC に命を吹き込む
スマートシステム人工知能研究所(ISSAI)が7月18日にナザルバエフ大学で行った説明会でこれを発表した。 プロジェクトのデータ収集は 3 月に開始され、モデルは NVIDIA H100 ノードで提供されるクラウド コンピューティング プラットフォームを使用してトレーニングされています。
dentと専門家が協力して AI 開発に取り組む
ナザルバエフ大学のdent、アスタナ IT 大学のdent、ボラシャク奨学金の卒業生、および地元の参加者が KazLLM プロジェクトに協力しています。 この取り組みの主な目的は、KazLLM を創設し、インテリジェントな AI ツールとアプリケーションを作成できる労働力を創出することです。
ISSAI の創設者であり教授であるアタカン・ヴァロル教授は、他国との技術格差をこのプロジェクトを通じて埋めたいと考えています。 同氏は、完成後、カザフスタンは先進国との技術面での遅れがわずか18カ月になるだろうと述べた。 音声機能の統合により、この期間は 12 か月に短縮されると予想されており、さらなる言語視覚モデルの進歩により、カザフスタンが AI 開発の最前線に立つ可能性があります。
ウィキペディアの記事、報道機関、政府の Web サイト、Common Crawl などのオープン データセットは、プロジェクトのデータが取得されるソースの一部です。 ISSAI は 5 年以上にわたり、カザフ語専用に設計されたさまざまな自然言語処理データセットを作成してきました。 この広範なデータセットのコレクションは、KazLLM を効果的かつ正確にトレーニングするのに役立つため、非常に重要です。
カザフスタンはAIイノベーションで国家安全保障と情報安全保障に取り組むことを望んでいる
KazLLM プロジェクトは国家および情報セキュリティに影響を及ぼします。 カザフスタンは、国内で作成した言語モデルを作成することで、データ侵害や歪んだ情報の表示につながる可能性のある外国技術への依存を最小限に抑えたいと考えている。
対外関係担当次長で主任データサイエンティストのマディナ・アブドラクマノバ氏は、このモデルの広範囲にわたるトレーニング コーパスを強調しました。 「それはカザフ語、ロシア語、英語、トルコ語の最低1000億トークンで構成され、各言語は250億トークンで表される」とディレクターは述べた。
現在、このプロジェクトには 300 億以上のトークンがあり、その中には英語をカザフ語データに変換する Tilmash 翻訳機を通じて生成された 260 億トークンが含まれます。 この翻訳機能により、モデルによって一貫性のある正確なテキストがカザフ語で生成されることが保証されます。
こちらもお読みください: OpenAI が lite になり、GPT-4o mini と呼ばれる安価な AI モデルをリリース
ISSAI は、KazLLM をよりアクセスしやすいように、OpenAI モデルのようなユーザーフレンドリーなインターフェイスを作成する予定です。 完成すると、モデルの相互作用、人間のフィードバックからの強化学習、さまざまな状況に合わせた調整をサポートしてパフォーマンスを最大化できるようになります。 KazLLM は、一般的なサブスクリプション パッケージとして、および経験豊富なユーザー向けの API として提供されます。