- QVAC Genesis II rozszerza otwarte szkolenie AI do 148 miliardów tokenów w 19 dziedzinach akademickich.
- Zbiór danych szkoli modele do wyjaśniania wyborów i poprawy rozumowania poza powierzchownym poziomem.
- Tether Data udostępnia zbiór danych otwarcie, aby wspierać badaczy poza zamkniętymi systemami AI.
Tether Data opublikował QVAC Genesis II, rozszerzając swój otwarty syntetyczny zbiór danych edukacyjnych dla sztucznej inteligencji do 148 miliardów tokenów w 19 dziedzinach akademickich. Aktualizacja dodaje 107 miliardów tokenów do wcześniejszego wydania Genesis I i pozycjonuje zbiór danych jako największy na świecie publicznie dostępny syntetyczny zasób edukacyjny do wstępnego szkolenia AI.
QVAC, dział badań nad sztuczną inteligencją Tether Data, poinformował, że zbiór danych ma na celu wzmocnienie rozumowania, wyjaśniania i podejmowania decyzji w modelach AI, zamiast uczenia się wzorców na poziomie powierzchownym. Wydanie pojawia się w momencie, gdy wiele zaawansowanych zbiorów danych szkoleniowych pozostaje ograniczonych w ramach systemów zastrzeżonych, ograniczając dostęp niezależnym badaczom i instytucjom akademickim.
Skala zbioru danych i zakres akademicki
Rozszerzony zbiór danych obejmuje 19 dziedzin akademickich i koncentruje się na głębi rozumowania edukacyjnego w ramach zadań wymagających strukturalnego rozumowania. QVAC poinformował, że zwiększenie skali wspiera bardziej spójne szkolenie modeli, które wymagają wyjść opartych na wyjaśnieniach, a nie tylko probabilistycznego przewidywania tekstu.
W rezultacie zbiór danych koncentruje się na jasności i przyczynowości w pytaniach i odpowiedziach wykorzystywanych podczas wstępnego szkolenia. Zbiór danych pozostaje otwarcie dostępny dla badaczy, uniwersytetów i niezależnych deweloperów pracujących poza zamkniętymi platformami.
QVAC opublikował Genesis II na licencji Creative Commons Attribution–NonCommercial 4.0, kontynuując podejście licencyjne zastosowane w Genesis I. Organizacja poinformowała, że licencja wspiera wykorzystanie do celów badawczych, jednocześnie zachowując wymóg przypisania autorstwa i ograniczenia komercyjnego wykorzystania. Zbiór danych i powiązane modele są dostępne przez Hugging Face, wraz ze szczegółową dokumentacją i narzędziami dostępowymi.
Nowa metoda rozumowania na poziomie opcji
W centrum Genesis II znajduje się nowa metoda generowania danych, zwana Option-Level Reasoning. Metoda ta ocenia każdą możliwą odpowiedź w pytaniu wielokrotnego wyboru, w tym poprawne opcje i powszechne błędne przekonania.
Zamiast traktować poprawne odpowiedzi jako ostateczne wyniki, podejście analizuje, dlaczego każda opcja odnosi sukces lub porażkę. QVAC poinformował, że ten proces wzmacnia prawidłowe rozumowanie, jednocześnie bezpośrednio adresując błędne założenia w danych szkoleniowych.
Metoda ta opiera się na analizie niepowodzeń wprowadzonej w Genesis I. Obie techniki tworzą razem dwumetodowy pipeline, który zapewnia, że każdy wygenerowany element wnosi wartość edukacyjną.
Niezależne oceny cytowane przez QVAC pokazują, że modele szkolone na danych Genesis II osiągają wyższą dokładność rozumowania i dostarczają jaśniejsze odpowiedzi w sposób bardziej spójny. W rezultacie zbiór danych przesuwa nacisk szkolenia w kierunku strukturalnego zrozumienia, a nie tylko płynności.
Powiązane: Tether składa propozycję przejęcia klubu piłkarskiego Juventus
Otwarte badania i cele zdecentralizowanej AI
QVAC poinformował, że publikacja jest zgodna z szerszym wysiłkiem na rzecz wspierania lokalnego i zdecentralizowanego rozwoju AI. Inicjatywa ma na celu umożliwienie szkolenia i wdrażania modeli bez polegania na scentralizowanych platformach chmurowych.
Poprzez rozszerzenie otwartych podstaw szkoleniowych, Tether Data dąży do eliminacji barier strukturalnych, z jakimi borykają się mniejsze grupy badawcze. „Większość szkoleń AI dzisiaj optymalizuje płynność, a nie zrozumienie” – powiedział Paolo Ardoino, dyrektor generalny Tether.
„Dzięki tej publikacji idziemy dalej niż tylko ilość – stawiamy na strukturę, rozumowanie i jasność” – powiedział Ardoino. Dodał, że otwarty dostęp daje badaczom narzędzia do opracowywania systemów AI, które pozostają wyjaśnialne i niezawodne.
Artykuł techniczny zatytułowany QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training jest dostępny na blogu badawczym QVAC. QVAC opublikował również szczegółowe FAQ i materiały wspierające na swojej oficjalnej stronie internetowej.
W miarę jak systemy AI rozszerzają się na edukację, naukę i usługi finansowe, w tym aplikacje fintech, czy strukturalne zbiory danych mogą zmienić sposób, w jaki systemy inteligencji uczą się i działają?


