Visoko-kvalitetan skup raznovrsnih naučnih i stručnih publikacija na Južnoslovenskim jezicima. Neophodan za obučavanje kvalitetnih jezičkih modela za južnoslovenske jezike. Ukupno 280,460 dokumenata, sa preko 4.2 milijarde reči: 1.9 milijardi na srpskohrvatskom i 2.3 milijarde na slovenačkom jeziku. Svaka JSON linija predstavlja jednu publikaciju. Unutar svakog dokumenta su obeležene rečenice i paragrafi.