Opinion
L’IA per daissar pas de costat cap de lenga
Fa un an vos parlavi de l’iniciativa de Meta (grop de Facebook, Instagram etc) apelada Flores 101. L’idèa èra de far venir possibla la traduccion automatica entre lengas dichas paucas dotadas, per çò qu’es de la disponibilitat de còrpus numerics. Se considèran paucas dotadas las lengas amb mens d’un milion de ressorsas textualas disponiblas. Ongan l’iniciativa concernís 200 lengas, las de la debuta e de novèlas, valent a dire que l’occitan es totjorn present. La comunicacion que ne fan parla d’inclusion pr’amor que la gent que parlan pas las lengas mai emplegadas d’Internet poirián aver accès a de reviradas gràcia a lor trabalh. Sabètz que los islandeses passan a l’anglés pr’amor que lor lenga es pauca visibla al numeric?
L’òbra comportava tres etapas: Construccion dels jòcs de donadas, entraïnaments e evaluacions.
Un exemple d’inegalitat de disponibilitat de donadas que dònan e que tròbi interessant es aqueste:
Lingala es parlat per 45 milions de personas mas la Wikipèdia ligada a aquesta lenga conten sonque 3 260 article. En comparason lo suedés a 10 milions de locutors e una Wikipèdia de 2,5 milions d’articles (87 377 articles per la declinason occitana).
Una autra dificultat per amassar de tèxt es de poder identificar la lenga d’un biais automatic. CLD3 e fasttext, doas aisinas de deteccion de lenga plan utilizadas, reconeisson pas que 107 e 187 lengas caduna. D’autras pòdon montar a 1 629 lengas en utilizant de listas de mots. Per aquesta iniciativa utilizèron las traduccions de FLORES 200 fachas per de professionals per trapar la lenga que se sembla a l’ensem. 3001 frasas extrachas de Wikipèdas foguèron traduchas per d’umans per construire un còrpus de basa.
Lo domeni dels dectadors de lenga m’interèssa e ai ja començat de contribuir per far detectar l’occitan. Lo tèxt sovent utilizat per generar los fragments es la declaracion dels dreches umans, trapabla aisidament suls internets.
Totes los metòdes utilizats son citats dins lor document PDF de 190 paginas enlà
Las evaluacions foguèron assistidas per informatica mas tanben validadas per d’èstres umans.
Los modèls d’entraïnament e tot çò desvelopat es passat jos licéncia liura per ajudar als desvelopament de novèlas causas ligadas a la traduccion.
Amai ofrisson una borsa de 200 000€ a d’organizacions sens tòca lucrativa per desvelopar d’aplicacions per la vida vidanta.
Agachatz la video sul site, l’occitan es citat ;-)
Al mes de mai la còla d’IA de Google trabalhèt sul tèma tanben:
L’òbra comportava tres etapas: Construccion dels jòcs de donadas, entraïnaments e evaluacions.
Un exemple d’inegalitat de disponibilitat de donadas que dònan e que tròbi interessant es aqueste:
Lingala es parlat per 45 milions de personas mas la Wikipèdia ligada a aquesta lenga conten sonque 3 260 article. En comparason lo suedés a 10 milions de locutors e una Wikipèdia de 2,5 milions d’articles (87 377 articles per la declinason occitana).
Una autra dificultat per amassar de tèxt es de poder identificar la lenga d’un biais automatic. CLD3 e fasttext, doas aisinas de deteccion de lenga plan utilizadas, reconeisson pas que 107 e 187 lengas caduna. D’autras pòdon montar a 1 629 lengas en utilizant de listas de mots. Per aquesta iniciativa utilizèron las traduccions de FLORES 200 fachas per de professionals per trapar la lenga que se sembla a l’ensem. 3001 frasas extrachas de Wikipèdas foguèron traduchas per d’umans per construire un còrpus de basa.
Lo domeni dels dectadors de lenga m’interèssa e ai ja començat de contribuir per far detectar l’occitan. Lo tèxt sovent utilizat per generar los fragments es la declaracion dels dreches umans, trapabla aisidament suls internets.
Totes los metòdes utilizats son citats dins lor document PDF de 190 paginas enlà
Las evaluacions foguèron assistidas per informatica mas tanben validadas per d’èstres umans.
Los modèls d’entraïnament e tot çò desvelopat es passat jos licéncia liura per ajudar als desvelopament de novèlas causas ligadas a la traduccion.
Amai ofrisson una borsa de 200 000€ a d’organizacions sens tòca lucrativa per desvelopar d’aplicacions per la vida vidanta.
Agachatz la video sul site, l’occitan es citat ;-)
Al mes de mai la còla d’IA de Google trabalhèt sul tèma tanben:
— https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html
— e aquí: building machine translation systems for the next thousand languages
La finalitat del projècte es pas clara e los jòcs de donadas son pas liberats.— e aquí: building machine translation systems for the next thousand languages
Jornalet es possible gràcias al sosten economic e jornalistic dels legeires e benevòls. Se lo podètz sosténer en venent sòci dels Amics del Jornalet o de l'Associacion ADÒC, o tot simplament en fasent un don, atal contribuiretz a far un mèdia mai independent e de melhora qualitat.
Lo PDF se trapa aquí : https://research.facebook.com/publications/no-language-left-behind/
Un pichon apondon : gràcia a lor trabalh se pòt ara traduire dirèctament del zolo a l'occitan, de l'occitan al panjabi o encara al tailandés. Totas las possibilitats de las 200 lengas entre elas. Generèron tanben una tièra de mots rudes o de blasfèmias, se pausa la question de l'integritat de la traduccion quand la censura es volontària aital.
Vòstre comentari es a mand d’èsser validat. Per terminar lo procès de validacion, vos cal encara clicar sul ligam qu’anatz recebre per e-mail a l’adreiça qu’avètz indicada.
Escriu un comentari sus aqueste article
Senhala aqueste comentari