עד 2022, גוגל הוסיפה 24 שפות חדשות באמצעות תרגום מכונה 'zero-shot', שבו מודל למידת מכונה לומד לתרגם לשפה אחרת מבלי לראות אף דוגמה, והכריזה על "יוזמת 1,000 השפות, התחייבות לבנות מודלים של בינה מלאכותית שיתמכו ב-1,000 השפות המדוברות ביותר בעולם," מזכירה גוגל.
"אנחנו כעת משתמשים בבינה מלאכותית כדי להרחיב את טווח השפות הנתמכות" ו"הודות למודל השפה המצוין שלנו PaLM 2, אנחנו מתחילים להטמיע 110 שפות חדשות בגוגל תרגום, ההרחבה הגדולה ביותר שלנו אי פעם, כולל פורטוגזית מפורטוגל", נאמר בפרסום מקוון.
במילים אחרות, גוגל תרגום יבחין כעת בין גרסאות פורטוגזית (פורטוגל לעומת ברזיל).
"מקנטונזית ועד ק'קצ'י, השפות החדשות הללו מייצגות יותר מ-614 מיליון דוברים, ומאפשרות תרגומים לכ-8% מאוכלוסיית העולם," אומרת גוגל.
כרבע מהשפות החדשות "הן מאפריקה ומייצגות את ההרחבה הגדולה ביותר שלנו של שפות אפריקאיות עד כה, כולל פון, קיקונגו, לואו, גא, סוואטי, ונדה וולוף", היא מוסיפה.
בין השפות הנתמכות כעת בגוגל תרגום נמצאת אפר, שפה טונלית המדוברת בג'יבוטי, אריתריאה ואתיופיה. "מכל השפות בהשקה זו, לאפר היה המספר הגבוה ביותר של תרומות התנדבותיות מהקהילה," היא אומרת.
לאחר מכן הייתה קנטונזית, שהייתה מזמן "אחת השפות המבוקשות ביותר בגוגל תרגום", היא ממשיכה.
דוגמאות נוספות הן מאנקס, השפה הקלטית של האי מאן, שכמעט נכחדה עם מותו של הדובר הילידי האחרון שלה ב-1974, אך "הודות לתנועת התחייה ברחבי האי, יש כיום אלפי דוברים", ו-Nko, צורה מתוקננת של שפות המנדינג במערב אפריקה המאחדת דיאלקטים רבים לשפה משותפת.
"האלפבית הייחודי שלה הומצא ב-1949 ויש לה קהילת מחקר פעילה שמפתחת כיום משאבים וטכנולוגיה עבורה," אומרת גוגל בפרסום שלה.
ישנה גם פנג'אבי (שאמוקי), גרסה של פנג'אבי הכתובה בכתב פרסו-ערבי (שאמוקי) והיא השפה המדוברת ביותר בפקיסטן, תמאזיגת, שפה ברברית המדוברת בצפון אפריקה, וטוק פיסין, "קריאולית ממוצא אנגלי והלינגואה פרנקה של פפואה גינאה החדשה".
לשפות "יש וריאציות עצומות: גרסאות אזוריות, דיאלקטים, דפוסי איות שונים" ולמעשה, "לשפות רבות אין פורמט סטנדרטי, כך שבלתי אפשרי לבחור את הגרסה 'הנכונה'".
אבל "הגישה שלנו הייתה לתעדף את הגרסאות הנפוצות ביותר בכל שפה," היא אומרת.
"PaLM 2 היה חלק מפתח בפאזל הזה, עוזר למתרגם ללמוד שפות קרובות ביעילות רבה יותר, כולל שפות קרובות להינדי, כמו אוואדהי ומרוואדי, וקריאוליות צרפתיות, כמו קריאולית סיישל וקריאולית מאוריציוס," היא מסבירה.
וככל שהטכנולוגיה מתפתחת "ואנו ממשיכים לשתף פעולה עם בלשנים מומחים ודוברים ילידיים, נתמוך בעוד יותר גרסאות שפה ומוסכמות איות לאורך זמן".