Програма „Цифрова Европа“ на ЕС подкрепя цифровата трансформация, включително развитието на многоезични езикови инструменти, базирани на изкуствен интелект (ИИ).
Като част от тези усилия, Европейската комисия, чрез Генерална дирекция „Писмени преводи“, предлага редица многоезични езикови инструменти, базирани на изкуствен интелект, в рамките на програмата. Те могат да се ползват както от институциите на ЕС, така и от публичните администрации, университети, академичните среди, неправителствени организации, малки и средни предприятия и други отговарящи на условията субекти.
Гамата е изключително широка, като обхваща от езикови продукти и услуги, до инструменти за превод. Гарантирани са сигурността и поверителността на превежданите и обработвани документи и текстове, като данните не се съхраняват.
Можете да се запознаете накратко с възможностите на инструментите и програмите по-долу, както и да разгледате детайлната презентация по-долу.
eTranslation – мощен инструмент за машинен превод, разработен въз основа на професионалните преводи на ЕС, осигуряващ надеждни преводи между над 24 езика, който работи с различни формати на документи, като обемът на превежданите материали е 20 мегабайта.
eSummary – инструмент, който използва изкуствен интелект за автоматично обобщаване на текстове от различни документи. Той е предназначен да подпомага анализирането на големи обеми информация, като извлича ключови моменти и представя съкратена версия на съдържанието. Особено полезен e за правни, административни и научни документи, където бързото разбиране на основните идеи е от съществено значение.
eBriefing – автоматично генериране на доклади от набори от документи в официален или общ стил.
eReply – помощ при подготовката на отговори на кореспонденция, запитвания и други заявки с помощта на ИИ.
Accessible Text – инструмент за пренаписване на текстове на английски език, за да станат по-достъпни за хора с интелектуални затруднения или по-сериозни затруднения при четене.
WebText – преработва и опростява съдържанието на уебсайтове, следвайки принципите на ясен и разбираем език. В момента поддържа английски, френски и немски език, като се очаква добавяне на още езици.
Анонимизиране на текст – инструмент за премахване на лични данни и идентифицираща информация от документи, което е особено полезно за защита на личните данни и съответствие с регулациите като GDPR.
Класифициране на съдържание – NLP модели, които автоматично категоризират текстове по тематика, тон или цел, подпомагайки анализирането на големи обеми информация.
Разпознаване на именувани обекти (NER) – технология, която идентифицира и класифицира именувани същности в текст (напр. имена на хора, организации, местоположения, дати и цифрови стойности). Това подобрява извличането на информация и анализа на съдържание. Тези инструменти се използват в различни приложения, включително анализи, автоматизирано извличане на данни и подобряване на търсачките.
С повече информация за конкретен инструмент, както и с начините за регистрация и достъп, можете да се запознаете и на следния линк: https://language-tools.ec.europa.eu/
IATE – търсачка с терминология на всички езици на ЕС + някои термини на латински (https://iate.europa.eu/home): Базирана на проект, започнал през 1999, IATE обединява всички терминологични ресурси на ЕС като по този начин се подобрява наличността и стандартизацията на тяхното съдържание в система за управление на терминологията на ЕС. Институциите и органите на ЕС използват IATE за събиране, разпространение и управление на терминологията на ЕС от 2004 г. насам.
Общо европейско пространство на езикови данни (LDS): функционира от 2023 г. и подпомага обмена на данни между институции и организации, както и DGT-TM, която съдържа паралелни текстове на 24-те официални езика на ЕС, включително законодателни документи, и се увеличава с около 200 милиона думи годишно.
Хранилището на езикови ресурси ELRC-SHARE, събрани в сътрудничество с държавите членки и проекти на ЕС, съдържащо около 6000 набора от данни.
Euramis и DGT-TM са ключови езикови ресурси, разработени също от Генерална дирекция „Писмени преводи“ на ЕК, подпомагащи многоезичната комуникация в ЕС и предоставят висококачествени данни за научни изследвания и изкуствен интелект.
Euramis е Централна база данни, използвана от преводачите на Европейската комисия, която съдържа над 2 милиарда изречения, преведени на 24 официални езика на ЕС, обработва над 300 000 изречения дневно и поддържа работата на 1500 преводачи, като осигурява последователност и качество на преводите с помощта на 300 ИТ специалисти, в това число и 100 български преводачи.
DGT-TM, публично достъпна база данни, съдържаща преводи на законодателството на ЕС. В нея се намират и 15% от данните са оповестени публично за научни изследвания и разработка на ИИ. Поддържа 276 езикови двойки, което я прави ценен ресурс за машинен превод и езикови технологии.
Тези ресурси играят важна роля в развитието на многоезичните технологии и подпомагат автоматизираните преводи, анализирането на текстове и обучението на езикови модели
Използването на езиковите инструменти основани на ИИ в ЕС нараства, като от 2017 до 2024 г. броят на обработените страници са над 764 милиона страници.
България е на четвърто място по използване на инструментите.
Осигуряване действието на езиковите инструментите и предоставянето на услугите се осъществява чрез един от най- мощните суперкомпютри в Европа – Леонардо.
Европейката комисия препоръчва и насърчава използването на езиковите инструменти, като при необходимост, можете да се свържете със Свилена Георгиева, служител по езиковите въпроси от ГД „Писмени преводи“ от Представителство на ЕК в България или с колетите от Люксембург и Брюксел на адрес: [email protected]
/ДК/
/ИИ/