«Яндекс» научил свои нейросети расшифровывать архивы с дореволюционной орфографией

    /upl/pictures/SR/_11_2021/shutterstock_448000054.jpg

    Технология построена на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и понимает особую структуру архивных документов.

    "Яндекс" обучил собственные нейросети расшифровывать архивные записи с дореволюционной орфографией, технология уже доступна в сервисе "Поиск по архивам". Об этом сообщает пресс-служба компании в среду.

    "Яндекс" научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией", - рассказали в пресс-службе.

    Как уточнили в компании, попробовать новую технологию в действии можно уже сейчас в сервисе "Поиск по архивам", где есть доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой. "Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и понимает особую структуру архивных документов", - добавили в "Яндексе".

    Как отметили в пресс-службе, специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII - XIX веков и десятков миллионов сгенерированных примеров. Сами материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. "Поиск по архивам" повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, именно на его материалах разработчики обучали нейросеть. <...> Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться", - сообщили в "Яндексе".

    Документы, как рассказали в пресс-службе, можно найти по каталогу или через строку поиска, также есть фильтры по годам, архивам, фондам и описям. "Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями "Яндекса". Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии", - объяснили в компании.

     

    Источник

    25.01.2023, 12:57
    Подписаться на журнал

    «Яндекс» научил свои нейросети расшифровывать архивы с дореволюционной орфографией

    /upl/pictures/SR/_11_2021/shutterstock_448000054.jpg

    Технология построена на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и понимает особую структуру архивных документов.

    "Яндекс" обучил собственные нейросети расшифровывать архивные записи с дореволюционной орфографией, технология уже доступна в сервисе "Поиск по архивам". Об этом сообщает пресс-служба компании в среду.

    "Яндекс" научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией", - рассказали в пресс-службе.

    Как уточнили в компании, попробовать новую технологию в действии можно уже сейчас в сервисе "Поиск по архивам", где есть доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой. "Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и понимает особую структуру архивных документов", - добавили в "Яндексе".

    Как отметили в пресс-службе, специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII - XIX веков и десятков миллионов сгенерированных примеров. Сами материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. "Поиск по архивам" повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, именно на его материалах разработчики обучали нейросеть. <...> Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться", - сообщили в "Яндексе".

    Документы, как рассказали в пресс-службе, можно найти по каталогу или через строку поиска, также есть фильтры по годам, архивам, фондам и описям. "Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями "Яндекса". Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии", - объяснили в компании.

     

    Источник

    25.01.2023, 12:57
    Подписаться на журнал
Подписка для физических лицДля физических лиц Подписка для юридических лицДля юридических лиц Подписка по каталогамПодписка по каталогам