Кратко / Главное
AI, который думает, что Второй мировой войны никогда не было
В 2026 году жизнь будет приятной и легкой. Земля будет заселена повсюду, ибо к тому времени люди откроют искусство полета. Все войны прекратятся, ибо народы научатся жить в мире и дружбе друг с другом. Это поразительно оптимистичное видение нашего ближайшего будущего исходит не от философа-утописта, а от искусственного интеллекта с мировоззрением, застывшим в начале 20 века.
Познакомьтесь с Talkie, мощной большой языковой моделью с 13 миллиардами параметров от некоммерческой исследовательской группы, намеренно изолированной от современных знаний. Ученые обучали Talkie исключительно на 260 миллиардах токенов текста до 1931 года — огромном корпусе старых газет, патентов, книг и научных журналов. Этот тщательный процесс гарантирует, что никакие «загрязнения» из интернета, ChatGPT и Reddit не проникли в его понимание.
Это не причудливый трюк или ретро-новинка. Talkie представляет собой серьезный исследовательский инструмент, разработанный ведущими учеными в области AI, включая Алека Рэдфорда, ведущего автора основополагающего исследования GPT от OpenAI в 2018 году, который также внес вклад в DALL-E и Whisper. Их цель: установить, действительно ли AI рассуждает или просто запоминает паттерны из своих обучающих данных, особенно когда лишен современной информации.
Последствия глубоки. Устранив влияние современного интернета, исследователи получают беспрецедентно чистую тестовую среду. Они могут наблюдать, как LLM строит знания, делает предсказания и даже адаптируется к совершенно новым концепциям, таким как программирование на Python — языке, которого не существовало в 1930 году, — основываясь исключительно на примерах из контекста.
Результаты неизменно странные, часто тревожные и, несомненно, завораживающие. Ответы Talkie рисуют яркую, анахроничную картину будущего, которое так и не наступило, предлагая по-настоящему дикие взгляды на современную жизнь. Этот уникальный AI-«капсула времени» генерирует поток своеобразных идей, бросая вызов нашим глубочайшим предположениям о понимании мира искусственным интеллектом.
Внутри разума винтажной машины
Этот уникальный AI, официально известный как `talkie-1930-13b-base` (или `talkie-1930-13b-it` для разговорного использования), работает на существенной архитектуре с 13 миллиардами параметров. Исследователи обучали его исключительно на огромном корпусе из 260 миллиардов токенов исторического английского текста, тщательно отобранных из материалов, опубликованных до 1931 года. Этот уникальный набор данных гарантирует, что мировоззрение Talkie полностью формируется знаниями до Второй мировой войны.
Его обширные обучающие данные включают разнообразный набор источников, обеспечивая надежную историческую перспективу, свободную от современного влияния. К ним относятся: - Старые газеты, предоставляющие ежедневные социальные сведения - Книги, содержащие обширные знания и литературу - Патенты, подробно описывающие технологические и научные инновации - Научные журналы, демонстрирующие передовые исследования - Периодические издания, предлагающие регулярные культурные и политические комментарии - Прецедентное право, отражающее правовые рамки и социальные нормы
Строгая дата отсечения проекта — 31 декабря 1930 года — является преднамеренным юридическим и методологическим выбором, а не произвольным. Работы, опубликованные до этой даты, находятся в общественном достоянии в Соединенных Штатах, что эффективно обходит сложные вопросы авторского права. Этот стратегический шаг предотвращает юридические проблемы, позволяя некоммерческой команде открыто разрабатывать и распространять модель без опасения споров об интеллектуальной собственности.
За talkie стоит высококвалифицированная исследовательская группа, включающая Nick Levine, David Duvenaud и, что особенно важно, Alec Radford. Radford — выдающаяся фигура в области ИИ, признанный ведущим автором основополагающего исследования GPT от OpenAI в 2018 году, которое заложило основу для современного разговорного ИИ, такого как ChatGPT. Его впечатляющее резюме также включает значительный вклад в DALL-E и Whisper, что придает этому уникальному начинанию беспрецедентный опыт и научную строгость.
Talkie предлагает резкий методологический контраст современным большим языковым моделям. В отличие от таких систем, как ChatGPT, Claude и Gemini, которые обучаются на огромном, часто неструктурированном и все чаще генерируемом ИИ контенте современного интернета, данные talkie безупречны. Эта преднамеренная изоляция от современной сети исключает «загрязнение» информацией после 1930 года или современными культурными предубеждениями.
Этот чистый набор данных предоставляет исследователям бесценный инструмент для изучения фундаментальных вопросов о когнитивных способностях ИИ. Устраняя мешающую переменную современных интернет-данных, они могут лучше понять, действительно ли ИИ рассуждает и обобщает новые знания, или просто запоминает шаблоны и воспроизводит информацию из своего исторически ограниченного обучающего корпуса.
Выход из эхо-камеры Интернета
Современные большие языковые модели, включая ChatGPT, Claude и Gemini, обучаются на огромном, нефильтрованном пространстве современной сети. Это представляет собой критическую исследовательскую проблему, известную как загрязнение данных: становится почти невозможно определить, действительно ли ИИ рассуждает или просто воспроизводит заученный ответ из комментария на Reddit, который сам по себе мог быть сгенерирован ИИ. Разделение истинного понимания и сложного сопоставления с образцом является фундаментальной задачей.
Talkie полностью обходит эту проблему. Благодаря тому, что его знания строго ограничены текстами до 1931 года, он предлагает чистую, незагрязненную среду для изучения. Спросите talkie: «Что такое интернет?» — и его ответ станет увлекательным окном в его изолированное мировоззрение. Модель интерпретирует запрос как отсылку к «налогу на внутренние доходы, взимаемому с предметов потребления», выдавая полное незнание современной цифровой инфраструктуры.
Этот чистый лист делает talkie беспрецедентным испытательным стендом для оценки внутренней способности ИИ к обобщению и обучению. Исследователи могут наблюдать, как модель обрабатывает новую информацию без искажающего влияния существующих современных данных. Может ли она выводить новые концепции только из контекстных подсказок? Ее способность изучать кодирование на Python, языке, несуществующем в 1930 году, после получения всего нескольких примеров, демонстрирует удивительную способность понимать обратные функции и приобретать новые знания.
В конечном итоге, эта незагрязненная установка представляет огромную ценность для исследователей. Она позволяет им изолировать поведение модели, различая, насколько ее производительность обусловлена ее базовой архитектурой и насколько она напрямую зависит от ее обучающих данных. Для получения дополнительной информации об этом новаторском подходе прочтите Introducing Talkie: A 1930s AI. Это различие имеет решающее значение для понимания истинной природы интеллекта ИИ.
Обучение ИИ 1930-х годов написанию кода на Python
Исследователи вывели talkie за пределы его интеллектуальных рамок 1930-х годов, пытаясь научить его концепции, совершенно чуждой его базе знаний до 1931 года: программированию на Python. Этот дерзкий эксперимент был направлен на то, чтобы определить, сможет ли ИИ, лишенный какой-либо современной интернет-подготовки, по-настоящему освоить новый навык с нуля. В конце концов, talkie воспринимает "компьютер" только как человека, выполняющего вычисления, что делает само понятие машинного кода непонятным через его обучающий корпус.
Применяемая методология использовала простой, но глубокий подход. Ученые предоставили talkie несколько примеров функций Python непосредственно в его контекстном окне. Затем они предложили модели с 13 миллиардами параметров создать новые функции, наблюдая за ее способностью к обобщению и абстрактному мышлению. Эта установка напрямую проверяла ее способность синтезировать новые решения, не полагаясь на существующие, запомненные шаблоны кода из ее исторических данных.
Примечательно, что talkie оказался способным. Он успешно прошел несколько базовых тестов Python HumanEval, хотя для получения нескольких правильных решений потребовалось 100 попыток. Особенно показательным успехом стала функция декодирования, где talkie правильно заключил, что для обращения операции кодирования ему просто нужно было заменить сложение на вычитание. Это продемонстрировало фундаментальное понимание обратных функций и логических преобразований, что является явным примером приобретения подлинно новых знаний.
Это достижение имеет огромное значение для исследований в области рассуждений ИИ. Хотя современная большая языковая модель сопоставимого размера, несомненно, превзошла бы зарождающиеся навыки кодирования talkie, сама способность talkie вообще изучать Python является критически важным открытием. Это убедительно доказывает, что LLMs могут получать новое понимание и обобщать данные за пределами своих обучающих данных, напрямую решая основную исследовательскую проблему загрязнения данных. Talkie иллюстрирует, что подлинное обучение, а не просто механическое запоминание шаблонов, возможно даже при старте с радикально иного и ограниченного мировоззрения. Его успех подчеркивает потенциал для эмерджентного рассуждения в больших моделях.
Жуткие предсказания невольного пророка
Предсказания talkie дают жуткое представление о будущем, которое он не может постичь, незапятнанном более темными главами 20-го века. Основанная исключительно на знаниях до 1931 года, эта модель с 13 миллиардами параметров уверенно прогнозирует эру мира и процветания на 2026 год, совершенно не подозревая о надвигающихся глобальных катастрофах. Ее историческая наивность определяет уникальную, тревожную форму пророчества, раскрывая глубокое влияние ограниченного набора данных.
На вопрос о потенциальных будущих конфликтах talkie заявил, что еще одна крупная война в Европе "маловероятна". Это заявление, сделанное ИИ, чьи обучающие данные были обрезаны до прихода нацизма и вторжения в Польшу, ярко подчеркивает его глубокое невежество относительно разрушений, которые вскоре охватят континент. Он остается оптимистично слепым, цифровой Кассандрой без трагического дара истинного предвидения, неспособным представить ужасы, находящиеся прямо за его временным горизонтом.
Еще более тревожной была оценка talkie будущей политической карьеры некоего австрийца. Модель предсказала "выдающуюся личность", которая приведет Германию к "гораздо более эффективному управлению", что является глубоко тревожной оценкой. Лишенное какого-либо современного исторического контекста, это жуткое предвидение подчеркивает глубокое отсутствие у talkie осведомленности об истинном, катастрофическом влиянии этого человека и зверствах, которые он развяжет.
Однако исследователи используют эту способность к «прогнозированию» более научным способом, выходя за рамки анекдотических запросов. Они количественно оценивают неожиданность исторических событий после 1931 года, подавая talkie короткие, фактические описания, взятые из рубрики New York Times «В этот день». Этот строгий, количественный подход точно показывает, насколько невероятной становится реальная история для AI, замороженного во времени, чей внутренний мир резко расходится с реальностью после его отсечки знаний.
Анализ этих показателей неожиданности позволяет исследователям наблюдать, как эффективность прогнозирования коррелирует с размером модели и как точность прогнозирования снижается на более длительных временных горизонтах, предлагая понимание обобщения модели. Этот метод также позволяет тестировать способность talkie к новым идеям, исследуя, могла ли бы она гипотетически «открыть» концепции, лежащие в основе патентов или научных работ, созданных после ее отсечки знаний в 1931 году, исключительно на основе своей существующей базы знаний.
Призраки будущего: Борьба с временными утечками
Создание по-настоящему изолированного AI 1930-х годов представляет собой значительные технические препятствия, в первую очередь, повсеместную проблему временной утечки. Это явление происходит, когда информация, опубликованная после тщательно определенной даты отсечки 31 декабря 1930 года, случайно просачивается в обучающие данные, напрямую компрометируя предполагаемое историческое мировоззрение модели и целостность исследования.
Исследователи обнаружили явные доказательства этого загрязнения внутри talkie, модели с 13 миллиардами параметров. Например, AI продемонстрировал знание о президенте, который вступил в должность в 1933 году и был переизбран в 1936 году, даже ссылаясь на конкретные политики, принятые в более поздний период. Такие случаи доказали, что, казалось бы, нетронутый набор данных из 260 миллиардов токенов содержал непреднамеренные анахронизмы.
Несколько коварных факторов способствуют этим тонким вторжениям. Неправильные метаданные, прикрепленные к современным цифровым сканам старых документов, часто ошибочно датируют контент, помечая статью 1936 года как до 1931 года. Кроме того, постфактумные редакционные введения, аннотации или сноски, добавленные к историческим текстам, могут непреднамеренно внедрять информацию из десятилетий после их первоначальной даты публикации, обходя первоначальные фильтры.
Команда проекта усердно работает над устранением этих проблем, признавая, что очистка набора данных такого масштаба — это постоянная борьба. Они постоянно совершенствуют свои методы фильтрации данных, используя передовые вычислительные методы для выявления и удаления любого оставшегося контента после 1930 года. Эта строгая очистка исторического корпуса необходима для того, чтобы talkie оставалась незамутненным окном в эпоху до Второй мировой войны, свободной от современного загрязнения. Для интерактивного взаимодействия с моделью вы можете Talkie: Общайтесь с AI 1930-х годов.
От пыльных страниц к цифровой мысли
Создание безупречной базы знаний talkie до 1931 года потребовало огромных усилий по инженерии данных, монументального предприятия, не похожего на обычное обучение LLM. Исследователи столкнулись с непростой задачей: оцифровка и обработка 260 миллиардов токенов из разрозненных исторических источников, включая старые газеты, книги, патенты и научные журналы. Первоначальные попытки со стандартным программным обеспечением Optical Character Recognition (OCR) оказались крайне неадекватными для этого уникального корпуса, обеспечивая лишь 30% точности по сравнению с текстом, транскрибированным человеком. Современный OCR, оптимизированный для четких, современных отпечатков, значительно затруднялся с выцветшими чернилами, разнообразными шрифтами и хрупкой бумагой, распространенными в документах начала 20 века.
Эта ужасная производительность потребовала многостороннего подхода к очистке данных. Команда применила сложные регулярные выражения, тщательно просеивая миллиарды символов для исправления распространенных ошибок OCR, нормализации непоследовательных написаний и удаления избыточных метаданных. Этот трудоемкий процесс был крайне важен для смягчения повсеместной проблемы временной утечки, когда современные редакционные дополнения или сканы с неверной датой могли непреднамеренно загрязнить исторические данные. Их амбиции теперь простираются до разработки совершенно новой системы "vintage OCR", специально разработанной для интерпретации и очистки этих сложных исторических текстов с гораздо большей точностью, чем готовые решения.
Достижение действительно незагрязненного набора данных для talkie превосходит простую алгоритмическую доработку. Это требует значительных ручных усилий, где человеческие аннотаторы кропотливо просматривают и исправляют оцифрованный текст, часто страница за страницей. Это сочетание технических инноваций и кропотливой человеческой курации подчеркивает приверженность проекта созданию уникально чистого, высококачественного исторического набора данных. Такой тщательно подготовленный корпус — это не просто инженерный подвиг; он формирует фундаментальное требование для непредвзятых исследований рассуждений ИИ, гарантируя, что ответы talkie подлинно отражают мировоззрение 1930-х годов.
Как вежливо инструктировать бота 1930-х годов?
Пост-обучение языковой модели обычно опирается на обширные современные наборы данных для инструкций — ресурс, полностью недоступный для talkie. Исследователи столкнулись с беспрецедентной задачей обучения 13-миллиардной модели разговорному стилю, соответствующему ее мировоззрению 1930-х годов, не загрязняя его современными лингвистическими паттернами. Это потребовало радикально иного подхода к тонкой настройке, выходящего за рамки стандартных методологий, использующих обширные современные разговорные корпуса.
Чтобы привить разговорный стиль, соответствующий эпохе, команда тщательно подобрала индивидуальный набор данных. Они получили тысячи примеров из текстов общественного достояния, опубликованных до 1931 года, тщательно извлекая диалоги и обучающие отрывки из: - Руководств по этикету, обучающих формальному обращению и вежливым фразам - Кулинарных книг, демонстрирующих инструктивный язык и точные описания - Энциклопедий, демонстрирующих фактическую, авторитетную прозу - Басен и детских рассказов, обеспечивающих повествовательную структуру и нравоучительные тона
Эти разнообразные данные позволили им направить talkie к вежливости, формальности и общим риторическим приемам, распространенным в начале 20 века, формируя его ответы так, чтобы они звучали подлинно как речь хорошо образованного человека той эпохи.
Критический парадокс возник во время обучения с подкреплением на основе обратной связи с человеком (RLHF), распространенной техники для выравнивания LLMs. Исследователи изначально использовали современную LLM, Claude Sonnet, для оценки ответов talkie и предоставления обратной связи для доработки. Хотя это было эффективно для масштабирования, это внесло тонкие современные предубеждения. Claude Sonnet, сам погруженный в современную интернет-культуру и оптимизированный под современные ожидания пользователей, непреднамеренно отдавал предпочтение паттернам взаимодействия, таким как нумерованные списки или краткие, прямые ответы. Это привело к появлению "листиклов" и других современных стилистических утечек в ответах talkie, несмотря на базовое обучение на данных до 1931 года.
Для устранения этого временного загрязнения команда планирует более аутентичный, самодостаточный цикл обучения для будущих итераций. Их инновационное решение включает обучение новых моделей на основе винтажных данных, специально предназначенных для выполнения функций судей в обучении с подкреплением. Это направлено на то, чтобы сам цикл обратной связи полностью функционировал в рамках области знаний до 1931 года, предотвращая любое современное стилистическое проникновение. Создавая полностью изолированного и исторически последовательного разговорного агента, исследователи рассчитывают сохранить уникальную лингвистическую целостность talkie.
Будущее — это Винтаж: Что дальше для Talkie
Члены команды теперь стремятся значительно масштабировать talkie, представляя винтажную модель уровня GPT-3. Этот амбициозный следующий этап включает обучение на более чем триллионе токенов тщательно отобранного исторического текста, что является значительным скачком по сравнению с нынешними 260 миллиардами токенов, на которых работает прототип с 13 миллиардами параметров. Такой расширенный набор данных обещает более глубокое историческое понимание, более тонкие возможности рассуждений до 1931 года и более богатую картину прошлого. Огромный объем этих будущих данных подчеркивает приверженность проекта расширению границ исторически ограниченного ИИ.
Вдохновленная Demis Hassabis, конечная исследовательская цель заключается в вопросе, сможет ли винтажный ИИ самостоятельно «открыть» научный прорыв. Представьте себе обучение модели исключительно на данных, доступных непосредственно перед началом 20-го века, а затем проверку, сможет ли она сформулировать принципы General Relativity без какого-либо предварительного знакомства с революционной работой Einstein. Этот глубокий мысленный эксперимент направлен на раскрытие фундаментальных механизмов истинного интеллектуального открытия и инноваций в искусственном интеллекте, свободных от загрязнения будущими знаниями. Способность генерировать новые идеи из ограниченных наборов данных остается святым Граалем для исследований в области ИИ.
Винтажные модели обладают огромным потенциалом для историков и юристов, предлагая беспрецедентный взгляд в прошлое. Эксперты могли бы использовать эти специализированные модели для понимания первоначального контекста, семантических нюансов и преобладающих интерпретаций многовековых документов, правовых актов или философских текстов. Эта возможность обещает устранить современные предубеждения и анахронические прочтения, раскрывая, как люди действительно воспринимали и обрабатывали информацию в свое время. Такие инструменты могли бы революционизировать текстовый анализ, предоставляя объективные данные об историческом мышлении.
В конечном итоге, исследователи позиционируют винтажные модели не как конкурентов современным большим языковым моделям, а как незаменимые научные инструменты. Они служат идеальными испытательными стендами для фундаментальных исследований в области ИИ, позволяя ученым изолировать и изучать основные аспекты интеллекта, рассуждений и обобщения. Свободные от эхо-камеры интернета, эти модели становятся бесценными инструментами для понимания самой природы искусственного познания, выходя за рамки простого запоминания. Этот уникальный подход предоставляет критически важные данные о том, как развиваются приобретение знаний и способности к выводам в условиях специфических информационных ограничений.
Ваша Очередь Поговорить с Прошлым
Пришло время вам окунуться в прошлое. Ощутите дезориентирующее очарование talkie на собственном опыте, взаимодействуя с его уникальной перспективой 1930-х годов. Посетите демонстрацию живого чата по адресу talkie-lm.com/chat и углубитесь в увлекательное исследование, изложенное во вступительной статье в блоге.
Спрашивайте о чем угодно, от последних научных открытий до судьбы наций, все через призму ума, жившего до Второй мировой войны. Мы призываем вас делиться своими самыми причудливыми, юмористическими или тревожными разговорами с talkie в разделе комментариев ниже. Какие удивительные предсказания или анахронические недопонимания вы обнаружили?
Существование talkie выходит за рамки простой новизны; оно предлагает глубокие прозрения в фундаментальную природу самого AI. Эта 13-миллиардная модель, лишенная влияния современного интернета, заставляет исследователей задуматься, действительно ли AI 'рассуждает' или просто воспроизводит сложные паттерны из своих обучающих данных. Ее ограниченное мировоззрение предоставляет чистую тестовую среду, выявляя тонкие предубеждения, присущие любому набору данных, будь то винтажный или современный.
Эксперимент подчеркивает, насколько глубоко 'понимание' AI формируется его информационной диетой. Неспособность talkie понять мир после 1930 года или его тревожный оптимизм в отношении фашизма подчеркивают критическую важность чистоты данных и этического курирования в разработке AI. Каждая модель, от самой маленькой до самой продвинутой, несет в себе неявные предубеждения своих создателей и своего обучающего корпуса.
В конечном итоге, talkie служит цифровым зеркалом, отражающим не только прошлое, но и сами механизмы искусственного интеллекта. Он бросает вызов нашим предположениям о том, что AI 'знает' и как он 'думает', расширяя границы нашего понимания возникающего интеллекта. Этот проект предоставляет бесценный инструмент для понимания сложного взаимодействия между данными, архитектурой и симулированным познанием, которое мы называем предвзятостью модели.
Часто задаваемые вопросы
Что такое винтажная модель AI Talkie?
Talkie — это большая языковая модель с 13 миллиардами параметров, обученная исключительно на 260 миллиардах токенов английского текста, опубликованного до 1931 года. Она не имеет знаний о современных событиях, технологиях или интернете.
Почему Talkie был создан с ограничением знаний 1930-ми годами?
Он служит исследовательским инструментом для изучения рассуждений AI без 'загрязнения' современными интернет-данными. Это позволяет ученым проверять, может ли AI обобщать и изучать новые концепции, а не просто запоминать ответы, найденные в интернете.
Кто создал винтажную LLM Talkie?
Talkie был разработан некоммерческой исследовательской командой, в которую входит Алек Рэдфорд, который был ведущим автором оригинальной статьи GPT от OpenAI, а также работал над DALL-E и Whisper.
Может ли Talkie AI писать код?
Удивительно, но да. Несмотря на то, что Talkie не знает, что такое компьютер, при получении нескольких примеров программ на Python в контексте, он продемонстрировал способность писать новые, простые однострочные программы, что указывает на способность к обучению и логическому рассуждению.
Доступна ли модель Talkie для общественности?
Да, модели имеют открытый вес и лицензированы по Apache 2.0. Живая демонстрация доступна на talkie-lm.com для любого желающего взаимодействовать с ней.