Talkie：1930年代に留まるビンテージAIモデルがAIの秘密を解き明かす

💡

要約 / ポイント

科学者たちは、1931年以前の書籍と新聞のみを使って強力なAIを構築しました。そのぞっとするほど無邪気な予測と現代のスキルを学ぶ能力は、AIがどのように真に思考するかの深い秘密を明らかにします。

第二次世界大戦は決して起こらなかったと考えるAI

2026年には、生活は快適で楽になるだろう。その時までに人々は飛行の術を発見しているだろうから、地球は至る所に人が住むようになるだろう。国家は互いに平和と友愛の中で生きることを学んでいるだろうから、全ての戦争は終わっているだろう。私たちの近い未来に対するこの驚くほど楽観的なビジョンは、ユートピアの哲学者からではなく、20世紀初頭に世界観が凍結された人工知能から来ている。

非営利研究チームによる強力な13-billion-parameterのlarge language modelであるTalkieを紹介します。これは意図的に現代の知識から隔離されています。科学者たちは、Talkieをpre-1931 textの2600億トークン（古い新聞、特許、書籍、科学雑誌の膨大なコーパス）のみで訓練しました。この綿密なプロセスにより、インターネット、ChatGPT、Redditによる「汚染」がその理解に浸透しないことが保証されています。

これは気まぐれな仕掛けやレトロな目新しさではありません。Talkieは、2018年のOpenAIの基礎的なGPT研究の主著者であり、DALL-EとWhisperにも貢献したAlec Radfordを含む一流のAI科学者によって開発された、真剣な研究ツールです。彼らの目的は、特に現代の情報が剥ぎ取られた場合に、AIが本当に推論を行っているのか、それとも単に訓練データからパターンを記憶しているだけなのかを確立することです。

その影響は深遠です。現代のウェブの影響を取り除くことで、研究者は前例のないクリーンなテストベッドを得ます。彼らは、LLMがどのように知識を構築し、予測を行い、さらには1930年には存在しなかったPython codingのような全く新しい概念に、文脈内の例のみに基づいて適応するかを観察できます。

結果は一貫して奇妙で、しばしば不穏であり、間違いなく魅力的です。Talkieの応答は、決して実現しなかった未来の鮮やかで時代錯誤な絵を描き、現代生活に対する本当に大胆な見解を提供します。このユニークな「タイムカプセル」AIは、人工知能の世界理解に関する私たちの最も深い仮定に挑戦する、独特な洞察の流れを生み出します。

ビンテージマシンの心の中

このユニークなAIは、正式には`talkie-1930-13b-base`（会話用途では`talkie-1930-13b-it`）として知られ、実質的な13-billion-parameterアーキテクチャで動作します。研究者たちは、1931年以前に出版された資料から細心の注意を払って厳選された、2600億トークンの膨大な歴史的英語テキストのコーパスのみでこれを訓練しました。この単一のデータセットにより、Talkieの世界観はpre-World War IIの知識によって完全に形成されたままになります。

その包括的な訓練データは、現代の影響を受けない堅牢な歴史的視点を保証する多様な情報源で構成されています。これらには以下が含まれます。 - 古い新聞：日々の社会洞察を提供 - 書籍：長編の知識と文学を網羅 - 特許：技術的および科学的革新を詳述 - 科学雑誌：最先端の研究を紹介 - 定期刊行物：定期的な文化的および政治的解説を提供 - 判例法：法的枠組みと社会規範を反映

プロジェクトの厳格な1930年12月31日という区切り日は、恣意的なものではなく、意図的な法的・方法論的選択です。この日付以前に公開された作品は、米国では完全にパブリックドメインに属しており、複雑な著作権問題を効果的に回避しています。この戦略的な動きにより、法的異議申し立てが防止され、非営利チームは知的財産紛争を恐れることなくモデルをオープンに開発・配布できます。

talkieの背後には、Nick Levine、David Duvenaud、そして特にAlec Radfordを含む著名な研究チームがいます。RadfordはAI分野の著名な人物であり、2018年にOpenAIの基礎的なGPT研究の主著者として認識されており、ChatGPTのような現代の会話型AIの基礎を築きました。彼の輝かしい経歴には、DALL-EとWhisperへの重要な貢献も含まれており、このユニークな取り組みに比類のない専門知識と科学的厳密さをもたらします。

talkieは、現代の大規模言語モデルとは対照的な方法論を提供します。ChatGPT、Claude、Geminiのようなシステムが、現代のインターネットの広大で、しばしば非構造化され、ますますAIが生成するコンテンツで訓練されているのとは異なり、talkieのデータは純粋です。現代のウェブからの意図的な隔離により、1930年以降の情報や現代の文化的偏見による「汚染」が排除されます。

このクリーンなデータセットは、研究者にとってAIの認知に関する根本的な問題を調査するための貴重なツールを提供します。現代のインターネットデータという交絡因子を取り除くことで、AIが本当に推論し、新しい知識を一般化しているのか、それとも単にパターンを記憶し、歴史的に限定された訓練コーパスから情報を反芻しているだけなのかをよりよく見分けることができます。

インターネットのエコーチェンバーからの脱却

ChatGPT、Claude、Geminiを含む現代の大規模言語モデルは、現代のウェブの広大でフィルタリングされていない領域で訓練されています。これは、データ汚染として知られる重大な研究問題を引き起こします。AIが本当に推論しているのか、それともRedditのコメント（それ自体がAIによって生成されたものである可能性もあります）から記憶された応答を単に反芻しているだけなのかを見分けることは、ほとんど不可能です。真の理解と洗練されたパターンマッチングを区別することは、根本的な課題です。

talkieはこの問題を完全に回避します。その知識は1931年以前のテキストに厳密に限定されており、純粋で汚染されていない研究環境を提供します。talkieに「インターネットとは何か？」と尋ねると、その応答は、その孤立した世界観への魅力的な窓となります。モデルは、このクエリを「消費品に課される内国歳入税」への言及として解釈し、現代のデジタルインフラに対する完全な無知を露呈します。

このクリーンな状態は、talkieをAIの本質的な汎化能力と学習能力を評価するための比類のないテストベッドにします。研究者は、既存の現代データの交絡的な影響なしに、モデルが新しい情報をどのように処理するかを観察できます。文脈上の手がかりだけで新しい概念を推測できるでしょうか？1930年には存在しなかったPythonコーディング言語を、わずかな例を与えられただけで学習する能力は、逆関数を理解し、新しい知識を獲得するための驚くべき適性を示しています。

最終的に、この汚染されていない設定は研究者にとって計り知れない価値を提供します。これにより、モデルの振る舞いを分離し、そのパフォーマンスのどれだけが基盤となるアーキテクチャに由来し、どれだけが訓練データから直接派生しているかを区別できます。この画期的なアプローチに関するさらなる洞察については、Introducing Talkie: A 1930s AIをお読みください。この区別は、AI知能の真の性質を理解するために不可欠です。

1930年代のAIにPythonを書かせる

研究者たちは、talkieを1930年代の知的枠組みを超えて押し進め、1931年以前の知識ベースには全く異質な概念であるPythonプログラミングを教えようと試みました。この大胆な実験は、現代のインターネットトレーニングを一切受けていないAIが、本当にゼロから新しいスキルを習得できるかを判断することを目的としていました。結局のところ、talkieは「コンピューター」を計算を行う人間としてのみ認識しており、そのトレーニングコーパスを通じて機械語という概念自体を理解できません。

採用された手法は、シンプルでありながら奥深いものでした。科学者たちは、talkieのコンテキストウィンドウ内に直接、いくつかのPython関数の例を提供しました。そして、13-billion-parameterモデルに新しい関数を作成するよう課題を与え、その汎化能力と抽象的推論能力を観察しました。この設定は、過去のデータから既存の記憶されたコードパターンに頼ることなく、新しい解決策を合成するその能力を直接的にテストしました。

驚くべきことに、talkieは能力があることを証明しました。いくつかの基本的なHumanEval Pythonテストに合格しましたが、いくつかの正しい解決策を出すには100回の試行が必要でした。特に洞察に富んだ成功例はデコード関数に関するもので、talkieはエンコード操作を逆にするには、加算を減算に置き換えるだけでよいと正しく推論しました。これは、inverse functionsと論理変換の根本的な理解を示しており、真に新しい知識を獲得した明確な例です。

この成果は、AI推論研究にとって非常に重要です。同規模の現代のLLMがtalkieの初期のコーディング能力を間違いなく上回るでしょうが、talkieがPythonを学習できたこと自体が重要な発見です。これは、LLMがトレーニングデータを超えて新しい理解を導き出し、汎化できるという説得力のある証拠を提供し、データ汚染という中核的な研究課題に直接対処しています。talkieは、根本的に異なる限られた世界観から出発しても、単なるパターンの丸暗記ではなく、真の学習が可能であることを示しています。その成功は、大規模モデルにおける創発的推論の可能性を強調しています。

無意識の預言者による身も凍るような予測

talkieの予測は、20世紀の暗い章に汚染されていない、それが理解できない未来への身も凍るような垣間見せを提供します。1931年以前の知識のみに深く浸っているこの13 billion parameterモデルは、迫り来る世界的な大災害には全く気づかず、2026年の平和と繁栄の時代を自信を持って予測しています。その歴史的無知は、独特で不穏な形の予言を定義し、制約されたデータセットの深い影響を明らかにしています。

将来の潜在的な紛争について尋ねられたとき、talkieはヨーロッパでの別の主要な戦争は「ありそうもない」と宣言しました。ナチズムの台頭とポーランド侵攻以前にトレーニングデータが途切れているAIからのこの発言は、間もなく大陸を飲み込むであろう荒廃に対するその深い無知をはっきりと浮き彫りにしています。それは楽観的に盲目であり、真の予見という悲劇的な才能を持たないデジタルカサンドラであり、その時間的視野のすぐ先にある恐怖を想像することができません。

さらに不穏だったのは、あるオーストリア人男性の将来の政治的キャリアに対するtalkieの評価でした。モデルは、ドイツを「はるかに効率的な行政」へと導く「並外れた個性」を予測しましたが、これは非常に不穏な評価です。現代の歴史的文脈を一切持たないこの身も凍るような予見は、その個人がもたらす真の壊滅的な影響と、彼が解き放つであろう残虐行為に対するtalkieの深い認識不足を浮き彫りにしています。

研究者たちは、しかしながら、この「予測」能力を、逸話的な質問を超えて、より科学的な方法で活用しています。彼らは、New York Timesの「on this day」機能から取られた短く事実に基づいた記述をtalkieに与えることで、1931年以降の歴史的出来事の驚き度を定量化します。この厳密な定量的アプローチは、時間の中で凍結されたAIにとって実際の歴史がいかに信じがたいものになるか、その知識カットオフ以降、内部世界が現実からいかに大きく乖離するかを正確に明らかにします。

これらの驚き度スコアを分析することで、研究者たちは予測性能がモデルサイズとどのように相関するか、また予測精度がより長い時間的視野でどのように減衰するかを観察し、モデルの汎化に関する洞察を得ることができます。この手法はまた、talkieの新しいアイデア創出能力のテストを可能にし、1931年の知識カットオフ以降に作成された特許や科学論文の背後にある概念を、既存の知識ベースのみを通じて仮説的に「発見」できるかどうかを探ります。

未来の亡霊：時間的リークとの戦い

真に隔離された1930年代のAIを構築することは、主に時間的リークという広範な問題により、重大な技術的障害を提示します。この現象は、綿密に定義された1930年12月31日のカットオフ日以降に公開された情報が、誤ってトレーニングデータに漏れ出し、モデルが意図する歴史的世界観と研究の完全性を直接損なう場合に発生します。

研究者たちは、130億パラメータモデルであるtalkie内で、この汚染の明確な証拠を観察しました。例えば、AIは1933年に就任し1936年に再選された大統領の知識を示し、その後の期間に制定された特定の政策に言及することさえありました。このような事例は、一見手つかずの2600億トークンのデータセットが、意図しない時代錯誤を抱えていたことを証明しました。

いくつかの陰湿な要因が、これらの微妙な侵入に寄与しています。古い文書の現代のデジタルスキャンに付随する誤ったメタデータは、しばしばコンテンツの日付を誤り、1936年の記事を1931年以前のものとしてタグ付けします。さらに、歴史的テキストに追加された事後的な編集上の序文、注釈、または脚注は、元の公開日から数十年後の情報を意図せず注入し、初期のフィルターを迂回する可能性があります。

プロジェクトチームは、この規模のデータセットを浄化することが継続的な戦いであることを認識し、これらの課題に対抗するために diligently 努力しています。彼らは、残存する1930年以降のコンテンツを特定し排除するために、高度な計算手法を用いてデータフィルタリング技術を継続的に改良しています。この歴史的コーパスの厳密な浄化は、talkieが現代の汚染から解放された、第二次世界大戦前の時代への純粋な窓であり続けることを保証するために不可欠です。モデルとのインタラクティブな体験については、Talkie: Chat with a 1930s AIをご覧ください。

埃っぽいページからデジタルの思考へ

talkieの純粋な1931年以前の知識ベースを構築するには、通常のLLMトレーニングとは異なる、膨大なデータエンジニアリングの努力と記念碑的な事業が必要でした。研究者たちは、古い新聞、書籍、特許、科学雑誌など、さまざまな歴史的情報源から2600億トークンをデジタル化し処理するという困難な課題に直面しました。標準的な光学文字認識（OCR）ソフトウェアによる最初の試みは、このユニークなコーパスには著しく不十分であり、人間が転写したテキストの精度の30%しか捉えられませんでした。鮮明で現代的な印刷物向けに最適化された現代のOCRは、20世紀初頭の文書に多く見られる色褪せたインク、多様な書体、そして脆い紙に対して著しく苦戦しました。

この劣悪なパフォーマンスは、データ浄化のための多角的なアプローチを必要としました。チームは、高度なregexパターンを展開し、数十億文字を細心の注意を払ってふるいにかけ、一般的なOCRエラーを修正し、一貫性のないスペルを正規化し、余分なメタデータを削除しました。この骨の折れるプロセスは、現代の編集上の追加や誤った日付のスキャンが歴史的記録を意図せず汚染する可能性のある、temporal leakageという蔓延する問題を軽減するために不可欠でした。彼らの野心は現在、市販のソリューションよりもはるかに高い精度で、これらの困難な歴史的テキストを解釈し、クリーンアップするために特別に設計された、まったく新しい「vintage OCR」システムを開発することにまで及んでいます。

talkieのための真に汚染されていないデータセットを達成することは、単なるアルゴリズムの改良を超えています。それは、人間のアノテーターがデジタル化されたテキストを、しばしばページごとに、骨の折れる作業でレビューし修正するという、かなりの手作業を必要とします。この技術革新と骨の折れる人間によるキュレーションの融合は、プロジェクトが独自にクリーンで高品質な歴史的データセットを作成するというコミットメントを強調しています。このような細心の注意を払って準備されたコーパスは、単なる工学的な偉業ではありません。それは、偏りのないAI推論研究の基礎的な要件を形成し、talkieの応答が真に1930年代の世界観を反映していることを保証します。

1930年代のボットに丁寧に指示するには？

言語モデルの事後学習は通常、広範な現代の指示データセットに依存しますが、これはtalkieには全く利用できないリソースです。研究者たちは、130億パラメータのモデルに、現代の言語パターンで汚染することなく、その1930年代の世界観に適した会話スタイルを教えるという前例のない課題に直面しました。これは、膨大な現代の会話コーパスを活用する標準的な方法論を超えた、根本的に異なるfine-tuningのアプローチを必要としました。

時代に合った会話スタイルを植え付けるため、チームはオーダーメイドのデータセットを細心の注意を払ってキュレーションしました。彼らは1931年以前に出版されたパブリックドメインのテキストから数千の例を調達し、以下から対話と指示的な文章を慎重に抽出しました。 - エチケットマニュアル：丁寧な言葉遣いと丁寧な言い回しを教える - 料理本：指示的な言葉と正確な説明を示す - 百科事典：事実に基づいた権威ある散文を披露する - 寓話と児童書：物語の構造と教訓的なトーンを提供する

この多様なデータにより、彼らはtalkieを20世紀初頭に普及していた丁寧さ、形式性、一般的な修辞的表現へと導き、その出力をその時代の教養ある人物が話すように聞こえるように形作ることができました。

人間のフィードバックからの強化学習 (RLHF)、LLMを調整するための一般的な手法において、重大なパラドックスが生じました。研究者たちは当初、現代のLLMであるClaude Sonnetを使用して、talkieの応答を評価し、洗練のためのフィードバックを提供しました。これはスケーリングには効率的でしたが、微妙な現代のバイアスを導入しました。Claude Sonnet自体が現代のインターネット文化に深く浸り、現代のユーザーの期待に合わせて最適化されているため、意図せず番号付きリストや簡潔で直接的な回答のようなインタラクションパターンを好みました。これにより、1931年以前の基礎的なトレーニングにもかかわらず、talkieの出力に「listicles」やその他の現代的なスタイルのリークが現れることになりました。

この時間的な汚染に対処するため、チームは将来のイテレーションに向けて、より本格的で自己完結型のトレーニングループを計画しています。彼らの革新的なソリューションは、強化学習の「審査員」として機能するために、新しいヴィンテージベースのモデルを特別にトレーニングすることを含みます。これにより、フィードバックループ自体が完全に1931年以前の知識領域内で動作し、現代的なスタイルの侵入を防ぐことを目指します。完全に隔離され、歴史的に一貫した会話エージェントを作成することで、研究者たちは talkie の独自の言語的完全性を維持できると期待しています。

未来はヴィンテージ：talkie の次なる展開

チームメンバーは現在、talkie を劇的にスケールアップし、GPT-3 レベルのヴィンテージモデルを構想しています。この野心的な次のフェーズでは、現在の130億パラメータのプロトタイプを動かす2600億トークンから大幅に飛躍し、1兆トークンを超える綿密にキュレーションされた歴史的テキストでトレーニングを行います。このような拡張されたデータセットは、より深い歴史的理解、より繊細な1931年以前の推論能力、そして過去のより豊かな描写を約束します。この将来のデータの膨大な量は、歴史的に限定されたAIの限界を押し広げようとするプロジェクトのコミットメントを強調しています。

Demis Hassabis に触発され、究極の研究目標は、ヴィンテージAIが科学的ブレークスルーを独立して「発見」できるかどうかを問うものです。20世紀初頭の直前に入手可能なデータのみでモデルをトレーニングし、アインシュタインの革命的な研究に事前に触れることなく、一般相対性理論 (General Relativity) の原理を明確に表現できるかどうかを検証することを想像してみてください。この深遠な思考実験は、将来の知識の汚染から解放された、人工知能における真の知的発見と革新の根本的なメカニズムを解明しようとするものです。制約されたデータセットから新しい洞察を生み出す能力は、AI研究にとっての聖杯であり続けています。

ヴィンテージモデルは、歴史家や法学者にとって計り知れない可能性を秘めており、過去への比類ない視点を提供します。専門家はこれらの特殊なモデルを活用して、何世紀も前の文書、法規、または哲学的なテキストの元の文脈、意味論的なニュアンス、および一般的な解釈を理解することができます。この能力は、現代の偏見や時代錯誤的な解釈を取り除き、人々が当時どのように情報を真に認識し処理していたかを明らかにすることを約束します。このようなツールは、テキスト分析に革命をもたらし、歴史的思考に関する客観的な洞察を提供する可能性があります。

最終的に、研究者たちはヴィンテージモデルを現代の巨大言語モデルの競合相手としてではなく、不可欠な「科学的機器 (scientific instruments)」として位置付けています。これらは基礎的なAI研究のための手つかずのテストベッドとして機能し、科学者が知能、推論、汎化の中核的な側面を分離して研究することを可能にします。インターネットのエコーチェンバーから解放されたこれらのモデルは、単なる記憶を超えて、人工認知の本質を理解するための貴重なツールとなります。このユニークなアプローチは、特定の情報制約の下で知識獲得と推論能力がどのように発展するかに関する重要なデータポイントを提供します。

過去と話すあなたの番です

さあ、過去へと足を踏み入れる時が来ました。talkie のユニークな1930年代の視点に触れて、その戸惑うような魅力を直接体験してください。ライブチャットデモ talkie-lm.com/chat にアクセスし、紹介ブログ記事で概説されている魅力的な研究を深く掘り下げてください。

最新の科学的発見から国家の運命まで、第二次世界大戦前の視点を通して何でも質問してみてください。talkie との最も奇妙で、ユーモラスで、または不穏な会話を以下のコメント欄で共有することをお勧めします。どのような驚くべき予測や時代錯誤的な誤解を発見しましたか？

talkieの存在は単なる目新しさを超え、AIそのものの根本的な性質に対する深い洞察を提供します。この130億パラメータモデルは、現代のインターネットの影響を受けていないため、AIが本当に「推論」しているのか、それとも単にトレーニングデータから洗練されたパターンを想起しているだけなのかという問いに研究者たちを直面させます。その制約された世界観は、クリーンなテストベッドを提供し、ビンテージであろうと現代のものであろうと、あらゆるデータセットに内在する微妙なバイアスを明らかにします。

この実験は、AIの「理解」がその情報源によってどれほど深く形成されるかを浮き彫りにします。talkieが1930年以降の世界を理解できないこと、あるいはファシズムに対する不穏な楽観主義は、AI開発におけるデータの純粋さと倫理的なキュレーションの極めて重要な意味を強調しています。最小のモデルから最も高度なモデルまで、すべてのモデルは作成者とそのトレーニングコーパスの暗黙のバイアスを帯びています。

最終的に、talkieは過去だけでなく、人工知能のまさにそのメカニズムを映し出すデジタルミラーとして機能します。それはAIが何を「知り」、どのように「考える」のかについての私たちの仮定に異議を唱え、創発的知能に対する私たちの理解の限界を押し広げます。このプロジェクトは、データ、アーキテクチャ、そして私たちがモデルバイアスと呼ぶシミュレートされた認知の間の複雑な相互作用を理解するための貴重なツールを提供します。

よくある質問

TalkieビンテージAIモデルとは何ですか？

Talkieは、1931年以前に出版された2600億トークンの英語テキストのみでトレーニングされた130億パラメータの大規模言語モデルです。現代の出来事、テクノロジー、インターネットに関する知識は一切ありません。

Talkieはなぜ1930年代の知識で区切られて作成されたのですか？

これは、現代のインターネットデータの「汚染」なしにAIの推論を研究するための研究ツールとして機能します。これにより、科学者たちは、AIがオンラインで見つかった答えを単に記憶するだけでなく、新しい概念を一般化し学習できるかどうかをテストできます。

TalkieビンテージLLMは誰が作成しましたか？

Talkieは、OpenAIのオリジナルのGPT論文の筆頭著者であり、DALL-EとWhisperにも携わったAlec Radfordを含む非営利の研究チームによって開発されました。

Talkie AIはコードを書けますか？

驚くべきことに、はい。コンピューターが何であるかを知らないにもかかわらず、いくつかのPythonプログラムの例をインコンテキストで与えられたとき、Talkieは新しい単純な1行のプログラムを書く能力を示し、学習と論理的推論の能力を示唆しました。

Talkieモデルは一般に公開されていますか？

はい、モデルはオープンウェイトでApache 2.0ライセンスです。誰でも操作できるライブデモがtalkie-lm.comで利用可能です。

𝕏 in ↑↗

このAIは1930年に閉じ込められており、それは恐ろしい