De wiskunde achter Wordle-gissingen

Heruitgegeven door Plato

volgers: 0

In het eenvoudige spel Wordle moeten spelers een geheim woord van vijf letters raden in zes of minder beurten op basis van aanwijzingen over de aanwezigheid en locatie van letters die zijn onthuld door hun eerdere gissingen. Hoewel er in het verleden enigszins vergelijkbare spellen zijn verschenen, moet iedereen die Wordle op een bepaalde dag speelt, hetzelfde geheime woord ontdekken, waardoor het gemakkelijk wordt om je pogingen te delen en het spel met je vrienden te bespreken. De kenmerkende structuur en presentatie van de game vormden de inspiratie voor de vragen in onze nieuwste Inzichten puzzel. De antwoorden worden hieronder besproken.

Een sleutel tot het spelen van een goed Wordle-spel is het kiezen van een sterk beginwoord. Computeranalyses belichamen informatietheorie technieken suggereren dat beginwoorden zoals "slate" en "crane" u (of in ieder geval een computeralgoritme) in staat stellen om Wordles gemiddeld in zo min mogelijk beurten op te lossen. Veel menselijke oplossers voelen zich echter meer op hun gemak bij het kiezen van een woord met veel klinkers, zoals 'adieu', 'audio' of 'verhogen'. Dit gevoel heeft zowel een intuïtieve als een rationele basis. Ten eerste stellen geplaatste klinkers je in staat om een klinker "ruggengraat" te vinden die het aantal medeklinkers waarnaar je moet zoeken kan beperken. Als je bijvoorbeeld weet dat het woord op _AI_E lijkt nadat je 'raise' hebt gespeeld, zijn er nog maar een paar mogelijke woorden over: 'naïef', 'afzien' en 'maïs'. Ten tweede maximaliseren klinkers een hoeveelheid die "dekking" kan worden genoemd - tussen alleen de vijf klinkers en Y kunnen we ten minste één positieve letter krijgen in elk van de 2,309 antwoorden. Om dit soort perfecte dekking met medeklinkers te krijgen, zou je ze alle 20 moeten proberen, wat minstens vijf beurten zou vergen.

Onze eerste puzzel daagde lezers uit om erachter te komen welke van deze drie klinkerrijke woorden de beste eerste gok is.

Puzzel 1

De volgende tabel geeft de frequentie weer waarmee de acht letters in de woorden "adieu", "audio" en "raise" voorkomen in elke positie over de hele Wordle-antwoordlijst van 2,309 woorden. Bepaal op basis van deze tabel hoeveel groen en geel u kunt verwachten voor de hele Wordle-antwoordlijst voor elk van de drie klinkerrijke beginwoorden: "adieu", "audio" en "raise". (In Wordle wordt een letter met een groene achtergrond weergegeven als deze op de juiste plaats staat, en een gele achtergrond als deze in het woord staat maar op de verkeerde plaats staat.) Wat zegt dit over hun verwachte prestaties als startwoorden ?

Lezer Rob Corlett liet zien hoe je het aantal verwachte greens en yellows uit deze tabel kunt berekenen. Voor "adieu" is A de juiste eerste letter voor 140 woorden, D is de juiste tweede letter voor 20 woorden, enzovoort. Het totale aantal greens over alle mogelijke Wordle-antwoorden is de som hiervan. Dus “adieu” krijgt in totaal 140 + 20 + 266 + 318 + 1 = 745 greens. Voor gele kleuren moeten we beginnen met het aantal keren dat de letter minstens één keer in een woord voorkomt (906 voor de A in "adieu") en de keren dat hij groen is aftrekken (140) om het aantal gele kleuren te krijgen (766) . Voeg de cijfers voor elke letter in het woord toe om het totale aantal gele kleuren te krijgen. We kunnen deze getallen delen door het totale aantal antwoorden (2,309) om de verwachting van groen en geel voor een enkele beurt te krijgen, maar aangezien deze stap gebruikelijk is voor al onze startwoorden, kunnen we gewoon werken met de totalen voor het vergelijken van de drie van hen. Omdat we deze woorden specifiek hebben gekozen voor het vinden van een klinkerruggengraat, kunnen we ook berekenen hoeveel groen uit klinkers komt. Hier zijn de resultaten.

Zoals u kunt zien, is er geen vergelijking! "Raise" is in elke maat superieur aan "adieu", geeft meer groen en geel en levert meer klinkers op de juiste plaatsen op, om nog maar te zwijgen van het feit dat je ook twee van de meest voorkomende medeklinkers opvangt of uitsluit. "Audio" is een verre derde op al deze maatregelen. Merk op dat hoewel u wat informatie kunt krijgen over welke letters afwezig zijn, zelfs als u geen gele of groene kleuren krijgt, als lezer Max Davis opgemerkt, krijg je zeker meer informatie als je een of meer gele en groene kleuren krijgt. Dus, "dieu" gebruikers, misschien is het tijd om adieu te zeggen.

Vraag 1

Dit was een vraag over hoeveel we greens moeten waarderen ten opzichte van geel: hoeveel geel is gelijk aan een enkele green? De duidelijke aard van onze resultaten hierboven maakt het overbodig om dit te beantwoorden voor de bovenstaande vergelijking, maar het is een interessante vraag. Deze waardering heeft twee aspecten. De eerste is het menselijke aspect: hoeveel gewicht hecht je aan de mentale inspanning die nodig is om alle verschillende manieren te bedenken waarop een gele letter kan worden geplaatst? Het valt niet te ontkennen dat het slaan van veel greens het leven gemakkelijker maakt en ons meer een dopamine-boost geeft. Vanuit het oogpunt van de informatietheorie zou je elk startwoord voor elk antwoordwoord moeten overlopen en vergelijken hoeveel beurten het zou kosten om de puzzel op te lossen wanneer dezelfde letters groen waren in vergelijking met wanneer ze in alle gevallen geel waren.

Hoewel dit een enorme taak is, ben ik erin geslaagd om het te doen voor het best mogelijke computerstartwoord (het obscure woord "tarse", wat een mannelijke valk betekent, wiens volledige optimale oplossingsboom is gepost online door de wiskundige Alex Selby). Het antwoord is verrassend. Het gemiddelde aantal beurten dat nodig was voor een computeroplossing met een antwoordwoord dat in de eerste beurt alleen groen opleverde, was 3.34, terwijl het aantal benodigde beurten met alleen gele letters 3.51 was, een toename van slechts 5%! Blijkbaar kan het plaatsen van de gele letters, die voor ons mensen zo intimiderend lijkt, voor een computeralgoritme zonder al te veel straf worden bereikt. Ik vermoed dat het verschil groter zou zijn voor een menselijke oplosser, niet alleen in het aantal beurten dat nodig is, maar ook in de mentale inspanning en tijd die nodig is om op te lossen.

Puzzel 2

A) Als je in je eerste beurt alle vijf de gele kaarten krijgt, wat is dan het maximale aantal beurten dat nodig is om het antwoord te vinden, uitgaande van het beste spel?

As Rob Corlett en Sam Rhoads correct gezegd, is het theoretische antwoord vijf: een volledig gele combinatie van letters zoals ABCDE kan nog vier beurten weerstand bieden aan ontdekking, omdat je misschien door BCDEA, CDEAB en DEABC moet fietsen voordat je ontdekt dat het antwoord EABCD was. In de praktijk zijn dergelijke cyclische 'woorden' echter niet mogelijk, juist omdat echte woorden gedefinieerde klinker- en medeklinkerpatronen hebben die niet willekeurig kunnen worden uitgerekt. Zelfs woorden met veel anagrammen kunnen in niet meer dan drie pogingen worden opgelost, zoals Rob Corlett demonstreerde met 'parse'.

B) Is het ooit zo dat een letter die op een bepaalde positie geel wordt, waardevoller is dan hem groen te zien worden? Zo ja, kunt u een voorbeeld geven en uitleggen waarom dit zo zou moeten zijn?

Ja, een letter die geel wordt, kan in zeldzame gevallen waardevoller zijn dan dezelfde letter die groen wordt, als het een letter is die zelden op de andere posities voorkomt. Dit gebeurt vaak met Y, die meestal aan het einde van een woord staat. Stel dat u begint met 'buik' en dat zowel B als Y groen worden. Je hebt veel mogelijkheden: 'baggy', 'bitty', 'bobby', 'booty', 'bushy', enz. Maar als zowel B als Y geel worden, is er maar één mogelijkheid: 'afgrond'.

Vraag 2

Heeft een persoon met een goed vocabulaire van obscure Scrabble-woorden een voor- of nadeel bij het spelen van Wordle?

Als voormalig toernooi Scrabble-speler die nogal wat uren besteedde aan het onthouden van obscure woorden, denk ik dat het zowel een voordeel als een nadeel is. Toen ik voor het eerst Wordle begon te spelen, merkte ik dat ik vaak de mogelijkheid zag van ongebruikelijke woorden, waarvan ik later besefte dat ze bijna geen kans hadden om correct te zijn, en probeerde ik deze uit te sluiten. (In golfterminologie, die mijn Wordle-groep vaak gebruikt, noemen we dit belemmerd worden door een denkbeeldig gevaar.) Zoals ik beschreef in de puzzelkolom, worden Wordle-antwoorden getrokken uit een lijst met eenvoudige woorden, waarvan de meeste bekend zijn voor alle moedertaalsprekers van het Amerikaans Engels. Zelfs woorden die enigszins ongewoon maar niet obscuur zijn, staan niet op de Wordle-antwoordlijst. Ik heb bijvoorbeeld onlangs een beurt verspild met het spelen van 'latex', een vrij algemeen woord dat geen mogelijk Wordle-antwoord blijkt te zijn. Dus, zoals alle Wordle-spelers, moest ik een mentaal model bouwen van het soort woord dat een Wordle-antwoord zou kunnen zijn en specifiek de soorten zeldzame en obscure woorden negeren die ik graag zou gebruiken om meer punten te scoren in Scrabble. Aan de andere kant is de kennis van deze zeldzame woorden handig bij 'veegmedeklinkers', wat je soms moet doen om te voorkomen dat je vele beurten besteedt aan het een voor een raden van een aantal vergelijkbare woorden. Als je bijvoorbeeld _RA_E hebt en kijkt naar een aantal mogelijke woorden die D, G en K bevatten, zoals "brake", "drake", "drape", "grade" en "grape", helpt het om te weten en speel het woord "kedge", wat kan garanderen dat de oplossing in nog twee beurten wordt gevonden (kedge betekent een schip verplaatsen door zijn anker op een afstand te laten vallen en er vervolgens aan te trekken met een stevig touw).

Elke dag dezelfde Wordle-puzzel krijgen als iedereen, stimuleert sociaal spel. Maar spoilers zijn er in overvloed op internet, en dat is bekend sommige mensen bedriegen bij het rapporteren van hun scores. De volgende puzzel gaat over de vraag wanneer verdenkingen van bedrog in een Wordle-groep gerechtvaardigd zijn uitsluitend op basis van de onwaarschijnlijkheid van iemands score. Nogmaals, deze puzzel is geformuleerd in termen van golfscores: een Wordle-oplossing in drie beurten wordt een birdie genoemd, het in twee beurten krijgen is een adelaar en een woord krijgen in de allereerste beurt is natuurlijk een hole-in-one .)

Puzzel 3

Een traditioneel wetenschappelijk criterium voor verder onderzoek is of de waarschijnlijkheid dat een uitkomst door toeval plaatsvindt (de alfa waarde) is minder dan 5% of minder dan 1%, afhankelijk van de doelstellingen van de onderzoekers. Het resultaat wordt dan als statistisch significant beschouwd op het niveau van 5% of 1%. Aangezien het niet leuk is om mensen te verdenken van valsspelen terwijl dat niet het geval is, laten we in dit onderzoek het meer conservatieve niveau van 1% kiezen.

Stel dat je tot een Wordle-groep van 10 spelers behoort die 200 dagen lang elke dag resultaten met elkaar hebben gedeeld. Stel dat een zeer goede menselijke speler elke 2.5 games een birdie, elke 40 games een adelaar en elke 2,000 games een hole-in-one kan verwachten (wat redelijke schattingen zijn uit de praktijk).

A) Hoeveel birdies op rij zouden gedurende deze tijd significant zijn op het 1%-niveau in uw groep?

B) Hoeveel adelaars op een rij?

C) Hoeveel holes-in-one op rij?

De sleutel hier is om te beseffen dat je een populatiegrootte hebt van 2,000 persoonsspellen. Dus om dit significantieniveau te bereiken, zou je een gebeurtenis moeten zien die minder vaak dan eens in de 200,000 persoonsspellen voorkomt, uitsluitend door toeval.

A) Birdie-of-beter streaks: de kans op een birdie of beter in een enkel spel is 2/5 + 1/40 + 1/2,000 = 0.4255, wat 1 is op ongeveer 2.35 spellen. Laten we dit noemen B. De laagste kracht van B dat is meer dan 200,000 B¹⁵, dat is meer dan 368,000 (B¹⁴ is ongeveer 157,000). Dus een birdie-of-beter streak van 15 of meer voor iedereen in de groep zou aan dit strenge criterium voldoen, maar een op 14 niet. Als je een individuele speler vermoedt, zou je een gebeurtenis moeten zien die minder vaak voorkomt dan eens in de 20,000 games, wat zou gebeuren met een birdie-of-beter-reeks van 12. (Merk op dat het werkelijke aantal kansen om reeksen van deze lengtes zijn iets kleiner: het zijn eigenlijk 1,850 spellen voor de groep en 188 spellen voor de individuele speler, maar dat maakt in dit geval niet uit).

Merk op dat dit de frequenties zijn voor ervaren spelers en dat verdachte strepen voor de meeste groepen en individuen kleiner zijn. Om dit criterium in de praktijk toe te passen, moet je de corresponderende birdie-, eagle- en hole-in-one-frequenties bepalen die je ziet en ook rekening houden met het aantal games dat in je groep is gespeeld.

B) Eagle-of-beter streaks: De kans op een eagle of beter is 1/40 + 1/2,000 = 0.0255, of ongeveer 1 op 39.2. De reekslengtes die ons significantieniveau overschrijden, zijn 4 voor de groep en 3 voor een verdacht individu.

C) Hole-in-one streaks: De streak-lengte die ons significantieniveau overschrijdt, is 2, zowel voor de groep als voor een verdacht individu.

Er is een voorbehoud bij de laatste twee antwoorden: dit zijn zeldzame gebeurtenissen en de steekproefomvang is erg klein, dus je moet voorzichtig zijn. De meeste statistici zouden over het algemeen wachten tot ze minstens vijf of meer gevallen van adelaars of holes-in-one hadden gezien, niet noodzakelijkerwijs als onderdeel van een reeks, voordat ze zich op hun gemak voelden bij het toepassen van een significantietest.

Vraag 3

Het is heel goed mogelijk dat de frequentie van goede resultaten in uw groep aanzienlijk hoger is dan de frequentie die door toeval wordt voorspeld, zonder dat iemand vals speelt. Hoe zou je dit uitleggen?

Een mogelijke reden hiervoor, zoals Rob Corlett legt uit, zou kunnen zijn dat "de spelers allemaal ijverig alle resultaten bijhouden". Zoals ik heb uitgelegd in de prelude van puzzel 4, zullen de Wordle-antwoorden onder de huidige opzet ongeveer vijf jaar niet worden herhaald. Dus zelfs als niemand vals speelt of alle woorden op de antwoordlijst kent, kan deze informatie nog steeds elk individu of elke groep helpen om geleidelijk beter te presteren.

Maar er is nog een andere reden: de lijst is mogelijk niet goed gerandomiseerd. Toen ik de afgelopen maanden Wordle speelde, merkte ik dat wanneer er een keuze was tussen twee of meer woorden, de eenvoudigere woorden waarschijnlijker correct waren dan de minder gebruikelijke woorden. Als je bijvoorbeeld A, N en E had en de keuzemogelijkheden waren woorden als 'sluipen', 'hyena' en 'klysma', dan zou je zonder aarzelen het eenvoudigste woord kunnen spelen ('sluipen' in dit geval) en je zou corrigeer veel vaker dan je bij puur toeval zou verwachten. Ik heb eigenlijk een frequentielijst voor Engelse prozawoorden gebruikt om te controleren hoe vaak de antwoorden die ik gedurende twee maanden tegenkwam, werden vergeleken met een gemiddeld woord in de Wordle-antwoordlijst. De antwoorden die ik tegenkwam kwamen ongeveer 25% vaker voor dan het gemiddelde woord op de Wordle-antwoordlijst, en wat nog belangrijker is, voor de zeldzaamste woorden op de lijst (de onderste 10%) kwam slechts een derde van het aantal als antwoord opdagen tot. Eagles gebeurde met een frequentie dichter bij 1/20 in plaats van 1/40 op basis van puur toeval. Het lijkt er dus op dat de volgorde van de antwoorden op Wordle niet goed gerandomiseerd is, en of het is vooraf geladen met eenvoudigere woorden of we doorlopen een deel van de lijst dat uit eenvoudigere woorden bestaat.

Een belangrijke recente verandering is dat The New York Times een Wordle-editor aangesteld om het woord van de dag te programmeren vanaf 7 november. Sindsdien is het verwijderen van moeilijke of aanstootgevende woorden uit de lijst met vooraf bepaalde volgorde gebruikelijker geworden, inclusief de vervanging, achter de schermen, van woorden als "ombre", "braaksel" en " fanny.” Hoewel ik de noodzaak van de Times om Wordle-woorden te zuiveren en te vereenvoudigen om verontwaardiging van de miljoenen mensen die spelen te voorkomen, maakt het het spel minder willekeurig en veel voorspelbaarder. Erger nog is de ongelukkige redactionele neiging van de afgelopen weken om een woord te kiezen dat bij de dag past, zoals 'feest' op Thanksgiving Day en 'medaille' op Veteranendag. Dit komt neer op het geven van een extra aanwijzing over het woord nog voordat het spel begint, waardoor de puzzel eenvoudiger wordt en afbreuk wordt gedaan aan de rijke informatietheorie. Ik hoop echt dat dit een tijdelijke afwijking is, want willekeur is een essentieel onderdeel van dit spel. De meeste mensen die feedback gegeven naar The New York Times over deze redactionele keuzes voelde hetzelfde.

Onze vierde puzzel was gebaseerd op het feit dat, onder de huidige architectuur, Wordle-oplossingen zich nooit zullen herhalen totdat de lijst na ongeveer vijf jaar op is.

Puzzel 4

Overweeg een persoon met een perfecte herinnering aan oplossingen uit het verleden. Voor zo'n persoon zou het antwoord duidelijk zijn op de laatste dag van Wordle's lijst van 2,309 woorden. Kun je snel inschatten hoeveel holes-in-one deze persoon zou verwachten te behalen gedurende de hele lijst, zonder de daadwerkelijke berekening uit te voeren? Probeer dan, als je kunt, de daadwerkelijke berekening uit te voeren.

Rob Corlett beantwoordde dit perfect, schatte het antwoord logisch op 8.25 en berekende het antwoord vervolgens op 8.32. De belangrijkste berekeningen van Corlett staan hieronder vermeld. U kunt de opmerking bekijken voor de uitstekende schattingstechniek.

Als je m woorden en u raadt, dan is de kans dat u het goed doet 1/m. Als je 1 woord hebt is de kans 1/1, 2 woorden 1/2, 3 woorden 1/3, etc. Als je deze bij elkaar optelt krijg je het verwachte aantal holes-in-one! …

[Dit] heeft ons nodig om de som van de reciproke getallen van alle getallen van 2309 tot 1 te berekenen. Ik deed dit in een spreadsheet en vond het totaal op 8.32, bevredigend dicht bij mijn schatting!

Onze laatste vraag was hoe we de randomisering van woorden in Wordle konden verbeteren terwijl het ontwerp aan de "clientzijde" behouden bleef. Voordat de Wordle-editor werd aangesteld, was er geen dagelijkse randomisatie van woorden: de woorden kwamen uit een gedownloade lijst met vooraf bepaalde volgorde die niet erg goed gerandomiseerd was, zoals ik hierboven al zei. Vervolgens werd het oplossingswoord van Wordle gegenereerd op het apparaat van de klant (gebruiker) uit de woordenlijst, afhankelijk van de huidige datum, en werd de hele puzzel ook beoordeeld op het apparaat van de gebruiker. De code om dit alles te doen, wordt elke dag de allereerste keer dat een gebruiker verbinding maakt met de website gedownload. De gebruiker hoeft daarna niet online te zijn.

Vraag 4

Hoe zou je Wordle zo ontwerpen dat het het ontwerp aan de clientzijde behoudt, ervoor zorgt dat iedereen op een bepaalde dag hetzelfde oplossingswoord krijgt, maar de antwoorden op een verstandige manier willekeurig verdeelt zonder dat elke dag een wijziging in de code nodig is?

Er waren enkele goede antwoorden op de randomisatievraag. Een paar lezers stelden voor om een pseudowillekeurig getal met een vooraf gedefinieerde seed te gebruiken om een index in de Wordle-antwoordenlijst te maken. Muminrolletje schreef zelfs een programma dat vijf Wordle-antwoordlijsten willekeurig schudt (duurt 32 jaar), om ervoor te zorgen dat geen enkel woord binnen een jaar wordt herhaald. Voor mij kwam de meest aansprekende procedure uit BlindThemis, die suggereerde dat het willekeurige zaad dat voor de randomisatieprocedure wordt gebruikt, de laatste vier cijfers moet zijn van het aantal mensen dat het spel tegen een bepaalde tijd heeft gespeeld. (Aangezien Wordle overal ter wereld kan worden gespeeld, zou dit moeten gebeuren in tijdzones boven de oostelijke Stille Oceaan, beginnend vanaf de internationale datumgrens!) Het mooie hiervan is dat niemand, zelfs niet de New York Times Wordle-editor, zou weten wat het woord was de dag voordat het werd gebruikt.

Geen van deze mechanismen kan volledig aan de clientzijde worden uitgevoerd, zoals Tim Ross gewezen. Het volgende woord zou door de server moeten worden gegenereerd, en dit woord of het indexnummer ervan zou moeten worden gedownload, mogelijk in versleutelde vorm met de rest van de code. Zoals Ross opmerkte, zijn momenteel de 2,309 antwoordwoorden duidelijk zichtbaar in datumvolgorde in de broncode, die elke browser kan onthullen. Een benadering zou kunnen zijn om de lijst met antwoordwoorden te versleutelen en deze in alfabetische volgorde op te slaan in plaats van op datumvolgorde.

Hoewel de voorgestelde verbeteringen in randomisatie zouden helpen, zal encryptie helemaal geen verschil maken, aangezien er nog steeds meerdere spoilers op internet zullen zijn en meerdere manieren om vals te spelen.

Dank aan iedereen die heeft bijgedragen aan deze interessante discussie. De Insights-prijs voor deze puzzel gaat naar Rob Corlett. Gefeliciteerd! Onze volgende puzzel verschijnt in februari. Tot dan, veel puzzelplezier en fijne feestdagen!

Tijdstempel: 2 december 20222 december 2022

Tijdstempel: 30 mei 2023

De wiskunde achter Wordle-gissingen

Heruitgegeven door Plato

Puzzel 1

Vraag 1

Puzzel 2

Vraag 2

Puzzel 3

Vraag 3

Puzzel 4

Vraag 4

Meer van Quanta tijdschrift

Het verbazingwekkende gedrag van recursieve reeksen | Quanta-tijdschrift

In onze mobiele klokken heeft ze een leven vol ontdekkingen gevonden | Quanta-tijdschrift

Machines leren beter als we ze de basis leren

Negende Dedekind-nummer gevonden door twee onafhankelijke groepen | Quanta-tijdschrift

Molecuulbouwvernieuwers winnen Nobelprijs voor scheikunde 2022

Asymmetrie gedetecteerd in de verdeling van sterrenstelsels

Recordbrekende robot laat zien hoe dieren uitblinken in springen

Natuurkundigen vinden eindelijk een probleem dat alleen kwantumcomputers kunnen oplossen | Quanta-tijdschrift

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account

Introductie

Puzzel 1

Vraag 1

Puzzel 2

Vraag 2

Puzzel 3

Vraag 3

Puzzel 4

Vraag 4

Meer van Quanta tijdschrift

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account