Matematiken bakom Wordle gissar PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Matematiken bakom ordgissningar

Beskrivning

I det enkla spelet Wordle måste spelare gissa ett hemligt ord på fem bokstäver i sex eller färre varv baserat på ledtrådar om förekomsten och placeringen av bokstäver som avslöjats av deras tidigare gissningar. Även om något liknande spel har dykt upp tidigare, måste alla som spelar Wordle en viss dag upptäcka samma hemliga ord, vilket gör det enkelt att dela dina försök och diskutera spelet bland dina vänner. Den distinkta strukturen och presentationen av spelet inspirerade frågorna i vårt senaste Insikt pussel. Svaren diskuteras nedan.

En nyckel till att spela ett bra Wordle-spel är att välja ett starkt startord. Datoranalyser förkroppsligar informationsteoretiska tekniker föreslår att startord som "skiffer" och "kran" gör det möjligt för dig (eller en datoralgoritm, i alla fall) att lösa Wordles i det minsta antalet varv i genomsnitt. Men många mänskliga lösare känner sig mer bekväma med att välja ett vokalrikt ord som "adieu", "audio" eller "höja". Denna känsla har både en intuitiv och en rationell grund. Först, placerade vokaler gör att du kan hitta en vokal "ryggrad" som kan begränsa antalet konsonanter du behöver söka efter. Till exempel, om du vet att ordet ser ut som _AI_E efter att du har spelat "höjning", finns det bara några möjliga ord kvar: "naiv", "avstå från" och "majs". För det andra maximerar vokaler en kvantitet som kan kallas "täckning" - mellan bara de fem vokalerna och Y kan vi få minst en positiv bokstav i vart och ett av de 2,309 20 svaren. För att få den här typen av perfekt täckning med konsonanter måste du prova alla XNUMX, vilket skulle kräva minst fem varv.

Vårt första pussel utmanade läsarna att ta reda på vilket av dessa tre vokalrika ord som är den bästa första gissningen.

Pussel 1 

Följande tabell visar den frekvens med vilken de åtta bokstäverna i orden "adieu", "audio" och "höjning" förekommer i varje position över hela Wordles svarslista på 2,309 XNUMX ord. Baserat på den här tabellen, bestäm hur många gröna och gula färger du kan förvänta dig för att komma över hela Wordle-svarslistan för vart och ett av de tre vokalrika startorden: "adieu", "audio" och "höja". (I Wordle visas en bokstav med grön bakgrund om den är på rätt plats och gul bakgrund om den står i ordet men är på fel plats.) Vad säger detta om deras förväntade prestanda som startord ?

Läsare Rob Corlett visade hur man beräknar antalet förväntade gröna och gula från denna tabell. För "adieu" är A den korrekta första bokstaven för 140 ord, D är den korrekta andra bokstaven för 20 ord och så vidare. Det totala antalet greener över alla möjliga Wordle-svar är summan av dessa. Så "adieu" får totalt 140 + 20 + 266 + 318 + 1 = 745 greener. För gula färger måste vi börja med antalet gånger bokstaven förekommer minst en gång i ett ord (906 för A i "adieu") och subtrahera de gånger den är grön (140) för att få antalet gula (766) . Lägg till siffrorna för varje bokstav i ordet för att få det totala antalet gula. Vi kan dividera dessa siffror med det totala antalet svar (2,309 XNUMX) för att få förväntan på gröna och gula för ett enda varv, men eftersom detta steg är gemensamt för alla våra startord kan vi bara arbeta med totalerna för att jämföra de tre av dem. Eftersom vi har valt dessa ord specifikt för att hitta en vokalryggrad kan vi också räkna ut hur många av de gröna som kommer från vokaler. Här är resultaten.

Som ni ser finns det ingen jämförelse! "Höj" är överlägset "adieu" i varje mått, ger fler gröna och gula färger och ger fler vokaler på sina rätta platser, för att inte säga något om det faktum att du också fångar eller utesluter två av de vanligaste konsonanterna. "Audio" är en avlägsen tredjedel på alla dessa mått. Observera att medan du kan få lite information om vilka bokstäver som saknas även om du inte får några gula eller gröna, som läsare Max Davies påpekade, du får definitivt mer information när du får en eller flera gula och gröna. Så, "adieu"-användare, det kanske är dags att säga adieu.

Fråga 1

Det här var en fråga om hur mycket vi borde värdera gröna i förhållande till gula: Hur många gula är lika med en enda grön? Den tydliga karaktären hos våra resultat ovan undviker behovet av att svara på detta för jämförelsen ovan, men det är en intressant fråga. Det finns två aspekter på denna värdering. Den första är den mänskliga aspekten: Hur mycket vikt ger du den mentala ansträngning som krävs för att ta reda på alla olika sätt som en gul bokstav kan placeras på? Det går inte att förneka att att slå många greener gör livet lättare och ger oss mer av en dopaminboost. Ur informationsteoretisk synvinkel skulle du behöva gå igenom varje startord för varje svarsord och jämföra hur många varv det skulle ta för att lösa pusslet när samma bokstäver var gröna jämfört med när de var gula i varje fall.

Även om detta är en enorm uppgift, lyckades jag göra det för bästa möjliga datorstartord (det oklara ordet "tarse", vilket betyder en falkhane, vars fullständiga optimala lösningsträd har varit postat på nätet av matematikern Alex Selby). Svaret är överraskande. Det genomsnittliga antalet varv som krävdes för en datorlösning med ett svarsord som endast gav greener i första sväng var 3.34, medan antalet varv som krävdes när det bara fanns gula bokstäver var 3.51, en ökning med bara 5 %! Uppenbarligen, för en datoralgoritm, kan placeringen av de gula bokstäverna, som verkar så skrämmande för oss människor, uppnås utan alltför mycket straff. Jag skulle gissa att skillnaden skulle vara större för en mänsklig lösare inte bara i antalet varv som krävs, utan också i den mentala ansträngning och tid som krävs för att lösa.

Pussel 2

A) Om du får alla fem gula på din första tur, vad är det maximala antalet varv det kan ta för att hitta svaret, förutsatt att du spelar bäst?

As Rob Corlett och Sam Rhoads korrekt angivet är det teoretiska svaret fem: En helt gul kombination av bokstäver som ABCDE skulle kunna motstå upptäckt i fyra varv till, eftersom du kanske måste cykla igenom BCDEA, CDEAB och DEABC innan du upptäcker att svaret var EABCD. I praktiken är sådana cykliska "ord" dock inte möjliga just för att verkliga ord har definierade vokal- och konsonantmönster som inte kan sträckas godtyckligt. Även ord med många anagram kan lösas på högst tre försök, vilket Rob Corlett demonstrerade med "parse".

B) Är det någonsin så att en bokstav i en viss position blir gul är mer värdefull än att se den bli grön? Om så är fallet, kan du ge ett exempel och förklara varför det skulle vara så?

Ja, en bokstav som kommer upp gul kan i sällsynta fall vara mer värdefull än samma bokstav som kommer upp grön, om det är en bokstav som sällan förekommer i de andra positionerna. Detta händer ofta med Y, som överväldigande finns i slutet av ett ord. Anta att du börjar med "mage" och både B och Y blir gröna. Du har många möjligheter kvar: "baggy", "bitty", "bobby", "booty", "bushy" etc. Men om både B och Y blir gula finns det bara en möjlighet: "avgrund".

Fråga 2

Har en person med ett bra ordförråd med obskyra Scrabble-ord en fördel eller nackdel med att spela Wordle?

Som en före detta turnerings-Scrabble-spelare som ägnade ganska många timmar åt att memorera obskyra ord, tycker jag att det är både en fördel och en nackdel. När jag först började spela Wordle fann jag mig själv att ofta se möjligheten till och försöka utesluta ovanliga ord som jag senare insåg att det nästan inte fanns någon chans att bli korrekta. (I golfterminologi, som min Wordle-grupp ofta använder, hänvisar vi till detta som att det hindras av en imaginär fara.) Som jag beskrev i pusselkolumnen är Wordles svar hämtade från en lista med enkla ord, varav de flesta är kända till alla som har amerikansk engelska som modersmål. Även ord som är något ovanliga men inte obskyra finns inte på Wordles svarslista. Till exempel slösade jag nyligen bort en sväng med att spela "latex", ett ganska vanligt ord som visar sig inte vara ett möjligt Wordle-svar. Så, som alla Wordle-spelare, har jag varit tvungen att bygga en mental modell av den typ av ord som kan vara ett Wordle-svar och att specifikt ignorera de typer av sällsynta och obskyra ord som jag gärna skulle använda för att få fler poäng i Scrabble. Å andra sidan kommer kunskapen om dessa sällsynta ord väl till pass i "svepande konsonanter", vilket du ibland måste göra för att slippa spendera många varv med att gissa en massa liknande ord en efter en. Till exempel, om du har _RA_E och tittar på ett gäng möjliga ord som innehåller D, G och K, som "broms", "drake", "drape", "grade" och "grape", hjälper det att veta och spela ordet "kedge", vilket kan garantera att du hittar lösningen i ytterligare två varv (att kedge betyder att flytta ett skepp genom att släppa sitt ankare på avstånd och sedan dra i det med ett kraftigt rep).

Att få samma Wordle-pussel som alla andra varje dag uppmuntrar till social lek. Men det finns gott om spoilers på internet, och det är känt vissa människor fuskar när de rapporterar sina poäng. Nästa pussel handlar om frågan om när misstankar om fusk i en Wordle-grupp är berättigade enbart baserat på osannolikheten av en persons poäng. Återigen är det här pusslet inramat i golfpoängtermer: En Wordle-lösning i tre varv kallas en birdie, att få den i två varv är en örn och att få ett ord på den allra första svängen är naturligtvis en hole-in-one .)

Pussel 3

Ett traditionellt vetenskapligt kriterium för att undersöka vidare är om sannolikheten för att ett resultat inträffar av en slump (den alfavärde) är mindre än 5 % eller mindre än 1 %, beroende på forskarnas mål. Resultatet bedöms då vara statistiskt signifikant på 5 % eller 1 % nivå. Eftersom det inte är trevligt att misstänka människor för fusk när de inte är det, låt oss välja den mer konservativa 1%-nivån i denna utredning.

Anta att du tillhör en Wordle-grupp på 10 spelare som har delat resultat med varandra varje dag i 200 dagar. Antag att en mycket bra mänsklig spelare kan förvänta sig att få en birdie var 2.5 match, en örn var 40:e match och en hole-in-one var 2,000 XNUMX match (vilket är rimliga uppskattningar från den verkliga världen).

A) Hur många birdies i rad skulle vara signifikanta på 1%-nivån i din grupp under denna tid?

B) Hur många örnar i rad?

C) Hur många hål i ett i rad?

Nyckeln här är att inse att du har en befolkningsstorlek på 2,000 200,000 personspel. Så för att nå denna betydelsenivå skulle du behöva se en händelse som skulle inträffa mer sällan än en gång i XNUMX XNUMX personspel enbart av en slump.

A) Birdie-or-bättre streaks: Sannolikheten att få en birdie eller bättre i ett enda spel är 2/5 + 1/40 + 1/2,000 0.4255 = 1, vilket är 2.35 på cirka XNUMX spel. Låt oss kalla detta B. Den lägsta effekten av B som överstiger 200,000 XNUMX är B15, vilket är mer än 368,000 XNUMX (B14 är cirka 157,000 15). Så en birdie-eller-bättre rad på 14 eller mer för alla i gruppen skulle uppfylla detta stränga kriterium, men en av 20,000 skulle inte. Om du misstänkte en enskild spelare, skulle du behöva se en händelse som inträffar mer sällan än en gång i 12 1,850 matcher, vilket skulle hända med en birdie-eller-bättre rad på 188. (Observera att det faktiska antalet möjligheter att ha streaker av dessa längder är något mindre: Det är faktiskt XNUMX XNUMX spel för gruppen och XNUMX spel för den enskilda spelaren, men det gör ingen skillnad i det här fallet).

Observera att detta är frekvenserna för expertspelare, och misstänkta streak för de flesta grupper och individer skulle vara mindre. För att tillämpa detta kriterium i praktiken måste du bestämma motsvarande birdie-, eagle- och hole-in-one-frekvenser som du ser och även ta hänsyn till antalet spel som har spelats i din grupp.

B) Örn-eller-bättre ränder: Sannolikheten för en örn eller bättre är 1/40 + 1/2,000 0.0255 = 1, eller ungefär 39.2 på 4. Sträcklängderna som överstiger vår signifikansnivå är 3 för gruppen och XNUMX för en misstänkt individ.

C) Hole-in-one streaks: Sträcklängden som överskrider vår signifikansnivå är 2 både för gruppen och för en misstänkt individ.

Det finns en varning till de två sista svaren: Dessa är sällsynta händelser, och urvalsstorleken är mycket liten, så du måste vara försiktig. De flesta statistiker skulle i allmänhet vänta tills de hade sett minst fem eller fler fall av örnar eller hole-in-one, inte nödvändigtvis som en del av en rad, innan de var bekväma med att tillämpa ett signifikanstest.

Fråga 3

Det är fullt möjligt att frekvensen av bra resultat i din grupp är betydligt högre än den frekvens som förutspås av en slump, utan att någon fuskar. Hur skulle du förklara detta?

En möjlig orsak till detta, som Rob Corlett förklarar, kan vara att "spelarna alla håller ett noggrant register över varje resultat." Som jag förklarade i inledningen till pussel 4, kommer Wordle-svar inte att upprepas förrän efter fem år eller så under den nuvarande inställningen. Så även om ingen fuskar eller kan alla ord på svarslistan, kan denna information fortfarande hjälpa vilken individ eller grupp som helst att gradvis prestera bättre.

Men det finns också en annan anledning: Listan kanske inte är väl randomiserad. När jag spelade Wordle under de senaste månaderna märkte jag att närhelst det fanns ett val mellan två eller flera ord, var det mer sannolikt att de enklare orden var korrekta än de mindre vanliga orden. Om du till exempel hade A, N och E och valen kvar var ord som "smyga", "hyena" och "lavemang", kunde du utan tvekan spela det enklaste ordet ("smyga" i det här fallet) och du skulle korrigera mycket oftare än du kan förvänta dig av en ren slump. Jag använde faktiskt en frekvenslista för engelska prosaord för att kontrollera hur vanliga de svar jag stötte på under två månader var jämfört med ett genomsnittligt ord i Wordles svarslista. Svaren jag stötte på var ungefär 25 % vanligare än genomsnittsordet på Wordles svarslista, och ännu viktigare, för de sällsynta orden på listan (de lägsta 10 %), dök bara en tredjedel så många upp som svar som man trodde till. Eagles hände med en frekvens närmare 1/20 snarare än 1/40 baserat på ren slump. Så det verkar som om Wordle-svarssekvensen inte är väl randomiserad, och antingen är den frontladdad med enklare ord eller så råkar vi gå igenom en del av listan som består av enklare ord.

En betydande förändring nyligen är det The New York Times utsåg en Wordle-redaktör att programmera dagens ord med start den 7 november. Sedan dess har det blivit vanligare att ta bort svåra eller stötande ord från den förordnade listan, inklusive ersättning, bakom kulisserna, av ord som "ombre", "kräks" och " Fanny." Medan jag förstår behovet av gånger för att rensa och förenkla Wordle-ord för att förhindra upprördhet från de miljontals människor som spelar, det gör spelet mindre slumpmässigt och mycket mer förutsägbart. Ännu värre är den olyckliga redaktionella tendensen under de senaste veckorna att välja ett ord som passar dagen, som "fest" på Thanksgiving Day och "medalj" på Veterans Day. Detta innebär att ge en extra ledtråd om ordet redan innan spelet börjar, vilket gör pusslet enklare och förringar dess rika informationsteoretiska koppling. Jag hoppas att detta är en tillfällig avvikelse eftersom slumpmässighet är en viktig del av det här spelet. De flesta som gav feedback till The New York Times om dessa redaktionella val kändes på samma sätt.

Vårt fjärde pussel baserades på det faktum att, under sin nuvarande arkitektur, kommer Wordle-lösningar aldrig att upprepas förrän listan tar slut efter fem år eller så.

Pussel 4

Tänk på en person med ett perfekt minne av tidigare lösningar. För en sådan person skulle svaret vara uppenbart på den sista dagen av Wordles lista på 2,309 XNUMX ord. Kan du snabbt uppskatta hur många hole-in-one den här personen skulle förvänta sig att få under hela listans varaktighet, utan att göra den faktiska beräkningen? Om du kan, försök sedan göra den faktiska beräkningen.

Rob Corlett svarade perfekt på detta, logiskt uppskattade svaret till 8.25 och beräknade sedan svaret till 8.32. Corletts nyckelberäkningar citeras nedan. Du kan kontrollera kommentaren för den utmärkta uppskattningstekniken.

Om du har m ord och du gissar så är chansen att få det rätt 1/m. Om du har 1 ord är chansen 1/1, 2 ord 1/2, 3 ord 1/3, etc. Lägger du ihop dessa får du det förväntade antalet hole-in-one! …

[Detta] behöver oss för att beräkna summan av de reciproka av alla siffror från 2309 ner till 1. Jag gjorde detta i ett kalkylblad och fann att summan var 8.32, tillfredsställande nära min uppskattning!

Vår sista fråga frågade hur man kan förbättra Wordles randomisering av ord med bibehållen design på "klientsidan". Innan Wordle-redaktören utsågs fanns det ingen daglig randomisering av ord: orden kom från en nedladdad försekvenserad lista som inte var särskilt väl randomiserad, som jag nämnde ovan. Sedan genererades Wordles lösningsord på klientens (användarens) enhet från ordlistan beroende på aktuellt datum, och hela pusslet dömdes även på användarens enhet. Koden för att göra allt detta laddas ner första gången en användare ansluter till webbplatsen varje dag. Användaren behöver inte vara online därefter.

Fråga 4

Hur skulle du designa Wordle så att det behåller designen på klientsidan, vilket säkerställer att alla får samma lösningsord en viss dag, men randomiserar svaren på ett vettigt sätt utan att behöva ändra koden varje dag?

Det fanns några bra svar på randomiseringsfrågan. Ett par läsare föreslog att man skulle använda ett pseudoslumptal med ett fördefinierat frö för att skapa ett index i Wordles svarslista. Mumintrollet skrev till och med ett program som slumpmässigt blandar fem Wordle-svarslistor (varar i 32 år), och ser till att inga ord upprepas inom ett år. För mig kom det mest tilltalande förfarandet från BlindThemis, som föreslog att det slumpmässiga fröet som används för randomiseringsproceduren ska vara de fyra sista siffrorna i antalet personer som har spelat spelet vid en viss tid. (Eftersom Wordle kan spelas var som helst i världen, skulle detta behöva göras i tidszoner över östra Stilla havet, med start från den internationella datumlinjen!) Det fantastiska med detta är att ingen, inte ens New York Times Wordle redaktör, skulle veta vad ordet var dagen innan det användes.

Ingen av dessa mekanismer kan göras helt på klientsidan, som Tim Ross Pekat ut. Nästa ord skulle behöva genereras av servern, och detta ord eller dess indexnummer skulle behöva laddas ner, eventuellt i krypterad form med resten av koden. Som Ross påpekade är de 2,309 XNUMX svarsorden för närvarande tydligt synliga i datumordning i källkoden, vilket alla webbläsare kan avslöja. Ett tillvägagångssätt kan vara att kryptera svarsordlistan och spara den i alfabetisk ordning snarare än i datumordning.

Även om de föreslagna förbättringarna av randomisering skulle hjälpa, kommer kryptering inte att göra någon skillnad alls, eftersom det fortfarande kommer att finnas flera spoilers på internet och flera sätt att fuska.

Tack till alla som bidragit till denna intressanta diskussion. Insights-priset för detta pussel går till Rob Corlett. Grattis! Vårt nästa pussel dyker upp i februari. Tills dess, trevlig förbryllande och trevlig helg!

Tidsstämpel:

Mer från Quantamagazin