Matematikken bag Wordle gætter PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Matematikken bag ordgætninger

Introduktion

I det enkle Wordle-spil skal spillere gætte et hemmeligt ord på fem bogstaver i seks eller færre omgange baseret på spor om tilstedeværelsen og placeringen af ​​bogstaver, afsløret af deres tidligere gæt. Mens noget lignende spil er dukket op tidligere, skal alle, der spiller Wordle på en bestemt dag, opdage det samme hemmelige ord, hvilket gør det nemt at dele dine forsøg og diskutere spillet blandt dine venner. Den karakteristiske struktur og præsentation af spillet inspirerede spørgsmålene i vores seneste Indsigt puslespil. Svarene diskuteres nedenfor.

En nøgle til at spille et godt Wordle-spil er at vælge et stærkt startord. Computer analyser legemliggør informationsteoretiske teknikker foreslår, at startord som "skifer" og "krane" gør det muligt for dig (eller en computeralgoritme i hvert fald) at løse Wordles i det mindste antal omgange i gennemsnit. Men mange menneskelige løsere føler sig mere trygge ved at vælge et vokalrigt ord som "adieu", "lyd" eller "hæve". Denne følelse har både et intuitivt og et rationelt grundlag. For det første gør placerede vokaler dig i stand til at finde en vokal "rygrad", der kan begrænse antallet af konsonanter, du skal søge efter. For eksempel, hvis du ved, at ordet ser ud som _AI_E, efter du har spillet "raise", er der kun et par mulige ord tilbage: "naiv", "waive" og "majs". For det andet maksimerer vokaler en mængde, der kan kaldes "dækning" - mellem blot de fem vokaler og Y kan vi få mindst ét ​​positivt bogstav i hvert af de 2,309 svar. For at få denne form for perfekt dækning med konsonanter, skal du prøve dem alle 20, hvilket vil kræve mindst fem omgange.

Vores første puslespil udfordrede læserne til at finde ud af, hvilket af disse tre vokalrige ord, der er det bedste første gæt.

Puslespil 1 

Følgende tabel angiver den hyppighed, hvormed de otte bogstaver i ordene "adieu", "audio" og "hæve" forekommer i hver position over hele Wordle-svarlisten på 2,309 ord. Baseret på denne tabel skal du bestemme, hvor mange grønne og gule farver du kan forvente at komme over hele Wordle-svarlisten for hvert af de tre vokalrige startord: "adieu", "lyd" og "hæve". (I Wordle vises et bogstav med en grøn baggrund, hvis det er på det rigtige sted, og en gul baggrund, hvis det er i ordet, men er på det forkerte sted.) Hvad fortæller dette dig om deres forventede ydeevne som startord ?

Læser Rob Corlett viste, hvordan man beregner antallet af forventede grønne og gule fra denne tabel. For "adieu" er A det korrekte første bogstav for 140 ord, D er det korrekte andet bogstav for 20 ord og så videre. Det samlede antal greens over alle mulige Wordle-svar er summen af ​​disse. Så "adieu" får i alt 140 + 20 + 266 + 318 + 1 = 745 greens. For gule farver skal vi starte med antallet af gange, bogstavet forekommer mindst én gang i et ord (906 for A'et i "adieu") og trække de gange, det er grønt (140) for at få antallet af gule farver (766) . Tilføj tallene for hvert bogstav i ordet for at få det samlede antal gule. Vi kan dividere disse tal med det samlede antal svar (2,309) for at få forventningen til grønne og gule for en enkelt omgang, men da dette trin er fælles for alle vores startord, kan vi bare arbejde med totalerne for at sammenligne de tre af dem. Da vi har valgt disse ord specifikt til at finde en vokalrygrad, kan vi også beregne hvor mange af de grønne der kommer fra vokaler. Her er resultaterne.

Som du kan se, er der ingen sammenligning! "Raise" er overlegen i forhold til "adieu" i enhver takt, hvilket giver flere grønne og gule farver og giver flere vokaler på deres rigtige steder, for ikke at sige noget om, at du også fanger eller udelukker to af de mest almindelige konsonanter. "Audio" er en fjern tredjedel på alle disse mål. Bemærk, at selvom du kan få nogle oplysninger om, hvilke bogstaver der mangler, selvom du ikke får gule eller grønne farver, som læser Max Davies påpeget, får du helt sikkert flere oplysninger, når du får en eller flere gule og grønne farver. Så "adieu"-brugere, måske er det på tide at sige adieu.

Spørgsmål 1

Dette var et spørgsmål om, hvor meget vi skulle værdsætte grønne i forhold til gule: Hvor mange gule er lig med en enkelt grøn? Den klare karakter af vores resultater ovenfor undgår behovet for at besvare dette for ovenstående sammenligning, men det er et interessant spørgsmål. Der er to aspekter af denne værdiansættelse. Det første er det menneskelige aspekt: ​​Hvor meget vægt tillægger du den mentale indsats, der kræves for at finde ud af alle de forskellige måder, et gult bogstav kan placeres på? Der er ingen tvivl om, at det at slå en masse greens gør livet lettere og giver os et mere dopamin-boost. Fra et informationsteoretisk synspunkt skal du gennemgå hvert startord for hvert svarord og sammenligne, hvor mange omgange det ville tage at løse puslespillet, når de samme bogstaver var grønne sammenlignet med, når de var gule i alle tilfælde.

Selvom dette er en kæmpe opgave, lykkedes det mig at gøre det for det bedst mulige computerstartord (det obskure ord "tarse", som betyder en hanfalk, hvis fulde optimale løsningstræ har været bogført online af matematikeren Alex Selby). Svaret er overraskende. Det gennemsnitlige antal drejninger, der kræves for en computerløsning med et svarord, der kun producerede greens i første vending, var 3.34, mens antallet af drejninger, der krævedes, når der kun var gule bogstaver, var 3.51, en stigning på blot 5 %! For en computeralgoritme kan det tydeligvis ske uden alt for stor straf at placere de gule bogstaver, som virker så skræmmende for os mennesker. Jeg vil gætte på, at forskellen ville være større for en menneskelig løser, ikke kun i antallet af krævede drejninger, men også i den mentale indsats og tid, der kræves for at løse.

Puslespil 2

A) Hvis du får alle fem gule på din første tur, hvad er det maksimale antal omgange, det kan tage for at finde svaret, forudsat at du spiller bedst?

As Rob Corlett , Sam Rhoads korrekt angivet, er det teoretiske svar fem: En helt gul kombination af bogstaver såsom ABCDE kunne modstå opdagelse i fire omgange mere, da du måske skal cykle gennem BCDEA, CDEAB og DEABC, før du opdager, at svaret var EABCD. I praksis er sådanne cykliske "ord" dog ikke mulige, netop fordi rigtige ord har definerede vokal- og konsonantmønstre, som ikke kan strækkes vilkårligt. Selv ord med mange anagrammer kan løses på ikke mere end tre forsøg, som Rob Corlett demonstrerede med "parse".

B) Er det nogensinde sådan, at det er mere værdifuldt at have et bogstav i en bestemt position, der bliver gult, end at se det blive grønt? Hvis ja, kan du give et eksempel og forklare, hvorfor det skulle være det?

Ja, et bogstav, der kommer gult, kan i sjældne tilfælde være mere værdifuldt end det samme bogstav, der kommer grønt, hvis det er et bogstav, der sjældent optræder i de andre positioner. Dette sker ofte med Y, som i overvejende grad findes i slutningen af ​​et ord. Antag, at du starter med "mave", og både B og Y bliver grønne. Du står tilbage med mange muligheder: "baggy", "bitty", "bobby", "booty", "bushy" osv. Men hvis både B og Y bliver gule, er der kun én mulighed: "afgrund."

Spørgsmål 2

Har en person med et godt ordforråd af obskure Scrabble-ord en fordel eller ulempe ved at spille Wordle?

Som tidligere turnerings-Scrabble-spiller, der brugte en del timer på at huske obskure ord, synes jeg, det er både en fordel og en ulempe. Da jeg først begyndte at spille Wordle, oplevede jeg, at jeg ofte så muligheden for og forsøgte at udelukke ualmindelige ord, som jeg senere indså, at de næsten ikke havde nogen chance for at være korrekte. (I golfterminologi, som min Wordle-gruppe ofte bruger, omtaler vi dette som værende forhindret af en imaginær fare.) Som jeg beskrev i puslespilsspalten, er Wordle-svarene hentet fra en liste over simple ord, hvoraf størstedelen er kendte til alle amerikansk engelsktalende som modersmål. Selv ord, der er noget ualmindelige, men ikke obskure, er ikke på Wordles svarliste. For eksempel spildte jeg for nylig en tur med at spille "latex", et ret almindeligt ord, der viser sig ikke at være et muligt Wordle-svar. Så som alle Wordle-spillere har jeg været nødt til at bygge en mental model af den slags ord, der kunne være et Wordle-svar, og specifikt ignorere den slags sjældne og obskure ord, som jeg med glæde ville bruge til at score flere point i Scrabble. På den anden side kommer kendskabet til disse sjældne ord godt med i "fejende konsonanter", hvilket du nogle gange skal gøre for at undgå at bruge mange omgange på at gætte en masse lignende ord én efter én. For eksempel, hvis du har _RA_E og ser på en masse mulige ord, der indeholder D, G og K, såsom "bremse", "drake", "drape", "grade" og "grape", hjælper det at kende og spille ordet "kedge", som kan garantere at finde løsningen i yderligere to omgange (at kedge betyder at flytte et skib ved at slippe dets anker på afstand og derefter trække i det med et kraftigt reb).

At få det samme Wordle-puslespil som alle andre hver dag tilskynder til social leg. Men der er masser af spoilere på internettet, og det er kendt nogle mennesker snyder med at rapportere deres resultater. Det næste puslespil omhandler spørgsmålet om, hvornår mistanke om snyd i en Wordle-gruppe er berettiget udelukkende baseret på usandsynligheden af ​​en persons score. Igen er dette puslespil indrammet i golfscoringstermer: En Wordle-løsning i tre omgange kaldes en birdie, at få den i to omgange er en ørn, og at få et ord på det allerførste sving er selvfølgelig en hole-in-one .)

Puslespil 3

Et traditionelt videnskabeligt kriterium for at undersøge nærmere er, hvis sandsynligheden for, at et udfald opstår tilfældigt (den alfa værdi) er mindre end 5 % eller mindre end 1 %, afhængigt af forskernes mål. Resultatet anses derefter for at være statistisk signifikant på 5 % eller 1 % niveau. Da det ikke er rart at mistænke folk for snyd, når de ikke er det, så lad os vælge det mere konservative 1%-niveau i denne undersøgelse.

Antag, at du tilhører en Wordle-gruppe på 10 spillere, som har delt resultater med hinanden hver dag i 200 dage. Antag, at en meget god menneskelig spiller kan forvente at få en birdie for hver 2.5 kamp, ​​en ørn for hver 40 kampe og en hole-in-one for hver 2,000 spil (hvilket er rimelige skøn fra den virkelige verden).

A) Hvor mange birdies i træk ville være signifikante på 1%-niveauet i din gruppe i løbet af denne tid?

B) Hvor mange ørne i træk?

C) Hvor mange hole-in-one i træk?

Nøglen her er at indse, at du har en befolkningsstørrelse på 2,000 person-spil. Så for at nå dette betydningsniveau, skal du se en begivenhed, der ville ske sjældnere end én gang i 200,000 personspil udelukkende ved et tilfælde.

A) Birdie-eller-bedre streaks: Sandsynligheden for at få en birdie eller bedre i et enkelt spil er 2/5 + 1/40 + 1/2,000 = 0.4255, hvilket er 1 ud af ca. 2.35 spil. Lad os kalde dette B. Den laveste effekt af B der overstiger 200,000 er B15, hvilket er mere end 368,000 (B14 er omkring 157,000). Så en birdie-eller-bedre streak på 15 eller mere for alle i gruppen ville opfylde dette strenge kriterium, men en af ​​14 ville ikke. Hvis du havde mistanke om en individuel spiller, ville du skulle se en begivenhed, der sker sjældnere end én gang i 20,000 spil, hvilket ville ske med en birdie-eller-bedre streak på 12. (Bemærk, at det faktiske antal muligheder for at have streaks på disse længder er lidt mindre: Det er faktisk 1,850 spil for gruppen og 188 spil for den enkelte spiller, men det gør ikke en forskel i dette tilfælde).

Bemærk, at dette er frekvenserne for ekspertspillere, og mistænkelige streaks for de fleste grupper og enkeltpersoner ville være mindre. For at anvende dette kriterium i praksis skal du bestemme de tilsvarende birdie, eagle og hole-in-one frekvenser, som du ser, og også tage højde for antallet af spil, der er blevet spillet i din gruppe.

B) Ørn-eller-bedre streaks: Sandsynligheden for en ørn eller bedre er 1/40 + 1/2,000 = 0.0255, eller omkring 1 ud af 39.2. Stribelængderne, der overstiger vores signifikansniveau, er 4 for gruppen og 3 for en mistænkt person.

C) Hole-in-one streaks: Strebelængden, der overstiger vores signifikansniveau, er 2 både for gruppen og for en mistænkt person.

Der er en advarsel til de sidste to svar: Det er sjældne hændelser, og stikprøvestørrelsen er meget lille, så du skal være forsigtig. De fleste statistikere ville generelt vente, indtil de havde set mindst fem eller flere tilfælde af ørne eller hole-in-one, ikke nødvendigvis som en del af en streak, før de var trygge ved at anvende en signifikanstest.

Spørgsmål 3

Det er fuldt ud muligt, at hyppigheden af ​​gode resultater i din gruppe er væsentligt højere end den tilfældige frekvens, uden at nogen snyder. Hvordan vil du forklare dette?

En mulig årsag til dette, som Rob Corlett forklarer, kunne være, at "spillerne alle holder nøje optegnelser over hvert resultat." Som jeg forklarede i optakten til puslespil 4, skal Wordle-svar ikke gentages i fem år eller deromkring under den nuværende opsætning. Så selvom ingen snyder eller kender alle ordene på svarlisten, kan denne information stadig hjælpe enhver person eller gruppe med gradvist at præstere bedre.

Men der er også en anden grund: Listen er måske ikke godt randomiseret. Da jeg spillede Wordle i løbet af de sidste mange måneder, lagde jeg mærke til, at når der var et valg mellem to eller flere ord, var det mere sandsynligt, at de simplere ord var rigtige end de mindre almindelige ord. For eksempel, hvis du havde A, N og E, og valgmulighederne tilbage var ord som "snik", "hyæne" og "klyster", kunne du uden tøven spille det enkleste ord ("snige" i dette tilfælde), og du ville blive rette meget oftere end du ville forvente ved et rent tilfælde. Jeg brugte faktisk en engelsk prosaords frekvensliste til at kontrollere, hvor almindelige de svar, jeg stødte på over to måneder, var sammenlignet med et gennemsnitligt ord i Wordle-svarlisten. De svar, jeg stødte på, var omkring 25 % mere almindelige end gennemsnitsordet på Wordle-svarlisten, og endnu vigtigere, for de sjældneste ord på listen (de nederste 10%), dukkede kun en tredjedel så mange op som svar, som man skulle til. Eagles skete med en frekvens tættere på 1/20 i stedet for 1/40 baseret på ren tilfældighed. Så det ser ud til, at Wordle-svarsekvensen ikke er godt randomiseret, og enten er den frontloadet med enklere ord, eller også gennemgår vi en del af listen, der består af enklere ord.

En væsentlig ændring for nylig er det The New York Times udnævnt til Wordle-redaktør at programmere dagens ord, der starter den 7. november. Siden da er det blevet mere almindeligt at fjerne svære eller stødende ord fra den forudgående liste, herunder udskiftning bag kulisserne af ord som "ombre", "bræk" og " fanny." Mens jeg forstår behovet for Times at rense og forenkle Wordle-ord for at forhindre forargelse fra de millioner af mennesker, der spiller, det gør spillet mindre tilfældigt og meget mere forudsigeligt. Endnu værre er den uheldige redaktionelle tendens i de sidste par uger til at vælge et ord, der passer til dagen, såsom "fest" på Thanksgiving Day og "medalje" på Veterans Day. Dette svarer til at give et ekstra fingerpeg om ordet, allerede før spillet starter, hvilket gør puslespillet lettere og forringer dets rige informationsteoretiske forbindelse. Jeg håber, at dette er en midlertidig aberration, fordi tilfældighed er et væsentligt element i dette spil. De fleste mennesker, der gav feedback til The New York Times om disse redaktionelle valg føltes på samme måde.

Vores fjerde puslespil var baseret på det faktum, at Wordle-løsninger under sin nuværende arkitektur aldrig vil gentage sig, før listen løber ud efter fem år eller deromkring.

Puslespil 4

Overvej en person med en perfekt hukommelse af tidligere løsninger. For sådan en person ville svaret være indlysende på den sidste dag af Wordles 2,309 ord lange liste. Kan du hurtigt estimere, hvor mange holes-in-one denne person ville forvente at få over hele listens varighed, uden at lave selve beregningen? Så hvis du kan, prøv at lave den faktiske beregning.

Rob Corlett svarede perfekt på dette, logisk estimerede svaret til at være 8.25, og derefter beregnede svaret til at være 8.32. Corletts nøgleberegninger er citeret nedenfor. Du kan tjekke kommentaren for den fremragende estimeringsteknik.

Hvis du har m ord og du gætter, så er chancerne for at få det rigtige 1/m. Hvis du har 1 ord, er chancerne 1/1, 2 ord 1/2, 3 ord 1/3 osv. Hvis du lægger disse sammen, får du det forventede antal hole-in-one! …

[Dette] kræver, at vi beregner summen af ​​de gensidige af alle tallene fra 2309 ned til 1. Jeg gjorde dette i et regneark og fandt, at totalen var 8.32, tilfredsstillende tæt på mit estimat!

Vores sidste spørgsmål spurgte, hvordan man forbedrer Wordles randomisering af ord, samtidig med at dets "klientside"-design bevares. Før Wordle-redaktøren blev udnævnt, var der ingen daglig randomisering af ord: Ordene kom fra en downloadet præ-sekventeret liste, der ikke var særlig godt randomiseret, som jeg nævnte ovenfor. Derefter blev Wordles løsningsord genereret på klientens (brugerens) enhed fra ordlisten afhængigt af den aktuelle dato, og hele puslespillet blev også bedømt på brugerens enhed. Koden til at gøre alt dette downloades den allerførste gang, en bruger opretter forbindelse til webstedet hver dag. Brugeren behøver ikke at være online derefter.

Spørgsmål 4

Hvordan ville du designe Wordle, så det bevarer klientsidens design og sikrer, at alle får det samme løsningsord på en given dag, men randomiserer svarene på en fornuftig måde uden at kræve en ændring i koden hver dag?

Der var nogle gode svar på randomiseringsspørgsmålet. Et par læsere foreslog at bruge et pseudotilfældigt tal med et foruddefineret frø til at oprette et indeks i Wordle-svarlisten. Mumintrollet skrev endda et program, der tilfældigt blander fem Wordle-svarlister (der varer 32 år), og sørger for, at intet ord gentages inden for et år. For mig kom den mest tiltalende procedure fra BlindThemis, der foreslog, at det tilfældige frø, der blev brugt til randomiseringsproceduren, skulle være de sidste fire cifre i antallet af personer, der har spillet spillet på et bestemt tidspunkt. (Da Wordle kan spilles overalt i verden, ville dette skulle gøres i tidszoner over det østlige Stillehav, startende fra den internationale datolinje!) Det fantastiske ved dette er, at ingen, ikke engang New York Times Wordle redaktør, ville vide hvad ordet var dagen før det blev brugt.

Ingen af ​​disse mekanismer kan udføres fuldstændigt på klientsiden, som Tim Ross påpegede. Det næste ord skulle genereres af serveren, og dette ord eller dets indeksnummer skulle downloades, muligvis i krypteret form med resten af ​​koden. Som Ross påpegede, er de 2,309 svarord i øjeblikket tydeligt synlige i datorækkefølge i kildekoden, hvilket enhver browser kan afsløre. En tilgang kunne være at kryptere svarordlisten og gemme den i alfabetisk rækkefølge frem for i datorækkefølge.

Selvom de foreslåede forbedringer i randomisering ville hjælpe, vil kryptering overhovedet ikke gøre nogen forskel, da der stadig vil være flere spoilere på internettet og flere måder at snyde på.

Tak til alle, der har bidraget til denne interessante diskussion. Insights-prisen for dette puslespil går til Rob Corlett. Tillykke! Vores næste puslespil vises i februar. Indtil da, glædelig puslespil og glædelig ferie!

Tidsstempel:

Mere fra Quantamagazin