A Wordle mögötti matematika a PlatoBlockchain adatintelligenciát sejti. Függőleges keresés. Ai.

A matematika Wordle találgatásai mögött

Bevezetés

A Wordle egyszerű játékában a játékosoknak hat vagy kevesebb körben kell kitalálniuk egy titkos ötbetűs szót a betűk jelenlétére és helyére vonatkozó, korábbi találgatásaik által felfedett nyomok alapján. Míg a múltban megjelentek hasonló játékok, mindenkinek, aki egy adott napon Wordle-lel játszik, ugyanazt a titkos szót kell felfedeznie, ami megkönnyíti a próbálkozások megosztását és a játék megbeszélését barátaival. A játék jellegzetes felépítése és bemutatása ihlette a kérdéseket legújabb cikkünkben Insights puzzle. A válaszokat alább tárgyaljuk.

A jó Wordle játék egyik kulcsa, hogy erős kezdőszót válasszunk. Számítógépes elemzések megtestesítő információelméleti technikák azt javasolják, hogy az olyan kezdőszavak, mint a „pala” és a „daru”, lehetővé tegyék (vagy egy számítógépes algoritmus számára), hogy átlagosan a legkevesebb fordulattal oldja meg a Wordles-t. Azonban sok emberi megoldó kényelmesebbnek érzi magát, ha magánhangzókban gazdag szót választ, például „viszont”, „hang” vagy „emelés”. Ennek az érzésnek intuitív és racionális alapja is van. Először is, az elhelyezett magánhangzók lehetővé teszik egy magánhangzó „gerincének” megtalálását, amely korlátozhatja a keresendő mássalhangzók számát. Például, ha tudja, hogy a szó úgy néz ki, mint _AI_E, miután a „raise”-t játszotta, már csak néhány szó lehetséges: „naiv”, „elhagy” és „kukorica”. Másodszor, a magánhangzók maximalizálják azt a mennyiséget, amelyet „lefedettségnek” nevezhetünk – csupán az öt magánhangzó és az Y között, a 2,309 válasz mindegyikében kaphatunk legalább egy pozitív betűt. Ahhoz, hogy a mássalhangzókkal ilyen tökéletes lefedettséget kapjon, mind a 20-at ki kell próbálnia, amihez legalább öt fordulat szükséges.

Az első rejtvényünk arra késztette az olvasókat, hogy kitalálják, melyik a három, magánhangzókban gazdag szó közül a legjobb tipp.

Rejtvény 1 

A következő táblázat azt mutatja meg, hogy a „viszonzás”, „hang” és „emelés” szavak nyolc betűje milyen gyakorisággal fordul elő minden pozícióban a Wordle 2,309 szóból álló válaszlistáján. A táblázat alapján határozza meg, hány zöldre és sárgára számíthat a Wordle teljes válaszlistáján mind a három magánhangzóban gazdag kezdőszó esetében: „adieu”, „audio” és „raise”. (A Wordle-ben egy betű zöld háttérrel jelenik meg, ha jó helyen van, és sárga háttérrel, ha a szóban van, de rossz helyen van.) Mit árul el ez a kezdőszavak várható teljesítményéről ?

Olvasó Rob Corlett megmutatta, hogyan számítható ki ebből a táblázatból a várható zöldek és sárgák száma. A „búcsúzás” esetében A a 140 szó helyes első betűje, a D a 20 szó megfelelő második betűje és így tovább. A zöldek teljes száma az összes lehetséges Wordle-válaszon ezek összege. Így a „búcsúzó” összesen 140 + 20 + 266 + 318 + 1 = 745 zöldet kap. A sárgák esetében azzal kell kezdenünk, hogy a betű legalább egyszer előfordul egy szóban (906 az A-nál a „búcsúzásban”), és ki kell vonnunk a zöldek számát (140), hogy megkapjuk a sárgák számát (766). . Adja hozzá a szó egyes betűihez tartozó számokat, hogy megkapja a sárgák teljes számát. Ezeket a számokat eloszthatjuk a válaszok teljes számával (2,309), hogy megkapjuk a zöldek és a sárgák elvárását egy körre, de mivel ez a lépés minden kezdő szavunknál közös, csak az összegekkel dolgozhatunk a három összehasonlítás érdekében. tőlük. Mivel ezeket a szavakat kifejezetten a magánhangzógerinc megtalálására választottuk, így azt is ki tudjuk számolni, hogy a zöldek közül hány származik magánhangzókból. Íme az eredmények.

Mint látható, nincs összehasonlítás! Az „emelés” minden mértékben felülmúlja az „adieu”-t, több zöldet és sárgát ad, és több magánhangzót ad a megfelelő helyükön, nem beszélve arról, hogy a két leggyakoribb mássalhangzót is elkapja vagy kizárja. Az „Audio” ezeken a mértékeken a távoli harmadik. Vegye figyelembe, hogy bár olvasóként kaphat némi információt arról, hogy mely betűk hiányoznak, még akkor is, ha nem kap sárgákat vagy zöldeket Max Davies rámutatott, határozottan több információhoz jut, ha egy vagy több sárgát és zöldet kap. Szóval, „búcsúzó” felhasználók, talán itt az ideje, hogy búcsút mondjunk.

Kérdés 1

Az volt a kérdés, hogy a zöldeket mennyire kell értékelnünk a sárgához képest: Hány sárga egyenlő egyetlen zölddel? A fenti eredményeink egyértelmű természete miatt a fenti összehasonlításhoz szükségtelen erre válaszolni, de ez egy érdekes kérdés. Ennek az értékelésnek két aspektusa van. Az első az emberi szempont: mekkora súlyt tulajdonítasz annak a szellemi erőfeszítésnek, amely ahhoz szükséges, hogy kitaláld a sárga betűk elhelyezésének sokféle módját? Tagadhatatlan, hogy a sok zöld elütés megkönnyíti az életet, és még több dopamin-löketet ad nekünk. Információelméleti szempontból minden válaszszóhoz át kell mennünk minden kezdő szót, és össze kell hasonlítani, hogy hány fordulatba kerülne a rejtvény megfejtése, ha ugyanazok a betűk zöldek, összehasonlítva azzal, amikor minden esetben sárga színűek.

Noha ez óriási feladat, sikerült a lehető legjobb számítógépes kezdőszóra (a homályos „tarse” szóra, ami hím sólymot jelent, melynek teljes optimális megoldási fája online közzétett Alex Selby matematikus). A válasz meglepő. Az első körben csak zöldeket produkáló válaszszót használó számítógépes megoldás átlagos fordulatszáma 3.34 volt, míg sárga betűk esetén 3.51 fordulat, ami mindössze 5%-os növekedést jelent! Számítógépes algoritmus szerint a sárga betűk elhelyezése, ami nekünk, embereknek olyan megfélemlítőnek tűnik, nyilvánvalóan túl nagy büntetés nélkül megoldható. Gondolom, egy emberi megoldónál nem csak a fordulatok számában lenne nagyobb a különbség, hanem a megoldáshoz szükséges szellemi erőfeszítésben és időben is.

Rejtvény 2

A) Ha az első körödben mind az öt sárgát megkapod, mennyi fordulat szükséges a válasz megtalálásához, a legjobb játékot feltételezve?

As Rob Corlett és a Sam Rhoads helyesen megfogalmazva az elméleti válasz öt: Egy teljesen sárga betűkombináció, mint például az ABCDE, még négy körig ellenállhat a felfedezésnek, mivel előfordulhat, hogy végig kell böngészni a BCDEA, CDEAB és DEABC között, mielőtt rájönne, hogy a válasz az EABCD. A gyakorlatban azonban az ilyen ciklikus „szavak” éppen azért nem lehetségesek, mert a valódi szavakban olyan magánhangzó- és mássalhangzó-mintázatok vannak, amelyeket nem lehet önkényesen kinyújtani. Még a sok anagrammát tartalmazó szavakat is legfeljebb három próbálkozással lehet megoldani, amint azt Rob Corlett az „elemzéssel” bebizonyította.

B) Előfordul-e már olyan, hogy egy bizonyos pozícióban lévő betű sárgává válása értékesebb, mintha zöldre váltana? Ha igen, tudna példát mondani, és megmagyarázni, miért kell ennek lennie?

Igen, egy sárgán megjelenő betű ritka esetekben értékesebb lehet, mint ugyanaz a zölden megjelenő betű, ha olyan betűről van szó, amely ritkán jelenik meg a többi helyen. Ez gyakran előfordul Y-val, amely túlnyomórészt a szó végén található. Tegyük fel, hogy a „has” szóval kezdi, és mind a B, mind az Y zölden jelenik meg. Sok lehetőség marad: „zsákos”, „csípős”, „bobby”, „zsákmányos”, „bokros” stb. De ha B és Y is sárgán jelenik meg, csak egy lehetőség van: „szakadék”.

Kérdés 2

Van-e előnye vagy hátránya a Wordle játékban annak, aki jó szókinccsel rendelkezik homályos Scrabble szavakkal?

Mint egy korábbi Scrabble versenyjátékos, aki jó néhány órát töltött a homályos szavak memorizálásával, úgy gondolom, hogy ez előny és hátrány egyaránt. Amikor először elkezdtem játszani a Wordle-lel, azon kaptam magam, hogy gyakran látom annak lehetőségét, és próbálom kizárni azokat a nem mindennapi szavakat, amelyekről később rájöttem, hogy szinte semmi esélyük sincs a helyességre. (A Wordle csoportom által gyakran használt golf terminológiában erre úgy hivatkozunk, mint egy képzeletbeli veszélyre.) Ahogy a rejtvény rovatban leírtam, a Wordle válaszok egyszerű szavak listájából származnak, amelyek többsége ismert. minden amerikai angol anyanyelvűnek. Még a kissé szokatlan, de nem homályos szavak sem szerepelnek a Wordle válaszlistáján. Nemrég például elpazaroltam egy kört a „latex” kifejezéssel, egy meglehetősen gyakori szóval, amelyről kiderül, hogy nem lehetséges Wordle-válasz. Tehát, mint minden Wordle-játékosnak, nekem is fel kellett építenem egy olyan típusú szó mentális modelljét, amely Wordle-válasz lehet, és kifejezetten figyelmen kívül hagynom azokat a ritka és homályos szavakat, amelyeket boldogan használnék, hogy több pontot szerezzek a Scrabble-ben. Másrészt ezeknek a ritka szavaknak az ismerete jól jön a „mássalhangzók elsöprésében”, amit néha meg kell tennie, hogy ne kelljen sok fordulatot eltöltenie egy csomó hasonló szó egyenkénti kitalálásával. Például, ha _RA_E-je van, és olyan lehetséges szavakat keres, amelyek D, G és K betűket tartalmaznak, például „fék”, „drake”, „drape”, „grade” és „grape”, akkor segít, ha tudja, és játsszuk el a „kedge” szót, ami garantálhatja, hogy további két körben megtaláljuk a megoldást (a kedge azt jelenti, hogy a hajót úgy mozgatjuk, hogy távolról ledobjuk a horgonyt, majd egy vaskos kötéllel ráhúzzuk).

Ha minden nap ugyanazt a Wordle-rejtvényt kapja meg, mint mindenki más, az ösztönzi a társasági játékot. De spoilerek bővelkednek az interneten, és ez köztudott egyesek csalnak pontszámaik jelentésében. A következő fejtörő azzal a kérdéssel foglalkozik, hogy mikor indokolt a csalás gyanúja egy Wordle-csoportban, kizárólag az adott személy pontszámának valószínűsége alapján. Ez a feladvány ismét golfpontozási kifejezésekkel van megfogalmazva: A Wordle három körben történő megoldását madárnak nevezik, két körben megfejteni sasnak számít, ha pedig szót kapunk az első körben, az természetesen hole-in-one. .)

Rejtvény 3

A további kutatás hagyományos tudományos kritériuma, hogy a véletlen kimenetel valószínűsége (a alfa érték) kevesebb, mint 5%, vagy kevesebb, mint 1%, a kutatók céljaitól függően. Az eredményt ezután statisztikailag szignifikánsnak tekintjük 5%-os vagy 1%-os szinten. Mivel nem szép csalással gyanúsítani az embereket, ha nem, válasszuk a konzervatívabb 1%-os szintet ebben a vizsgálatban.

Tegyük fel, hogy egy 10 játékosból álló Wordle-csoporthoz tartozol, akik 200 napja minden nap megosztják egymással az eredményeket. Tételezzük fel, hogy egy nagyon jó ember játékos számíthat arra, hogy 2.5 meccsenként kap egy birdie-t, 40 meccsenként egy sast, és 2,000 meccsenként egy hole-in-one-t (ezek valós becslések ésszerűek).

A) Hány birdie lenne egy sorban szignifikáns 1%-os szinten a csoportodban ezalatt az idő alatt?

B) Hány sas van egy sorban?

C) Hány lyuk az egyben egy sorban?

A kulcs itt az, hogy észrevegye, hogy a lakosság száma 2,000 személyi játék. Tehát ahhoz, hogy elérje ezt a szignifikancia szintet, olyan eseményt kell látnia, amely 200,000 XNUMX személyi játékból ritkábban fordul elő, pusztán véletlenül.

A) Birdie-or-better sorozatok: Annak a valószínűsége, hogy egyetlen játékban madárka vagy jobb eredményt kap, 2/5 + 1/40 + 1/2,000 = 0.4255, ami körülbelül 1 játékban 2.35. Nevezzük ezt B. A legkisebb teljesítmény B amely meghaladja a 200,000 XNUMX-et B15, ami több mint 368,000 XNUMX (B14 körülbelül 157,000 15). Tehát egy 14-ös vagy annál nagyobb sorozat bárkinél a csoportban megfelelne ennek a szigorú kritériumnak, de a 20,000-ből egy nem. Ha egyéni játékosra gyanakszik, olyan eseményt kell látnia, amely ritkábban fordul elő 12 1,850 meccsen belül, ami 188-es „birdie-or-better” sorozatnál fordulna elő. (Ne feledje, hogy a sorozatok tényleges száma ezek a hosszok valamivel kisebbek: valójában XNUMX meccs a csoportban és XNUMX meccs az egyéni játékosoknál, de ez ebben az esetben nem számít).

Vegye figyelembe, hogy ezek a frekvenciák a szakértő játékosok számára, és a legtöbb csoport és egyén esetében a gyanús sorozatok kisebbek lennének. Ennek a kritériumnak a gyakorlati alkalmazásához meg kell határoznia a megfelelő birdie, eagle és hole-in-one frekvenciákat, amelyeket lát, és figyelembe kell vennie a csoportjában lejátszott játékok számát.

B) Sas vagy jobb csíkok: A sas vagy jobb valószínűsége 1/40 + 1/2,000 = 0.0255, vagyis körülbelül 1 a 39.2-hez. A szignifikanciaszintünket meghaladó sorozathosszak a csoportnál 4, a gyanús személyeknél 3.

C) Hole-in-one csíkok: A szignifikanciaszintünket meghaladó csíkhossz 2 mind a csoport, mind a gyanús egyed esetében.

Az utolsó két válaszhoz van egy figyelmeztetés: ezek ritka események, és a minta nagyon kicsi, ezért óvatosnak kell lennie. A legtöbb statisztikus általában megvárja, amíg legalább öt vagy több sas- vagy holes-in-one-példányt lát, nem feltétlenül egy sorozat részeként, mielőtt kényelmesen elvégezné a szignifikanciatesztet.

Kérdés 3

Teljesen lehetséges, hogy az Ön csoportjában a jó eredmények gyakorisága lényegesen magasabb, mint a véletlenül előre megjósolt gyakoriság, anélkül, hogy bárki is csalna. Hogyan magyarázná ezt?

Ennek egyik lehetséges oka, mint Rob Corlett magyarázata szerint az lehet, hogy „a játékosok minden eredményről szorgalmas nyilvántartást vezetnek”. Amint azt a 4. rejtvény bevezetőjében kifejtettem, a Wordle-válaszokat körülbelül öt évig nem kell megismételni a jelenlegi beállítás szerint. Tehát még ha senki sem csal, vagy nem ismeri a válaszlistán szereplő összes szót, ezek az információk továbbra is segíthetnek bármely egyénnek vagy csoportnak fokozatosan jobb teljesítményt nyújtani.

De van egy másik ok is: előfordulhat, hogy a lista nem véletlenszerű. A Wordle játéka során az elmúlt hónapokban észrevettem, hogy amikor két vagy több szó közül lehetett választani, az egyszerűbb szavak nagyobb valószínűséggel voltak helyesek, mint a kevésbé gyakori szavak. Például, ha van A, N és E, és olyan szavak maradnának, mint a „besurranó”, „hiéna” és „beöntés”, habozás nélkül kijátszhatnád a legegyszerűbb szót (ebben az esetben „besurranás”), és sokkal gyakrabban javítsa ki, mint ahogyan azt véletlenül várná. Valójában egy angol prózai szógyakorisági listát használtam annak ellenőrzésére, hogy a két hónap alatt talált válaszok mennyire gyakoriak a Wordle válaszlistáján szereplő átlagos szavakhoz képest. A válaszok, amelyekkel találkoztam, körülbelül 25%-kal gyakoribbak voltak, mint a Wordle válaszlistáján szereplő átlagos szó, és ami még fontosabb, a lista legritkább szavainál (az alsó 10%) csak harmada jelent meg válaszként, mint amennyit feltételeztek. nak nek. A sasok az 1/20-hoz közelebbi gyakorisággal fordultak elő, nem pedig a tiszta véletlenen alapuló 1/40-hez. Úgy tűnik tehát, hogy a Wordle válaszsorozata nem véletlenszerű, és vagy elöl van töltve egyszerűbb szavakkal, vagy véletlenül a lista egy olyan részén megyünk keresztül, amely egyszerűbb szavakból áll.

Jelentős változás a közelmúltban az A New York Times kinevezte Wordle szerkesztőjét Azóta egyre gyakoribbá vált a nehéz vagy sértő szavak eltávolítása az előre sorba rendezett listáról, beleértve a színfalak mögött olyan szavak cseréjét, mint az „ombre”, „hányás” és „ fanny.” Miközben megértem a szükségességét a Times A Wordle szavak fertőtlenítésére és egyszerűsítésére, hogy elkerülje a több millió játékos felháborodását, kevésbé véletlenszerűvé és sokkal kiszámíthatóbbá teszi a játékot. Még ennél is rosszabb az a szerencsétlen szerkesztői tendencia az elmúlt hetekben, hogy a naphoz illő szót választottak, például „lakoma” a hálaadás napján és „érem” a veteránok napján. Ez azt jelenti, hogy még a játék kezdete előtt egy plusz támpontot ad a szóról, megkönnyítve a rejtvényt, és rontja annak gazdag információelméleti kapcsolatát. Remélem, ez egy átmeneti aberráció, mert a véletlenszerűség lényeges eleme ennek a játéknak. A legtöbb ember, aki visszajelzést adott nak nek A New York Times ezekről a szerkesztői döntésekről ugyanígy éreztek.

Negyedik fejtörőnk azon alapult, hogy a jelenlegi architektúrájában a Wordle-megoldások soha nem fognak megismétlődni, amíg a lista vagy öt év múlva ki nem fogy.

Rejtvény 4

Vegyünk egy olyan személyt, aki tökéletesen emlékszik a múltbeli megoldásokra. Egy ilyen ember számára a válasz nyilvánvaló lenne Wordle 2,309 szóból álló listájának utolsó napján. Gyorsan meg tudja becsülni, hogy ez a személy hány lyukat várna a teljes lista időtartamán túl a tényleges számítás elvégzése nélkül? Ezután, ha teheti, próbálja meg elvégezni a tényleges számítást.

Rob Corlett erre tökéletesen válaszolt, logikusan 8.25-re becsülte a választ, majd 8.32-re számolta a választ. Corlett kulcsfontosságú számításait az alábbiakban idézzük. A megjegyzésben ellenőrizheti a kiváló becslési technikát.

Ha van m szavakkal, és tippelsz, akkor annak az esélye, hogy igazad lesz, 1/m. Ha van 1 szava, annak az esélye 1/1, 2 szó 1/2, 3 szó 1/3, stb. Ha ezeket összeadja, megkapja a várt lyukak számát! …

[Ehhez] ki kell számítanunk a 2309-től 1-ig tartó összes szám reciprokának összegét. Ezt egy táblázatban tettem meg, és az összeget 8.32-nek találtam, ami kielégítően közel áll a becslésemhez!

Utolsó kérdésünk arra vonatkozott, hogyan lehetne javítani a Wordle szavak véletlenszerűsítésén, miközben megtartja az „ügyféloldali” kialakítást. A Wordle szerkesztőjének kinevezése előtt nem volt mindennapos a szavak véletlenszerű besorolása: a szavak egy letöltött, előre sorba rendezett listáról származtak, amely nem volt túl jól randomizálva, ahogy fentebb említettem. Ezután a szólistából az aktuális dátumtól függően a kliens (felhasználó) eszközén legenerálódott a Wordle megfejtő szava, és a felhasználó eszközén is megtörtént a teljes rejtvény elbírálása. Az ehhez szükséges kódot a rendszer minden nap a legelső alkalommal tölti le, amikor a felhasználó csatlakozik a webhelyhez. A felhasználónak ezután nem kell online lennie.

Kérdés 4

Hogyan terveznéd a Wordle-t úgy, hogy az megtartsa a kliens oldali dizájnt, biztosítva, hogy egy adott napon mindenki ugyanazt a megoldási szót kapja, de a válaszokat ésszerű módon véletlenszerűvé tegye anélkül, hogy minden nap módosítani kellene a kódot?

Volt néhány jó válasz a randomizációs kérdésre. Néhány olvasó egy pszeudovéletlen szám használatát javasolta előre meghatározott maggal, hogy indexet hozzon létre a Wordle válaszlistájában. Mumintrollet még olyan programot is írt, amely véletlenszerűen összekeveri öt Wordle válaszlistát (32 évig), ügyelve arra, hogy egy éven belül egyetlen szó se ismétlődjön. Számomra a legvonzóbb eljárás innen származott BlindThemis, aki azt javasolta, hogy a véletlenszerű besorolási eljáráshoz használt véletlen magnak azon emberek számának utolsó négy számjegye legyen, akik egy bizonyos ideig játszottak a játékkal. (Mivel a Wordle a világon bárhol lejátszható, ezt a Csendes-óceán keleti része feletti időzónákban kellene megtenni, a nemzetközi dátumvonaltól kezdve!) Ebben az a nagyszerű, hogy senki, még a New York Times Wordle szerkesztő, tudni fogja, mi volt a szó használat előtti napon.

Ezen mechanizmusok egyike sem hajtható végre teljes mértékben a kliens oldalon, mint pl Tim Ross rámutatott. A következő szót a szervernek kell generálnia, és ezt a szót vagy annak indexszámát le kell töltenie, esetleg titkosított formában a kód többi részével együtt. Mint Ross rámutatott, jelenleg a 2,309 válaszszó dátum sorrendben jól látható a forráskódban, amit bármelyik böngésző felfedhet. Az egyik megoldás lehet a válaszszólista titkosítása, és a dátum szerinti sorrend helyett ábécé-sorrendben való mentése.

Noha a véletlenszerű besorolás javasolt fejlesztései segíthetnének, a titkosítás egyáltalán nem változtat, mivel továbbra is számos spoiler lesz az interneten, és többféle módon lehet csalni.

Köszönöm mindenkinek, aki hozzájárult ehhez az érdekes beszélgetéshez. A rejtvényért járó Insights-díjat Rob Corlett kapja. Gratulálunk! A következő rejtvényünk februárban jelenik meg. Addig is kellemes rejtélyes és kellemes ünnepeket!

Időbélyeg:

Még több Quantamagazine