Matematika di Balik Wordle Menebak Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Matematika di Balik Wordle Tebak

Pengantar

Dalam permainan sederhana Wordle, pemain harus menebak kata rahasia dengan lima huruf dalam enam putaran atau kurang berdasarkan petunjuk tentang keberadaan dan lokasi huruf yang diungkapkan oleh tebakan mereka sebelumnya. Meskipun game yang agak mirip telah muncul di masa lalu, setiap orang yang memainkan Wordle pada hari tertentu harus menemukan kata rahasia yang sama, membuatnya mudah untuk membagikan upaya Anda dan mendiskusikan game tersebut di antara teman-teman Anda. Struktur dan penyajian game yang khas menginspirasi pertanyaan-pertanyaan terbaru kami Teka-teki wawasan. Jawabannya dibahas di bawah ini.

Salah satu kunci untuk memainkan permainan Wordle yang baik adalah memilih kata awal yang kuat. Analisis komputer mewujudkan teknik teori informasi menyarankan bahwa kata-kata awal seperti "slate" dan "crane" memungkinkan Anda (atau algoritme komputer, bagaimanapun juga) untuk menyelesaikan Wordles dalam rata-rata jumlah putaran paling sedikit. Namun, banyak pemecah manusia merasa lebih nyaman memilih kata yang kaya vokal seperti "dieu", "audio", atau "naikkan". Perasaan ini memiliki dasar intuitif dan rasional. Pertama, vokal yang ditempatkan memungkinkan Anda menemukan "tulang punggung" vokal yang dapat membatasi jumlah konsonan yang perlu Anda cari. Misalnya, jika Anda tahu kata tersebut terlihat seperti _AI_E setelah Anda bermain "menaikkan", hanya ada beberapa kemungkinan kata yang tersisa: "naรฏve", "waive", dan "jagung". Kedua, vokal memaksimalkan kuantitas yang bisa disebut "cakupan" โ€” antara hanya lima vokal dan Y, kita bisa mendapatkan setidaknya satu huruf positif di setiap satu dari 2,309 jawaban. Untuk mendapatkan cakupan sempurna seperti ini dengan konsonan, Anda harus mencoba semua 20 konsonan, yang membutuhkan setidaknya lima putaran.

Teka-teki pertama kami menantang pembaca untuk mencari tahu mana dari tiga kata kaya vokal ini yang merupakan tebakan pertama terbaik.

Teka-teki 1 

Tabel berikut memberikan frekuensi kemunculan delapan huruf dalam kata "dieu", "audio", dan "naikkan" di setiap posisi pada seluruh daftar jawaban Wordle yang terdiri dari 2,309 kata. Berdasarkan tabel ini, tentukan berapa banyak warna hijau dan kuning yang dapat Anda harapkan dari seluruh daftar jawaban Wordle untuk masing-masing dari tiga kata awal yang kaya vokal: "adieu", "audio", dan "naikkan". (Dalam Wordle, sebuah surat ditampilkan dengan latar belakang hijau jika berada di tempat yang tepat, dan latar belakang kuning jika berada di kata tetapi berada di tempat yang salah.) Apa artinya ini tentang kinerja yang diharapkan sebagai kata awal ?

Pembaca Rob Corlett menunjukkan cara menghitung jumlah hijau dan kuning yang diharapkan dari tabel ini. Untuk kata perpisahan, A adalah huruf pertama yang benar untuk 140 kata, D adalah huruf kedua yang benar untuk 20 kata, dan seterusnya. Jumlah total hijau atas semua kemungkinan jawaban Wordle adalah jumlah dari ini. Jadi "perpisahan" mendapat total 140 + 20 + 266 + 318 + 1 = 745 hijau. Untuk warna kuning, kita harus mulai dengan berapa kali huruf itu muncul setidaknya sekali dalam satu kata (906 untuk A dalam "kata perpisahan") dan kurangi dengan kali hijau (140) untuk mendapatkan jumlah kuning (766) . Tambahkan angka untuk setiap huruf dalam kata untuk mendapatkan jumlah total warna kuning. Kita dapat membagi angka-angka ini dengan jumlah total jawaban (2,309) untuk mendapatkan ekspektasi warna hijau dan kuning untuk satu putaran, tetapi karena langkah ini umum untuk semua kata awal kita, kita dapat menggunakan total untuk membandingkan ketiganya dari mereka. Karena kami telah memilih kata-kata ini secara khusus untuk menemukan tulang punggung vokal, kami juga dapat menghitung berapa banyak hijau yang berasal dari vokal. Inilah hasilnya.

Seperti yang Anda lihat, tidak ada perbandingan! "Naikkan" lebih unggul dari "perpisahan" dalam setiap ukuran, memberikan lebih banyak hijau dan kuning dan menghasilkan lebih banyak vokal di tempat yang tepat, belum lagi fakta bahwa Anda juga menangkap atau mengesampingkan dua konsonan yang paling umum. "Audio" adalah sepertiga jauh dari semua ukuran ini. Perhatikan bahwa meskipun Anda dapat memperoleh beberapa informasi tentang huruf apa yang tidak ada meskipun Anda tidak mendapatkan warna kuning atau hijau, sebagai pembaca Max Davies tunjukkan, Anda pasti mendapatkan lebih banyak informasi saat Anda mendapatkan satu atau lebih kuning dan hijau. Jadi, para pengguna โ€œselamat tinggalโ€, mungkin inilah waktunya untuk mengucapkan selamat tinggal.

Pertanyaan 1

Ini adalah pertanyaan tentang berapa banyak kita harus menghargai warna hijau relatif terhadap warna kuning: Berapa banyak warna kuning yang sama dengan satu warna hijau? Sifat jelas dari hasil kami di atas meniadakan kebutuhan untuk menjawab ini untuk perbandingan di atas, tetapi ini adalah pertanyaan yang menarik. Ada dua aspek penilaian ini. Yang pertama adalah aspek manusia: Berapa banyak bobot yang Anda berikan pada upaya mental yang diperlukan untuk mencari tahu semua cara yang berbeda untuk menempatkan huruf kuning? Tidak dapat disangkal bahwa memukul banyak sayuran membuat hidup lebih mudah dan memberi kita lebih banyak dorongan dopamin. Dari sudut pandang teori informasi, Anda perlu memeriksa setiap kata awal untuk setiap kata jawaban dan membandingkan berapa banyak putaran yang diperlukan untuk memecahkan teka-teki saat huruf yang sama berwarna hijau dibandingkan dengan saat berwarna kuning di setiap contoh.

Meskipun ini adalah tugas besar, saya berhasil melakukannya untuk kata awal komputer terbaik (kata tidak jelas "tarse," yang berarti elang jantan, yang pohon solusi optimal penuhnya adalah Diposting online oleh matematikawan Alex Selby). Jawabannya mengejutkan. Jumlah rata-rata putaran yang diperlukan untuk solusi komputer menggunakan kata jawaban yang hanya menghasilkan warna hijau pada putaran pertama adalah 3.34, sedangkan jumlah putaran yang diperlukan ketika hanya ada huruf kuning adalah 3.51, hanya meningkat 5%! Terbukti, untuk algoritme komputer, menempatkan huruf kuning, yang tampaknya sangat menakutkan bagi kita manusia, dapat dilakukan tanpa terlalu banyak penalti. Saya kira perbedaannya akan lebih besar untuk pemecah manusia tidak hanya dalam jumlah putaran yang diperlukan, tetapi juga dalam upaya mental dan waktu yang diperlukan untuk menyelesaikannya.

Teka-teki 2

A) Jika Anda mendapatkan semua lima kuning pada giliran pertama Anda, berapa jumlah giliran maksimum yang diperlukan untuk menemukan jawabannya, dengan asumsi permainan terbaik?

As Rob Corlett dan Sam Rhoads dinyatakan dengan benar, jawaban teoretisnya adalah lima: Kombinasi huruf yang sepenuhnya berwarna kuning seperti ABCDE dapat menolak penemuan selama empat putaran lagi, karena Anda mungkin harus menelusuri BCDEA, CDEAB, dan DEABC sebelum menemukan bahwa jawabannya adalah EABCD. Namun dalam praktiknya, โ€œkata-kataโ€ siklik seperti itu tidak mungkin justru karena kata-kata nyata telah menentukan pola vokal dan konsonan yang tidak dapat diregangkan secara sembarangan. Bahkan kata-kata dengan banyak anagram dapat diselesaikan tidak lebih dari tiga kali percobaan, seperti yang didemonstrasikan oleh Rob Corlett dengan โ€œparseโ€.

B) Apakah pernah terjadi bahwa memiliki surat di posisi tertentu menjadi kuning lebih berharga daripada melihatnya berubah menjadi hijau? Jika demikian, dapatkah Anda memberikan contoh dan menjelaskan mengapa hal ini harus terjadi?

Ya, huruf yang muncul berwarna kuning, dalam kasus yang jarang terjadi, lebih berharga daripada huruf yang sama yang muncul berwarna hijau, jika itu adalah huruf yang jarang muncul di posisi lain. Ini sering terjadi dengan Y, yang banyak ditemukan di akhir kata. Misalkan Anda mulai dengan "perut", dan B dan Y berwarna hijau. Anda memiliki banyak kemungkinan: "longgar", "bitty", "bobby", "booty", "lebat", dll. Tetapi jika B dan Y berwarna kuning, hanya ada satu kemungkinan: "jurang".

Pertanyaan 2

Apakah seseorang dengan kosakata yang baik dari kata-kata Scrabble yang tidak jelas memiliki keuntungan atau kerugian dalam bermain Wordle?

Sebagai mantan pemain Scrabble turnamen yang menghabiskan beberapa jam menghafal kata-kata yang tidak jelas, saya pikir itu adalah keuntungan dan kerugian. Ketika saya pertama kali mulai bermain Wordle, saya mendapati diri saya sering melihat kemungkinan dan mencoba mengesampingkan kata-kata yang tidak biasa yang kemudian saya sadari hampir tidak mungkin benar. (Dalam terminologi golf, yang sering digunakan oleh grup Wordle saya, kami menyebut ini terhalang oleh bahaya imajiner.) Seperti yang saya jelaskan di kolom teka-teki, jawaban Wordle diambil dari daftar kata-kata sederhana, yang sebagian besar diketahui. untuk semua penutur asli bahasa Inggris AS. Bahkan kata-kata yang agak tidak umum tetapi tidak kabur tidak ada dalam daftar jawaban Wordle. Misalnya, saya baru-baru ini menyia-nyiakan giliran bermain "lateks", kata yang cukup umum yang ternyata bukan jawaban Wordle yang mungkin. Jadi, seperti semua pemain Wordle, saya harus membangun model mental dari jenis kata yang mungkin menjadi jawaban Wordle dan secara khusus mengabaikan jenis kata yang langka dan tidak jelas yang akan saya gunakan dengan senang hati untuk mencetak lebih banyak poin di Scrabble. Di sisi lain, pengetahuan tentang kata-kata langka ini berguna dalam "menyapu konsonan", yang terkadang harus Anda lakukan untuk menghindari menghabiskan banyak waktu untuk menebak sekumpulan kata yang mirip satu per satu. Misalnya, jika Anda memiliki _RA_E dan melihat sekumpulan kemungkinan kata yang mengandung D, G, dan K, seperti "rem", "drake", "tirai", "tingkat", dan "anggur", ada baiknya untuk mengetahui dan mainkan kata โ€œkedgeโ€, yang dapat menjamin menemukan solusi dalam dua putaran lagi (to kedge berarti menggerakkan kapal dengan menjatuhkan jangkarnya dari kejauhan dan kemudian menariknya dengan tali yang kokoh).

Mendapatkan teka-teki Wordle yang sama seperti orang lain setiap hari mendorong permainan sosial. Tapi spoiler berlimpah di internet, dan diketahui itu beberapa orang curang dalam melaporkan skor mereka. Teka-teki berikutnya berkaitan dengan pertanyaan kapan kecurigaan menyontek dalam kelompok Wordle dijamin hanya berdasarkan ketidakmungkinan skor seseorang. Sekali lagi, teka-teki ini dibingkai dalam istilah penilaian golf: Solusi Wordle dalam tiga putaran disebut birdie, mendapatkannya dalam dua putaran adalah elang dan mendapatkan kata pada putaran pertama, tentu saja, adalah hole-in-one. .)

Teka-teki 3

Kriteria ilmiah tradisional untuk menyelidiki lebih lanjut adalah jika probabilitas suatu hasil terjadi secara kebetulan (the nilai alfa) kurang dari 5% atau kurang dari 1%, tergantung dari tujuan peneliti. Hasilnya kemudian dianggap signifikan secara statistik pada tingkat 5% atau 1%. Karena tidak baik mencurigai orang selingkuh padahal sebenarnya tidak, mari kita pilih level 1% yang lebih konservatif dalam penyelidikan ini.

Misalkan Anda termasuk dalam grup Wordle yang terdiri dari 10 pemain yang telah berbagi hasil satu sama lain setiap hari selama 200 hari. Asumsikan bahwa pemain manusia yang sangat baik dapat mengharapkan untuk mendapatkan birdie setiap 2.5 game, elang setiap 40 game, dan hole-in-one setiap 2,000 game (yang merupakan perkiraan dunia nyata yang masuk akal).

A) Berapa banyak birdie berturut-turut yang akan signifikan pada level 1% di grup Anda selama waktu ini?

B) Berapa banyak elang dalam satu baris?

C) Berapa banyak hole-in-one berturut-turut?

Kuncinya di sini adalah menyadari bahwa Anda memiliki ukuran populasi 2,000 orang-permainan. Jadi, untuk mencapai tingkat signifikansi ini, Anda perlu melihat peristiwa yang akan terjadi kurang dari sekali dalam 200,000 permainan orang hanya secara kebetulan.

A) Pukulan birdie-atau-lebih baik: Peluang mendapatkan birdie atau lebih baik dalam satu permainan adalah 2/5 + 1/40 + 1/2,000 = 0.4255, yaitu 1 dalam sekitar 2.35 permainan. Sebut saja ini B. Kekuatan terendah dari B yang melebihi 200,000 adalah B15, yaitu lebih dari 368,000 (B14 sekitar 157,000). Jadi, pukulan birdie-atau-lebih baik dari 15 atau lebih untuk siapa pun dalam grup akan memenuhi kriteria ketat ini, tetapi satu dari 14 tidak. Jika Anda mencurigai seorang pemain individu, Anda perlu melihat peristiwa yang terjadi lebih jarang dari sekali dalam 20,000 permainan, yang akan terjadi dengan rekor birdie-atau-lebih baik sebanyak 12. (Perhatikan bahwa jumlah peluang sebenarnya untuk mendapatkan pukulan panjang ini sedikit lebih kecil: Ini sebenarnya 1,850 game untuk grup dan 188 game untuk pemain individu, tetapi itu tidak membuat perbedaan dalam kasus ini).

Perhatikan bahwa ini adalah frekuensi untuk pemain ahli, dan coretan mencurigakan untuk sebagian besar grup dan individu akan lebih kecil. Untuk menerapkan kriteria ini dalam latihan, Anda perlu menentukan frekuensi birdie, eagle, dan hole-in-one yang sesuai yang Anda lihat dan juga memperhitungkan jumlah permainan yang telah dimainkan di grup Anda.

B) Coretan elang-atau-lebih baik: Probabilitas untuk elang atau lebih baik adalah 1/40 + 1/2,000 = 0.0255, atau sekitar 1 dalam 39.2. Panjang coretan yang melebihi tingkat signifikansi kami adalah 4 untuk grup dan 3 untuk individu yang dicurigai.

C) Coretan hole-in-one: Panjang coretan yang melebihi tingkat signifikansi kami adalah 2 untuk grup dan individu yang dicurigai.

Ada peringatan untuk dua jawaban terakhir: Ini adalah kejadian langka, dan ukuran sampelnya sangat kecil, jadi Anda harus berhati-hati. Sebagian besar ahli statistik umumnya akan menunggu sampai mereka melihat setidaknya lima atau lebih contoh elang atau hole-in-one, tidak harus sebagai bagian dari pukulan beruntun, sebelum mereka merasa nyaman menerapkan uji signifikansi.

Pertanyaan 3

Sangat mungkin bahwa frekuensi hasil yang baik dalam grup Anda secara signifikan lebih tinggi daripada frekuensi yang diprediksi secara kebetulan, tanpa ada yang curang. Bagaimana Anda menjelaskan ini?

Salah satu alasan yang mungkin untuk ini, sebagai Rob Corlett menjelaskan, bisa jadi bahwa "semua pemain mencatat setiap hasil dengan tekun." Seperti yang saya jelaskan di awal teka-teki 4, jawaban Wordle tidak akan diulangi selama lima tahun atau lebih di bawah pengaturan saat ini. Jadi meskipun tidak ada yang curang atau mengetahui semua kata di daftar jawaban, informasi ini tetap dapat membantu setiap individu atau kelompok secara bertahap tampil lebih baik.

Tapi ada juga alasan lain: Daftarnya mungkin tidak diacak dengan baik. Dalam memainkan Wordle selama beberapa bulan terakhir, saya memperhatikan bahwa setiap kali ada pilihan antara dua kata atau lebih, kata-kata yang lebih sederhana cenderung benar daripada kata-kata yang kurang umum. Misalnya, jika Anda memiliki A, N, dan E dan pilihan yang tersisa adalah kata-kata seperti "menyelinap", "hyena", dan "enema", Anda tanpa ragu dapat memainkan kata paling sederhana ("menyelinap" dalam contoh ini) dan Anda akan menjadi benar lebih sering daripada yang Anda harapkan secara kebetulan. Saya benar-benar menggunakan daftar frekuensi kata prosa bahasa Inggris untuk memeriksa seberapa umum jawaban yang saya temui selama dua bulan dibandingkan dengan rata-rata kata dalam daftar jawaban Wordle. Jawaban yang saya temui adalah sekitar 25% lebih umum daripada rata-rata kata pada daftar jawaban Wordle, dan yang lebih penting, untuk kata-kata paling langka dalam daftar (10% terbawah), hanya sepertiga yang muncul sebagai jawaban yang seharusnya. ke. Elang terjadi dengan frekuensi mendekati 1/20 daripada 1/40 berdasarkan peluang murni. Jadi tampaknya urutan jawaban Wordle tidak diacak dengan baik, dan entah itu dimuat di depan dengan kata-kata yang lebih sederhana atau kebetulan kita melalui sebagian dari daftar yang terdiri dari kata-kata yang lebih sederhana.

Perubahan signifikan baru-baru ini adalah itu The New York Times menunjuk editor Wordle untuk memprogram kata hari itu mulai 7 November. Sejak itu, penghapusan kata-kata yang sulit atau menyinggung dari daftar yang telah diurutkan sebelumnya menjadi lebih umum, termasuk penggantian, di belakang layar, kata-kata seperti "ombre", "muntah", dan " fanny.โ€ Sementara saya memahami kebutuhan untuk Kali untuk membersihkan dan menyederhanakan kata-kata Wordle untuk mencegah kemarahan dari jutaan orang yang bermain, itu membuat permainan menjadi kurang acak dan jauh lebih dapat diprediksi. Lebih buruk lagi adalah kecenderungan editorial yang disayangkan dalam beberapa minggu terakhir untuk memilih kata yang sesuai dengan hari itu, seperti "pesta" pada Hari Thanksgiving dan "medali" pada Hari Veteran. Ini berarti memberikan petunjuk tambahan tentang kata tersebut bahkan sebelum permainan dimulai, membuat teka-teki lebih mudah dan mengurangi koneksi teori informasi yang kaya. Saya berharap ini adalah penyimpangan sementara karena keacakan merupakan elemen penting dari permainan ini. Kebanyakan orang yang memberikan umpan balik untuk The New York Times tentang pilihan editorial ini merasakan hal yang sama.

Teka-teki keempat kami didasarkan pada fakta bahwa, di bawah arsitekturnya saat ini, solusi Wordle tidak akan pernah terulang hingga daftarnya habis setelah sekitar lima tahun.

Teka-teki 4

Pertimbangkan seseorang dengan ingatan sempurna tentang solusi masa lalu. Bagi orang seperti itu, jawabannya akan jelas pada hari terakhir dari daftar 2,309 kata Wordle. Dapatkah Anda dengan cepat memperkirakan berapa banyak hole-in-one yang diharapkan orang ini untuk mendapatkan durasi seluruh daftar, tanpa melakukan perhitungan yang sebenarnya? Kemudian jika Anda bisa, coba dan lakukan perhitungan yang sebenarnya.

Rob Corlett menjawab ini dengan sempurna, secara logis memperkirakan jawabannya menjadi 8.25, dan kemudian menghitung jawabannya menjadi 8.32. Perhitungan kunci Corlett dikutip di bawah ini. Anda dapat memeriksa komentar untuk teknik estimasi yang sangat baik.

Jika Anda memiliki m kata-kata dan Anda menebaknya maka peluang untuk melakukannya dengan benar adalah 1/m. Jika Anda memiliki 1 kata, kemungkinannya adalah 1/1, 2 kata 1/2, 3 kata 1/3, dst. Jika Anda menjumlahkan semuanya, Anda mendapatkan jumlah hole-in-one yang diharapkan! โ€ฆ

[Ini] mengharuskan kita untuk menghitung jumlah timbal balik dari semua angka dari 2309 hingga 1. Saya melakukan ini dalam spreadsheet dan menemukan totalnya menjadi 8.32, sangat mendekati perkiraan saya!

Pertanyaan terakhir kami menanyakan bagaimana meningkatkan pengacakan kata Wordle sambil tetap mempertahankan desain "sisi klien". Sebelum editor Wordle ditunjuk, tidak ada pengacakan kata sehari-hari: Kata-kata tersebut berasal dari daftar pengurutan yang telah diunduh yang tidak diacak dengan baik, seperti yang saya sebutkan di atas. Kemudian kata solusi Wordle dihasilkan pada perangkat klien (pengguna) dari daftar kata tergantung pada tanggal saat ini, dan seluruh teka-teki diputuskan pada perangkat pengguna juga. Kode untuk melakukan semua ini diunduh saat pertama kali pengguna terhubung ke situs web setiap hari. Pengguna tidak harus online sesudahnya.

Pertanyaan 4

Bagaimana Anda mendesain Wordle sehingga mempertahankan desain sisi klien, memastikan bahwa setiap orang mendapatkan kata solusi yang sama pada hari tertentu, tetapi mengacak jawaban dengan cara yang masuk akal tanpa memerlukan perubahan kode setiap hari?

Ada beberapa jawaban bagus untuk pertanyaan pengacakan. Beberapa pembaca menyarankan menggunakan nomor pseudorandom dengan seed yang telah ditentukan sebelumnya untuk membuat indeks ke dalam daftar jawaban Wordle. Mumintrollet bahkan menulis sebuah program yang secara acak mengocok lima daftar jawaban Wordle (berlangsung selama 32 tahun), memastikan tidak ada kata yang berulang dalam setahun. Bagi saya, prosedur yang paling menarik berasal ButaThemis, yang menyarankan agar benih acak yang digunakan untuk prosedur pengacakan harus empat digit terakhir dari jumlah orang yang telah memainkan permainan tersebut pada waktu tertentu. (Karena Wordle dapat dimainkan di mana saja di dunia, ini harus dilakukan di zona waktu di Pasifik timur, mulai dari Garis Penanggalan Internasional!) Hal hebat tentang ini adalah tidak seorang pun, bahkan Editor Wordle, akan tahu apa kata itu sehari sebelum digunakan.

Tak satu pun dari mekanisme ini dapat sepenuhnya dilakukan di sisi klien, seperti Tim Ross menunjukkan. Kata berikutnya harus dihasilkan oleh server, dan kata ini atau nomor indeksnya harus diunduh, mungkin dalam bentuk terenkripsi dengan kode lainnya. Seperti yang ditunjukkan Ross, saat ini 2,309 kata jawaban terlihat jelas dalam urutan tanggal dalam kode sumber, yang dapat diungkapkan oleh browser mana pun. Salah satu pendekatannya adalah dengan mengenkripsi daftar kata jawaban dan menyimpannya dalam urutan abjad daripada urutan tanggal.

Meskipun perbaikan yang disarankan dalam pengacakan akan membantu, enkripsi tidak akan membuat perbedaan sama sekali, karena masih akan ada banyak spoiler di internet dan banyak cara untuk menipu.

Terima kasih kepada semua orang yang berkontribusi pada diskusi yang menarik ini. Hadiah Wawasan untuk teka-teki ini diberikan kepada Rob Corlett. Selamat! Teka-teki kami berikutnya akan muncul pada bulan Februari. Sampai saat itu, selamat bingung dan selamat berlibur!

Stempel Waktu:

Lebih dari Majalah kuantitas