Oprava nepoužiteľného memcache v Django frameworku

20.11.2022 | 18:19 | Mirecove dristy | Miroslav Bendík

Nedávno ma prekvapila nedostupnosť jedného z mojich serverov pri miernom zvýšení záťaže. Chyba bola prekvapivo v zle implementovanom cachovacom backende. V dnešnom článku ukážem diagnostiku chyby a moju opravu.

Z Django frameworku bolo vo verzii 4.1 odstránená podpora cache backendu MemcachedCache. Dôvodom odstránenia je ukončenie vývoja python-memcached.

Náhradou za neudržiavaný backend by mal byť PyLibMCCache založený na pylibmc a PyMemcacheCache založený na pymemcache. Obe alternatívy sú vraj stabilné a dajú sa použiť ako drop-in náhrada.

Server neodpovedá

Chtiac-nechtiac momentálne spravujem malú skupinu serverov, na ktorých prevádzkujem veľké množstvo webových aplikácií. V zásade moje servery fungujú ako masívne zdieľaný hosting. Všetci zákazníci bežia v cgroupách, majú čiastočne zdieľanú RAM, čiastočne zdieľané CPU, ale žiaden nemá plný prístup.

Jedného dňa mám hlásený výpadok, kedy celý web jedného zákazníka prestal odpovedať. Dosť neštandardná situácia, ak bol doteraz CPU využívaný na 10 %. K žiadnemu DOS útoku ani zásadnému zvýšeniu trafficu však nedošlo. Kde by mohol byť problém?

Diagnostika

Veľká časť webu (bavíme sa prevažne o e-commerce systémoch) je cachovaná. Vďaka tomu trvá vyrenderovanie webu okolo 10ms (skoro všade mám CPU AMD EPYC 7642 čo je vážne super železo). V jednom momente začal server odpovedať za 2 500 ms namiesto štandardných 10 ms. Zmena bola skoková a okamžite som videl zvýšenie záťaže SQL servera, čo naznačovalo výpadok cache.

V tomto momente som začal experimentovať s niektorými parametrami memcached daemona a PyMemcacheCache backendu, ale všetko bolo viac-menej bez výsledku. Presnejšie povedané keď som znížil čas reconnectu, alebo počet pokusov na reconnect, dokázal som znížiť odozvu servera pri záťaži na 500 ms z pôvodných 2 500 ms. Trocha sa zastavím ešte u šialenej hodnoty 2 500 ms. Bez cache trvá vyrenderovanie domovskej stránky 500 ms. Cache má timeout 1s a počet opakovaných pokusov 2, takže ak sa 2x nedokáže pripojiť (čo trvá 2s), vyrenderuje sa bez cache za zvyšnú pol sekundu.

Testujeme

Začal som experimentovať s vláknami na vlastnom stroji. Spustil teda príkaz ab -n 300 -c 5 -g vystup.tsv 'http://localhost:8000/', ktorý zaťažuje server s 5 paralelnými vláknami. Všetko beží stabilne. Druhý krát som opakoval ten istý test, ale tentoraz som povolil 5 paralelných vlákien servera. Bumbác zrazu server odpovedá 10x pomalšie so šialenou štandardnou odchýlkou.

Obrázok 1: Porovnanie rýchlosti a 5/95 percentilu

Vysvetlenie

Ak server vybavuje naraz len jednu požiadavku, všetko funguje ako má. Ak musí obslúžiť viacej požiadaviek súčasne, začne vypadávať cache. To je extrémne nepríjemná situácia, pretože stačí pár požiadaviek za sebou a všetky ďalšie požiadavky už spôsobia DOS servera.

Evidentne sa tam niečo deje s vláknami. Po krátkom vyhľadávaní som zistil, že ani jeden backend nie je thread safe, takže pri súbežnom použití z viacerých vlákien dôjde zákonite k zmiešaniu packetov a vypnutiu cache v dôsledku chyby (výnimka sa nevyhadzuje, pretože nechcem vyhadzovať chybu pri obyčajnom výpadku memcached servera).

Podľa dokumentácie môže PyMemcacheCache fungovať aj s povolenými vláknami ak má nastavený parameter use_pooling. Dokumentácia toho znesie veľa, reálne to nepomohlo.

Oprava

Problém som sa rozhodol opraviť vytvorením samostatného spojenia pre každé vlákno. Teoreticky by bolo možné použiť zámky, ale radšej by som chcel maximalizovať priepustnosť. Môj blbý cache backend som ako obvykle zverejnil na githube. Možnosti nastavenia sú rovnaké ako v PyLibMCCache. Jednoduché nastavenie vyzerá napríklad takto:

CACHES = {
    'default': {
        'BACKEND': 'django_pylibmc_threadsafe.PyLibMCCache',
        'LOCATION': '127.0.0.1:11211',
        'KEY_PREFIX': '',
        'OPTIONS': {
            'binary': True,
            'ignore_exc': True,
            'behaviors': {
                'ketama': True,
            }
        }
    },
}

Výsledný časový priebeh po úprave vyzerá podstatne lepšie, aj keď priepustnosť je nižšia. Tu musím pripomenúť, že Python má GIL, takže podľa očakávania je priepustnosť napriek vyššiemu počtu vlákien nižšia. Vlákna sú však užitočné pri I/O operáciách, napríklad komunikácia s databázou.

Záver

Všetky memcache backendy v Djangu sú momentálne nepoužiteľné pri zapnutom multithread režime. Bacha na to. Problémom sa dá vyhnúť buď vypnutím threadov a používaním len multiprocesového režimu, alebo použitím vlastného (prípadne môjho) cache backendu.

Pre pridávanie komentárov sa musíte prihlásiť.

- RE: Oprava nepoužiteľného memcache v Django frameworku 21.11.2022 | 10:48
  Richard antiX Používateľ
  
  Hm, to je riadne špecializovaný zápis, ale určite si nájde svojho čitateľa. Možno som to v článku prehliadol, ale čo bola príčina, že naraz pôvodné nastavenia, ktoré doteraz fungovali k spokojnosti, bolo potrebné opravovať/meniť? Teda - je to v úvode, že išlo k zmenu frameworku, ale tá zmena, tá sa deje nejako automaticky (laicky - ako automatický update)?
  - RE: Oprava nepoužiteľného memcache v Django frameworku 21.11.2022 | 12:51
    Miroslav Bendík Gentoo Administrátor
    
    Podvozok pravidelne aktualizujem (v intervale vydávania LTS verzíí) kvôli bezpečnosti. V poslednej verzii bol vyhodený starý cachovací backend, takže som to nejak musel opraviť.
    
    Chat

Pridať správu

Správy

O konferencii 13. ročník konferencie OSSConf

26.06 | 16:50 | Miroslav Bendík

Dátum udalosti: 01.07.2025

V dňoch 1. – 3. júla 2025 sa na Žilinskej univerzite uskutoční 13. ročník konferencie OSSConf. Na webe je zverejnený program konferencie ako aj zborník.

Zdroj: ossconf.fri.uniza.sk

Žiadne komentáre | Komunita

Google práve daroval Linux Foundation umelú inteligenciu

26.06 | 11:37 | Balin50

Spoločnosť Google daruje protokol A2A nadácii Linux Foundation.

V apríli 2025 spoločnosť Google spustila protokol Agent2Agent (A2A), otvorený štandard navrhnutý tak, aby umožňoval bezpečnú a inteligentnú komunikáciu medzi autonómnymi agentmi s umelou inteligenciou.

O niekoľko mesiacov neskôr spoločnosť Google darovala A2A nadácii Linux Foundation, ktorá v spolupráci so spoločnosťami AWS, Cisco, Google, Microsoft, Salesforce, SAP a ServiceNow vytvorila projekt Agent2Agent .

Ďalšie info

Zdroj: IT's FOSS

Žiadne komentáre | IT novinky

Firefox 138 - nová funkcia TabGroups

01.05 | 11:16 | kamowski

Čo robiť, ak mi TabGroups nefunguje, aj keď som už aktualizoval na FF 138?

Zdroj: https://www.mozilla.org/en-US/firefox/138.0/releasenotes/

1 komentár | Novinky

VIdeo ako sa vyrába Thermal Grizzly pasta

29.04 | 21:41 | redhawk1975

video sa venuje rozdielom v teplovodivých pastách, ako sa teplovodivá pasta vyrába, dobrým a zlým tepelnoizolačným materiálom a ďalším témam, a to všetko o chladení procesorov a grafických kariet.

Zdroj: Gamer Nexus

Žiadne komentáre | Zaujímavý článok

MX-23.6

17.04 | 08:50 | redhawk1975

13. apríla 2025 bola vydaná verzia MX linux 23.6

Zdroj: Mx linux blog

Žiadne komentáre | Nová verzia

Bratislava OpenCamp už túto sobotu prinesie témy ako bezpečnosť, zálohy či pohľad do štátneho IT

31.03 | 15:10 | OpenCamp

Dátum udalosti: 05.04.2025

Tretí ročník Bratislava OpenCamp sa uskutoční už túto sobotu na FIIT STU. Registrácia účastníkov prebieha online a účasť je bezplatná.

Zdroj: Bratislava OpenCamp

Žiadne komentáre | Novinky

Tablet s procesorom s architektúrou RISC-V

18.03 | 00:57 | menom

Tablet PineTab-V od spoločnosti Pine64 sa teraz dodáva s vylepšeným hardvérom a operačným systémom založeným na linuxovej distribúcii Debian.

Zdroj: liliputing.com

1 komentár | Novinky

MidPoint Community Meetup 12.-14.05.2025 v Bratislave

17.03 | 16:59 | vera_evolveum

Dátum udalosti: 12.05.2025

Zúčastnite sa open sourcovej konferencie v oblasti správy a riadenia identít (identity governance and administration), kde na vás čakajú zaujímavé workshopy, prednášky a networking s industry expertami v rámci komunity.

Zdroj: https://evolveum.com/midpoint-community-meetup-2025/

Žiadne komentáre | Komunita

Nová verzia linuxu pre hudobníkov AV Linux Base 23.5 “Greatest Hits” je vonku

06.02 | 13:34 | redhawk1975

Vyšlo „paralelné vydanie“ (nie úplná aktualizácia) verzie AV Linux MX Edition.

Zdroj: AV Linux

3 komentáre | Nová verzia

PF 2025

04.01 | 11:03 | Pavel

Priatelia želám Vám do Nového roku 2025 všetko dobré, nech sa Vám vo svete Linuxu darí a z mojej strany ďakujem všetkým, ktorí akýmkoľvek spôsobom prispievajú na tento web. Či sú to už správy o zaujímavých novinkách, komentáre v diskusiách alebo blogy, ktoré niekedy zaberú aj pol dňa klepania na úkor svojho času. O to väčšia vďaka, PF 2025.

1 komentár | Komunita

Ďalšie