Goldman Sachs Massive Trading Error Bears A Scary Resemblance To The One Yang Dibawa ke Bawah Knight Capital Sekarang kita tahu lebih banyak tentang kesalahan perdagangan opsi kemarin bisa menghabiskan biaya jutaan pound Goldman Sachs, kita tahu bahwa itu terlihat sangat mirip dengan kesalahan perdagangan besar lainnya - Knight Capitals 450 juta kesalahan perdagangan dari tahun 2012. Kesalahan Goldmans kemarin - kesalahan pemrograman sistem yang menetapkan batasan harga yang salah dalam sejumlah simbol ticker - dan kesalahan Knights - juga kesalahan pemrograman sistem yang menyebabkan algoritma membeli tinggi dan menjual rendah - menyoroti fakta bahwa Perangkat lunak komputer berkecepatan tinggi yang rumit memiliki kekuatan untuk mengatur pasar menjadi sebuah tizzy. Heres seberapa jauh Goldman melakukan perdagangan yang salah, yang dikirim ke bursa opsi di seluruh negeri, tiba kemarin (dari Bloomberg): Perdagangan mungkin telah mempengaruhi 400.000 kontrak untuk perusahaan seperti JPMorgan Chase amp Co. Johnson amp Johnson dan Kellogg Co. berdasarkan Data untuk 500 perdagangan terbesar. Nasdaq OMX PHLX sedang mengkaji daftar sekitar 1.225 kontrak unik pada 51 saham yang mendasarinya, menurut email waspada pedagangnya. Sekitar 240 September 103 menempatkan kontrak untuk iShares Russell 2000 Exchange-Traded Fund yang diperdagangkan pada pukul 1:32 pagi waktu New York hari ini, turun dari 3.32 dua menit sebelumnya, data yang dikumpulkan oleh Bloomberg show. Perdagangan berikutnya dieksekusi pada pukul 3.27 pukul 9.33 pagi. Untuk Knight Capital, sebuah kesalahan pemrograman membuat perusahaan tersebut memiliki eksistensinya sendiri. Goldman, di sisi lain, mengatakan bahwa kesalahan tersebut tidak akan menjadi material bagi kondisi keuangan perusahaan. Bank ini dikenal memiliki beberapa teknologi perdagangan paling canggih dan kuat di Street, namun berbicara tentang perdagangan dengan kecepatan tinggi di pasar opsi di sini. Seiring perusahaan mencoba membangun program untuk menjadi yang tercepat dan paling buruk, katakan beberapa ahli, kesalahan bisa dilakukan. Kembali sekitar waktu Knight, Insider Bisnis berbicara dengan Lev Lesokhin. Dia bekerja untuk CAST, perusahaan yang memvisualisasikan risiko inheren dalam sistem perangkat lunak keuangan. Lesokhin menjelaskan bahwa beberapa dari firma keuangan ini kurang memperhatikan cukup jauh dari apa yang ada di bawah kap komputer mereka - dan itu berarti hal-hal aneh dapat terjadi. Di Knight, hal aneh itu adalah kode Frankenstein. Sebagian besar aplikasi IT memiliki kode mati, kata Leskhin. Its di sana hanya nongkrong di kode dasar tapi tidak ada modul hidup yang memanggilnya. Jika Anda tidak memiliki pengawasan struktural maka Anda tidak tahu apakah kode hidup baru Anda bisa memanggil kode yang telah mati. Dalam kasus Knights, memang begitu. Kode hidup tersebut memanggil kode mati untuk hidup kembali dan program tersebut mulai diperdagangkan dalam hal itu. Tunggu saja untuk melihat apa yang terjadi dengan Goldman. Sedangkan untuk perdagangan, mereka semua bisa dirusak (batal) tergantung peraturan untuk apa yang merupakan kesalahan resmi pada bursa yang dimaksud (NYSE, NASDAQ, CBOE). Lebih lanjut tentang ini yang akan datang Dapatkan harga saham Goldman Sachs terbaru di sini. Siaran Pers Biaya SEC Knight Knight Dengan Pelanggaran Peraturan Akses Pasar UNTUK SEGERA DITERBITKAN 2013-222 Washington DC 16 Oktober 2013 mdash Securities and Exchange Commission hari ini mengumumkan bahwa Knight Capital Americas LLC telah sepakat untuk Membayar 12 juta untuk menyelesaikan tuduhan bahwa hal itu melanggar peraturan akses pasar agencyrsquos sehubungan dengan kejadian perdagangan pada tanggal 1 Agustus 2012 yang mengganggu pasar. Investigasi SEC menemukan bahwa Knight Capital tidak memiliki pengamanan yang memadai untuk membatasi risiko yang ditimbulkan oleh aksesnya ke pasar, dan gagal sebagai akibat untuk mencegah masuknya jutaan pesanan yang keliru. Knight Capital juga gagal melakukan tinjauan yang memadai terhadap efektivitas pengendaliannya. Ini adalah tindakan penegakan pertama SECrsquos di bawah aturan akses pasar, yang diadopsi pada tahun 2010 sebagai Peraturan 15c3-5. Aturan akses pasar sangat penting untuk melindungi pasar, dan pelanggaran Knight Capitalrsquos membuat perusahaan dan pasar berisiko, kata Andrew Ceresney, co-director Divisi Pemberantasan SECrsquos. Dengan kecepatan perdagangan yang cepat di pasar hari ini dan potensi dampak kerusakan kendali yang besar, perwira pialang harus mematuhi standar kepatuhan yang tinggi yang diperlukan untuk operasi pasar yang aman dan teratur. rdquo Daniel M. Hawke, kepala Unit Penyalahgunaan Unit Pelaksana SEC, menambahkan, ldquoBroker dan dealer harus melihat masing-masing komponen di masing-masing sistem mereka dan bertanya pada diri sendiri apa yang akan terjadi jika komponen tersebut tidak berfungsi dan jaring pengaman berada di tempat untuk membatasi bahaya yang ditimbulkannya. Kegagalan Knight Capitalrsquos untuk mengajukan pertanyaan-pertanyaan ini memiliki konsekuensi yang mengerikan. Menurut perintah SECrsquos, Knight Capital membuat dua kesalahan teknologi penting yang menyebabkan insiden perdagangan pada 1 Agustus 2012. Knight Capital memindahkan sebuah bagian kode komputer pada tahun 2005 ke sebuah Titik awal dalam urutan kode di router ekuitas otomatis, membuat fungsi dari router rusak. Meskipun fungsi ini tidak dimaksudkan untuk digunakan, Knight meninggalkannya di router. Pada akhir Juli 2012 ketika mempersiapkan diri untuk mengikuti Program Likuiditas Ritel NYSErsquos yang baru, Knight Capital secara tidak benar menggunakan kode baru di router yang sama. Akibatnya, pesanan tertentu yang memenuhi syarat untuk program NYSErsquos memicu fungsi yang tidak tepat di router Knight Capitalrsquos, yang kemudian tidak dapat mengenali kapan pesanan telah terisi. Selama 45 menit pertama setelah pasar dibuka pada 1 Agustus, Knight Capitalrsquos router dengan cepat mengirim lebih dari 4 juta pesanan ke pasar saat mencoba untuk mengisi hanya 212 pesanan pelanggan. Knight Capital menukarkan lebih dari 397 juta saham, memperoleh beberapa miliar dolar dalam posisi yang tidak diinginkan, dan akhirnya mengalami kerugian lebih dari 460 juta. Perintah SECrsquos juga menemukan bahwa sistem Knight Capital internal menghasilkan 97 email otomatis yang masuk ke sekelompok personil. Email tersebut merujuk pada router dan mengidentifikasi kesalahan sebelum pasar dibuka pada 1 Agustus. Pesan-pesan ini disebabkan oleh kegagalan penerapan kode, namun Knight Capital tidak bertindak atas mereka pada 1 Agustus. Meskipun Knight Capital tidak merancang pesan ini sebagai sistem Lansiran, mereka memberi kesempatan untuk mengidentifikasi dan memperbaiki masalah sebelum pasar dibuka. Perintah SECrsquos mengenakan Knight Capital dengan melanggar peraturan akses pasar dengan cara berikut: Tidak memiliki kontrol yang memadai pada suatu titik segera sebelum pengiriman pesanan ke pasar, seperti kontrol untuk membandingkan perintah yang meninggalkan router dengan yang masuk. Bergantung pada kontrol risiko finansial yang tidak mampu mencegah masuknya pesanan yang melebihi batas modal yang telah ditetapkan sebelumnya untuk perusahaan secara agregat. Tidak menautkan akun yang menerima eksekusi pada tanggal 1 Agustus ke kontrol otomatis mengenai jumlah keseluruhan eksposur keuangan perusahaan. Tidak memiliki kontrol dan prosedur yang memadai untuk penyebaran dan pengujian kode untuk router orde keadilan. Tidak memiliki cukup kontrol dan prosedur tertulis untuk membimbing karyawan untuk menanggapi insiden teknologi dan kepatuhan yang signifikan. Tidak meninjau secara memadai aktivitas bisnisnya sehubungan dengan akses pasarnya untuk memastikan efektivitas pengendalian pengendalian dan prosedur pengawasan secara keseluruhan. Penilaiannya sebagian besar berfokus pada penyusunan inventarisasi kontrol yang ada dan memastikan fungsinya berfungsi sebagaimana mestinya, alih-alih berfokus pada risiko seperti kemungkinan malfungsi di router pesanan otomatisnya. Perusahaan juga bereaksi terhadap kejadian sebelumnya terlalu sempit dan tidak mempertimbangkan akar penyebab insiden sebelumnya. Tidak memiliki deskripsi tertulis tentang pengendalian manajemen risikonya. Tidak mengesahkan sertifikasi CEO tahunan 2012 bahwa kontrol manajemen risiko Knight Capitalrsquos dan prosedur pengawasan sesuai dengan peraturan akses pasar. Perintah SECrsquos juga mengenakan Knight Capital dengan melanggar Aturan 200 (g) dan 203 (b) Regulasi SHO, yang memerlukan penandaan pesanan penjualan singkat yang tepat dan penempatan saham untuk dipinjam untuk penjualan pendek. Perintah SECrsquos mengharuskan Knight Capital membayar denda sebesar 12 juta dan meminta konsultan independen untuk melakukan tinjauan menyeluruh terhadap kontrol dan prosedur perusahaan untuk memastikan kepatuhan terhadap peraturan akses pasar. Tanpa mengakui atau menolak temuan tersebut, Knight Capital menyetujui perintah SECrsquos, yang mengecam perusahaan tersebut dan mengharuskannya untuk berhenti dan berhenti melakukan atau menyebabkan pelanggaran tersebut. Investigasi SECrsquos dilakukan oleh staf di Unit Pelanggaran Pasar termasuk Jason Burt, Carolyn Welshhans, William Max Hathaway, dan Ainsley Kerr. Kasus tersebut diawasi oleh Mr. Hawke dan co-deputi kepala unitrsquos Robert Cohen. Program Ujian Nasional SECrsquos dan Divisi Perdagangan dan Pasar memberikan bantuan yang substansial. Saya sedang berbicara di sebuah konferensi tahun lalu mengenai topik DevOps, Configuration as Code, dan Continuous Delivery dan menggunakan cerita berikut untuk menunjukkan pentingnya membuat penerapan sepenuhnya otomatis. Dan berulang sebagai bagian dari inisiatif DevOpsContinuous Delivery. Sejak konferensi itu saya telah diminta oleh beberapa orang untuk berbagi cerita melalui blog saya. Cerita ini benar ini benar-benar terjadi. Inilah ceritakan ceritaku berdasarkan apa yang telah saya baca (saya tidak terlibat dalam hal ini). Ini adalah kisah bagaimana sebuah perusahaan dengan hampir 400 juta aset bangkrut dalam 45 menit karena penyebaran yang gagal. Latar Belakang Knight Capital Group adalah perusahaan jasa keuangan global Amerika yang bergerak di bidang pembuatan pasar. Eksekusi elektronik, dan penjualan dan perdagangan institusional. Pada tahun 2012 Knight adalah pedagang terbesar di ekuitas AS dengan pangsa pasar sekitar 17 pada masing-masing NYSE dan NASDAQ. Knights Electronic Trading Group (ETG) mengelola rata-rata volume perdagangan harian lebih dari 3,3 miliar perdagangan setiap hari, diperdagangkan di atas 21 miliar dolar. Thats no joke Pada tanggal 31 Juli 2012 Knight memiliki sekitar 365 juta uang tunai dan setara. NYSE berencana untuk meluncurkan Program Likuiditas Ritel baru (sebuah program yang dimaksudkan untuk memberikan harga yang lebih baik kepada investor ritel melalui pialang ritel, seperti Knight) pada tanggal 1 Agustus 2012. Dalam persiapan untuk acara ini, Knight memperbarui algoritma otomatis mereka yang berkecepatan tinggi. Router yang mengirim pesanan ke pasaran untuk eksekusi yang dikenal dengan SMARS. Salah satu fungsi inti SMARS adalah menerima pesanan dari komponen platform perdagangan Knights lainnya (perintah orang tua) dan kemudian mengirim satu atau lebih perintah anak keluar untuk eksekusi. Dengan kata lain, SMARS akan menerima pesanan besar dari platform perdagangan dan memecahnya menjadi beberapa pesanan lebih kecil untuk menemukan kecocokan pembeli dengan volume saham. Semakin besar pesanan orang tua, semakin banyak pesanan anak akan dihasilkan. Pembaruan untuk SMARS dimaksudkan untuk mengganti kode lama dan tidak terpakai yang disebut fungsi Power Peg yang tidak dimiliki Knight dalam 8 tahun (mengapa kode yang telah mati selama 8 tahun masih ada di basis kode adalah sebuah misteri, namun demikian Bukan intinya). Kode yang diperbarui berulang sebagai bendera lama yang digunakan untuk mengaktifkan fungsi Power Peg. Kode itu benar-benar diuji dan terbukti bekerja dengan benar dan andal. Apa yang mungkin bisa salah Apa yang Mungkin Bisa Terjadi Salah Antara Juli 27, 2012 dan 31 Juli 2012 Knight secara manual memasang perangkat lunak baru ini ke sejumlah server per hari delapan (8) server dalam semua. Inilah yang dikatakan oleh SEC mengenai proses penerapan manual (BTW jika ada pengarsipan SEC mengenai penerapan Anda mungkin salah). Selama penggelaran kode baru, salah satu teknisi Knights tidak menyalin kode baru ke salah satu dari delapan server komputer SMARS. Knight tidak memiliki teknisi kedua yang meninjau penyebaran ini dan tidak ada seorang pun di Knight menyadari bahwa kode Power Peg belum dihapus dari server kedelapan, atau kode RLP yang baru ditambahkan. Knight tidak memiliki prosedur tertulis yang memerlukan tinjauan semacam itu. SEC Pengarsipan Pelepasan No. 70694 16 Oktober 2013 Pukul 09.30 Waktu Timur pada tanggal 1 Agustus 2012 pasar terbuka dan Knight mulai memproses pesanan dari broker-dealer atas nama pelanggan mereka untuk Program Likuiditas Ritel yang baru. Tujuh (7) server yang memiliki penyebaran SMARS yang benar mulai memproses pesanan ini dengan benar. Pesanan yang dikirim ke server kedelapan memicu bendera repurposed yang dipaksakan dan membawa kembali kode Power Peg yang sudah mati. Serangan Kode Pembunuh Zombie Penting untuk memahami apa kode Power Peg yang telah mati dimaksudkan untuk dilakukan. Fungsionalitas ini dimaksudkan untuk menghitung saham yang dipatok terhadap pesanan orang tua saat pesanan anak dieksekusi. Power Peg akan menginstruksikan sistem untuk menghentikan perutean pesanan anak setelah pesanan orang tua terpenuhi. Pada dasarnya, Power Peg akan melacak pesanan anak dan menghentikannya setelah pesanan orang tua selesai. Pada tahun 2005 Knight memindahkan fungsi pelacakan kumulatif ini ke tahap awal dalam eksekusi kode (sehingga menghapus pelacakan hitungan dari fungsi Power Peg). Ketika bendera Power Peg di server kedelapan diaktifkan, fungsi Power Peg mulai merutekan perintah anak untuk eksekusi, namun bukankah melacak jumlah saham terhadap perintah orang tua agak seperti lingkaran tak berujung. 45 Menit Neraka Bayangkan apa yang akan terjadi jika Anda memiliki sistem yang mampu mengirim pesanan otomatis berkecepatan tinggi ke pasar tanpa ada pelacak untuk melihat apakah cukup perintah telah dieksekusi. Ya, itu seburuk itu. Saat pasar dibuka pukul 9.30 pagi orang dengan cepat mengetahui ada yang tidak beres. Pada pukul 9:31 pagi, tampak jelas bagi banyak orang di Wall Street bahwa ada sesuatu yang serius yang terjadi. Pasar dibanjiri pesanan biasa untuk volume perdagangan reguler pada saham tertentu. Pada pukul 09:32 banyak orang di Wall Street bertanya-tanya mengapa hal itu tidak berhenti. Ini adalah keabadian dalam istilah perdagangan berkecepatan tinggi. Mengapa seseorang menekan tombol kill-switch pada sistem apa saja yang melakukan ini. Ternyata tidak ada switch mematikan. Selama 45 menit pertama perdagangan eksekusi Ksatria membentuk lebih dari 50 volume perdagangan, mendorong saham tertentu naik lebih dari 10 dari nilai mereka. Akibatnya, saham lain mengalami penurunan nilai sebagai respons terhadap perdagangan yang keliru. Untuk memperburuk keadaan, sistem Knights mulai mengirim pesan email otomatis pada pagi hari jam 8:01 pagi (ketika SMARS memproses pesanan yang memenuhi syarat untuk perdagangan pra-pasar). Pesan email merujuk SMARS dan mengidentifikasi kesalahan saat Power Peg dinonaktifkan. Antara pukul 08.01 pagi dan 9:30 pagi, ada 97 email yang dikirim ke personel Knight. Tentu email ini tidak dirancang sebagai peringatan sistem dan oleh karena itu tidak ada yang melihat mereka segera. Ups. Selama 45 menit Neraka yang dialami Knight, mereka mencoba beberapa tindakan balasan untuk mencoba dan menghentikan perdagangan yang keliru. Tidak ada kill-switch (dan tidak ada prosedur terdokumentasi tentang bagaimana cara bereaksi) sehingga mereka dibiarkan mencoba untuk mendiagnosis masalah ini di lingkungan live trading dimana 8 juta saham diperdagangkan setiap menitnya. Karena mereka tidak dapat menentukan apa yang menyebabkan perintah salah yang mereka lakukan dengan mencopot pemasangan kode baru dari server, hal itu dilakukan dengan benar. Dengan kata lain, mereka menghapus kode kerja dan meninggalkan kode yang rusak. Ini hanya memperkuat masalah yang menyebabkan perintah orang tua tambahan untuk mengaktifkan kode Power Peg di semua server, bukan hanya yang tidak digunakan dengan benar. Akhirnya mereka bisa menghentikan sistem setelah 45 menit berdagang. Dalam 45 menit pertama, pasar membuka kode Power Peg yang diterima dan memproses 212 pesanan orang tua. Akibatnya SMARS mengirim jutaan pesanan anak ke pasar sehingga menghasilkan 4 juta transaksi terhadap 154 saham untuk lebih dari 397 juta saham. Bagi Anda pecandu pasar saham ini berarti Knight mengasumsikan sekitar 3,5 miliar posisi long net di 80 saham dan 3,15 miliar posisi bersih di 74 saham. Dalam istilah awam, Knight Capital Group menyadari kerugian 460 juta dalam 45 menit. Ingat, Knight hanya memiliki 365 juta uang tunai dan setara. Dalam 45 menit Knight pergi dari menjadi pedagang terbesar di ekuitas AS dan pembuat pasar utama di NYSE dan NASDAQ untuk bangkrut. Mereka memiliki 48 jam untuk meningkatkan modal yang diperlukan untuk menutupi kerugian mereka (yang berhasil mereka lakukan dengan investasi 400 juta dari sekitar setengah lusin investor). Knight Capital Group akhirnya diakuisisi oleh Getco LLC (Desember 2012) dan perusahaan gabungan tersebut sekarang disebut KCG Holdings. Pelajaran untuk Mempelajari Peristiwa 1 Agustus 2012 harus menjadi pelajaran bagi semua tim pengembangan dan operasi. Tidaklah cukup untuk membangun perangkat lunak yang hebat dan mengujinya, Anda juga harus memastikannya dikirim ke pasar dengan benar sehingga pelanggan Anda mendapatkan nilai yang Anda berikan (dan karenanya Anda tidak membangkrutkan perusahaan Anda). Insinyur yang mengerahkan SMARS tidak semata-mata untuk disalahkan di sini, proses yang telah disiapkan Knight tidak sesuai dengan risiko yang mereka hadapi. Selain itu proses mereka (atau kekurangannya) pada dasarnya rentan terhadap kesalahan. Kapan pun proses penyebaran Anda bergantung pada manusia yang membaca dan mengikuti petunjuk, Anda mengekspos diri Anda untuk mengambil risiko. Manusia membuat kesalahan. Kesalahan bisa ada dalam petunjuk, dalam menafsirkan instruksi, atau dalam pelaksanaan instruksi. Penyebaran perlu dilakukan secara otomatis dan berulang dan bebas dari kesalahan manusia potensial. Seandainya Knight menerapkan sistem penyebaran otomatis yang lengkap dengan konfigurasi, penerapan dan uji otomasi, kesalahan yang menyebabkan Knightmare dapat dihindari. Beberapa prinsip untuk Continuous Delivery berlaku di sini (walaupun Anda tidak menerapkan proses Pengiriman Terus menerus penuh): Melepaskan perangkat lunak harus merupakan proses yang dapat diulang dan dapat diandalkan. Otomatiskan sebanyak yang wajar. Skenario: Mari berasumsi bahwa mereka memiliki DevOps yang sangat bagus. Jadi semua server akan di sync. Tapi 8211 berasumsi bahwa kode baru itu memiliki bug. Jadi semua server selaras, tapi punya kode buggy yang sama. Bagaimana jika dua versi kode, yaitu 2 penempatan terakhir memiliki bug ini. Jadi begitu mereka menyadari ada yang tidak beres, mereka akan mengembalikan kode itu, kutu masih tetap ada. Menit-menit berharga telah berlalu. Mungkin 20 menit bukan 45 menit di artikel Anda. Jadi, singkatnya 8211, kill-switch bencana mereka adalah penyebaran kode rollback di lingkungan live. Itu masih akan menjadi desain yang cacat. Yang mereka butuhkan adalah sebuah saklar merah besar (hampir secara harfiah, di suatu tempat di dasbor mereka) untuk segera berhenti. Di mana aturan bisnis yang mengatakan bahwa pertama-tama tidak membahayakan8221. VJ jika penyebaran ke semua server telah bekerja, mereka pasti akan baik-baik saja. Tapi dalam kasus ini, 7 dari 8 untuk satu subsistem dikerahkan dengan benar. Karena perilaku buruk, mereka memutar kembali yang lain 7 berpikir kode baru dalam subsistem adalah masalah. Itu melipatgandakan masalah sampai akhirnya mematikan saklar. Bencana hampir selalu rumit. Dalam kasus ini adalah praktik pengkodean yang buruk, ditambah praktik pemeriksaan kode uji yang patut dipertanyakan, ditambah kesalahan dalam penerapan, ditambah kemunduran pada perincian subsistem daripada keseluruhan sistem. Jika Anda menyelesaikan semua masalah tersebut, Anda tidak akan mengalami bencana. Salah satu hal yang saya lihat di perusahaan-perusahaan yang tidak menyadari pentingnya dan dampak sesungguhnya dari sistem TI mereka adalah bahwa mereka tidak menyediakan anggaran untuk pembaruan kode warisan. Sebagai contoh: Saya melihat situasi dimana TI tidak memiliki anggaran. Ini harus membenarkan semua hal yang dilakukannya terhadap biaya bisnis. Yang berarti terus berebut untuk berbaris proyek baru. Bisnis jarang melihat kebutuhan untuk memperbarui perangkat lunak lama yang saat ini bekerja, sehingga mereka menolak untuk membayarnya. Hasilnya adalah kode baru yang konstan, dibuat oleh coders termurah, walaupun tidak berinvestasi pada teknologi yang pada akhirnya akan meningkatkan kinerja dan mengurangi risiko. Mengapa Karena ini dilihat sebagai masalah 8220IT8221 dan bukan bidang proyek apa pun yang sedang dikerjakan orang IT, maka tidak ada yang akan membayarnya. Sebuah bacaan yang bagus mengenai praktik ini adalah The Phoenix Project oleh Gene Kim, Kevin Behr, dan George Spafford. Terima kasih telah menerapkan otak pada hype. Mungkin orang harus bertanya mengapa teknisi yang terlibat bisa menyalahkannya tapi tidak berwenang untuk mematikan saklar mereka sendiri. Oh, benar, kenapa Anda meletakkan OpsSRE di tempat. 8220R8221 adalah untuk bertanggung jawab, alias nyala api. Saya telah menulis sedikit tentang acara ini, dan saya akan memperingatkan siapa pun untuk menggunakan laporan SEC sama sekali selain untuk apa yang dibutuhkan SEC untuknya. Kitchensoap20131029counterfactuals-knight-capital Membaca yang menarik. Saya bekerja di sebuah rumah lelang besar untuk buah dan sayuran begitu versi perangkat lunak baru dipasang dan gagal, menyebabkan kerugian besar bagi para pedagang (walaupun tidak sekesar ini). Ini juga merupakan kasus penyebaran yang tidak semestinya dan tidak ada kejatuhan. Pelajaran yang bisa dipelajari adalah bahwa ada ranah di mana komputer tidak boleh mengambil keputusan apapun tanpa validasi manusia. Bagaimana dengan orang-orang yang kehilangan pekerjaan karena, oops, ada bug Bagaimana dengan perusahaan lain yang mungkin masuk ke dalam trubble karena perubahan mendadak dari nilai saham Otomasi dari 8220 keputusan tingkat tinggi8221 harus ditangani dengan hati-hati8230 Judul bagus dan pendidikan Btw. Menggunakan kerangka Cynefin memberikan karakterisasi yang lebih baik dari kegagalan 8216DevOps8217 ini tampaknya ditulis dari perspektif DevOps. Solusi yang disarankan konsisten dengan perspektif DevOps 8211 memeriksa proses pelepasan, mengotomatisasi lebih banyak, dan membuat peralihan membunuh dengan kemampuan memutar balik. Seseorang mungkin membaca tulisan itu dan terlalu menekankan teknisi Knight yang tidak menyalin kode lama itu ke salah satu dari delapan server. Seseorang mungkin terlalu menyederhanakan hubungan sebab dan akibat. Seseorang dapat menemukan kembali peraturan baru untuk memastikan hal ini terjadi lagi.8217 Pendekatan yang lebih kuat dapat diinvestasikan ke: 8211 Meningkatkan keragaman untuk menganalisis situasi dan mensintesis opsi yang lebih baik 8211 Meningkatkan komunikasi antara spesialisasi 8211 Meningkatkan koordinasi implisit antara spesialisasi 8211 Merekrut individu dengan lebih banyak Keahlian untuk menulis dan meninjau kode Faktor utama yang membatasi kemampuan tim dalam sembilan tahun sebelum kejadian kegagalan signifikan adalah salah mengkarakterisasi sistem. Dalam kerangka kerja Cynefin, yang membatasi kegagalan ini pada masalah DevOps adalah mengaitkan sistem dengan domain 8220Obvious8221 dimana ada hubungan sebab dan akibat sederhana yang dapat dikenali oleh 8216professionals.8217 Kegagalan tidak boleh dikaitkan dengan domain Cynefin 8220Complicated8221 dimana analisis signifikan Oleh 8216specialists8217 akan mencegah kegagalan tersebut. Sistem harus dikaitkan dengan domain 8230Complex8221 Cynefin 8211 sebuah sistem adaptif yang kompleks. Sistemnya bersifat disposisi. Kondisi awal yang sama tidak akan menghasilkan kegagalan yang sama (kecuali karena kecelakaan). Untuk informasi lebih lanjut tentang Cynefin, kunjungi en. wikipedia. orgwikiCynefin dan CognitiveEdge. Saya menghargai Anda menyoroti faktor diam-diam dalam malapetaka semacam itu. Seperti pengarangnya, saya juga bekerja dalam operasi, dan mudah terbuai dengan pola pikir lama yang sama mengenai sebab dan solusi. Saya sangat menikmati poin Anda yang berkaitan dengan keragaman (yang hadir dalam semua bentuk: tingkat pengalaman, latar belakang budaya dan pendidikan, keterampilan, usia, dll.), Karena menurut saya ini adalah dorongan kuat di balik kesuksesan DevOps itu sendiri. Memiliki berbagai perspektif, baik di dalam maupun di luar tim Anda, melihat proyek Anda memiliki potensi yang kuat dan dapat dibuktikan dan dapat membantu mengurangi kelalaian seperti yang dibicarakan dalam artikel ini. Gt mengapa kode yang telah mati selama 8 tahun masih ada di basis kode adalah misteri, tapi bukan itu intinya Sebaliknya, itu persis intinya. Kode dengan kemungkinan konfigurasi yang tidak terpakai, dan karena itu tidak teruji, adalah bencana yang menunggu untuk terjadi. Inilah mengapa I8217m sangat skeptis tentang pendekatan berbasis bendera. Konfigurasi adalah bagian dari program Anda sebagai kode, dan perubahan konfigurasi harus melalui permintaan tarik 8211 tarik siklus yang sama, pengkajian kode, rilis, diterapkan pada pementasan 8211 sebagai perubahan lainnya. Jika proses pelepasan Anda terlalu berat dan Anda perlu membuat perubahan konfigurasi cepat ke produksi, perbaiki proses pelepasan Anda. Ada terlalu banyak kesalahan untuk mengaitkan kegagalan epik itu dengan hanya pada DevOps (walaupun saya setuju sepenuhnya bahwa otomasi dan pengujian adalah satu-satunya cara): 8211 Tidak ada kerja tim dan daftar periksa saat melakukan pembaruan pada server produksi. Setiap pembaruan produksi harus mewajibkan tim mengawasi satu sama lain, dan melalui daftar periksa. 8211 8 tahun kode lama yang tidak digunakan dalam produksi. Itu memberi tahu Anda banyak tentang kurangnya pemahaman tentang risiko kode 8220unused8221 yang menggantung. Tidak cukup logging dari kode, dan pemantauan log, korelasi dan analisis real-time yang tidak mencukupi. Itu akan memicu cukup banyak petunjuk awal kepada para insinyur dan orang-orang ops. 8211 Tidak ada failover hot-hot untuk sebuah cluster dengan versi sebelumnya. Itu akan menghentikan semua masalah setelah 1 atau 2 menit. (That8217s tombol merah bug yang disebutkan artikelnya) Jika Anda juga telah merancang perangkat lunak, sistem dan perusahaan untuk waktu yang lama, Anda tahu bencana terjadi, Anda tahu beberapa bug hanya tertangkap di alam liar dan tidak selama simulasi, sama seperti Anda Mesin tahu akan turun. Anda perlu mempersiapkan kasus terburuk dalam kedua skenario. Hukum Murphy8217s begitu benar di dunia kita saat ini berada di tempat yang sekarang disebut ruang 8220DevOps8221 selama hampir 20 tahun, lebih dari setengahnya di dunia keuangan. Knight sama-sama menjadi vendor dan pesaing perusahaan tempat saya bekerja saat ini. Otomatisasi penempatan bisa membantu. Mungkin. Tetapi hanya sedikit perusahaan yang bisa membeli lingkungan yang persis sama, dan ini pada dasarnya disebabkan oleh perbedaan lingkungan. Bahkan validasi pengerahan otomatis mungkin tidak membantu dalam kasus ini jika otomasi tidak mengetahui perbedaan lingkungan. Otomasi hanya sebaik pengetahuan orang-orang yang memasangnya. Jika sebuah instalasi manual tidak mengetahui sistem lama, mungkin juga ada kemungkinan besar sistem otomatis tidak akan bisa mengetahuinya. Otomasi sebuah rollback juga sama baiknya dengan pengambilan keputusan apakah akan melakukan roll-back. Dan jika otomasi secara tidak sengaja memulai sistem lama, juga tidak menjamin bahwa mengganti sistem kontemporer sekarang akan menghentikan sistem lama 8211 sehingga Anda bisa berakhir dengan masalah yang sama bahkan setelah kemunduran sistem kontemporer secara otomatis. Yang membawa saya ke poin terakhir: Otomatisasi adalah persyaratan di lingkungan yang besar dan modern. Tapi ketergantungan berlebihan pada hal itu dapat menyebabkan orang-orang yang mengoperasikan sistem tidak menyadari apa yang sedang dilakukannya. Otomasi sangat berguna untuk validasi, karena memvalidasi hal-hal yang dilakukan dengan benar memang membosankan dan mudah berhemat bila dilakukan secara manual. Bahkan saat mengotomatisasi, memiliki breakpoint yang melibatkan manusia atau langkah yang didorong oleh manusia membantu memastikan bahwa mereka yang mengoperasikan sistem mengetahui sistem dan cara kerjanya, sangat meningkatkan kemampuan mereka untuk memecahkan masalah, mendiagnosis masalah, dan memberikan saran yang sesuai mengenai langkah-langkah apa yang harus dilakukan. Menghentikan atau mengurangi masalah Otomasi adalah alat, tapi hanya satu alat dan masih memerlukan pengrajin untuk menggunakannya dengan tepat. Keahlian adalah apa yang membuat dan membuat sistem hebat menjadi hebat. Reblogged ini di Garrett S. Y. Hampton dan berkomentar: Luar biasa. DevOps selalu menonton, mendokumentasikan, dan meninjau penyebaran Anda
No comments:
Post a Comment